https://cmusphinx.github.io/wiki/arpaformat/ 1-gramの確率はなんとなくわかるけど、2-gramの確率は分かんない…
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
https://cmusphinx.github.io/wiki/arpaformat/ 1-gramの確率はなんとなくわかるけど、2-gramの確率は分かんない…
SI485i : NLP Set 4 Smoothing Language Models https://www.usna.edu/Users/cs/nchamber/courses/nlp/f13/slides/set4-smoothing.pdf 8ページ目からのLaplace smoothingの説明がまだわかりやすいのかな。
とりあえず今使えそうなものでそれっぽいものを仕立てて、それを食わせたらどうなるか…まずはそこから始めないことには。
あと、kakasiで強引に読みを付けてしまうのだけど…読み順にソートし直さないといけないのがちょい面倒。kakasiの限界もあるだろう(chasen/mecab/jumanなどを使った場合にどうなるかというのも課題になるか)。
3-gramの有効なエントリ数は4251526、出現数の総和は3342176718、3-gramについてはこれで出現率は出せる(1-gram/2-gramについても同じ方法で出せるんだろうが)。
問題はバックオフだよなあ…
(page28)「コーパスのサイズが大きくなるとスムージングの性能差がなくなる」、コーパスのサイズが大きくなるとスムージング(バックオフ)の有無の差がなくなる、ではないんだよなあ…?
言語モデル入門 (第二版)(2014/10/19) https://www.slideshare.net/yoshinarifujinuma/ss-40451841
data.arpaを見るに、1-gram, 2-gramはbackoff値あり、3-gramは無し。1-gramについては</s>はbackoff値無し、<s>は-99かつbackoff値あり。
このbackoff値をどう求めるか、というのは難しそう…sortlm.pyでもしっかり参照してるし。
どうやら問題を見誤ってたみたい。日本語ウェブコーパス2010、N-gram化は済んでいて頻度の値が出ている以上、ここから出現率(とバックオフ値)を計算して.arpaに落とし込むという作業をしないとダメなんだろう。srilmに食わせるんじゃなく。
スマホで十分撮れるのにスマホじゃない物をわざわざ持ち歩いてどうすんの、しかも重いし金かかるしという…価値観の違いなんじゃないかなあ。日本のデジタル一眼離れ。
This account is not set to public on notestock.