2023-9-5 - Posting @uaa@social.mikutter.hachune.net

22:12:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://cmusphinx.github.io/wiki/arpaformat/　1-gramの確率はなんとなくわかるけど、2-gramの確率は分かんない…

ARPA Language models

21:37:30 SASANO Takayoshi @uaa@social.mikutter.hachune.net

SI485i : NLP Set 4 Smoothing Language Models https://www.usna.edu/Users/cs/nchamber/courses/nlp/f13/slides/set4-smoothing.pdf ８ページ目からのLaplace smoothingの説明がまだわかりやすいのかな。

21:08:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とりあえず今使えそうなものでそれっぽいものを仕立てて、それを食わせたらどうなるか…まずはそこから始めないことには。

21:08:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

あと、kakasiで強引に読みを付けてしまうのだけど…読み順にソートし直さないといけないのがちょい面倒。kakasiの限界もあるだろう（chasen/mecab/jumanなどを使った場合にどうなるかというのも課題になるか）。

21:06:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

3-gramの有効なエントリ数は4251526、出現数の総和は3342176718、3-gramについてはこれで出現率は出せる（1-gram/2-gramについても同じ方法で出せるんだろうが）。

問題はバックオフだよなあ…

19:28:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

(page28)「コーパスのサイズが大きくなるとスムージングの性能差がなくなる」、コーパスのサイズが大きくなるとスムージング（バックオフ）の有無の差がなくなる、ではないんだよなあ…？

言語モデル入門（第二版）

18:45:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

data.arpaを見るに、1-gram, 2-gramはbackoff値あり、3-gramは無し。1-gramについては</s>はbackoff値無し、<s>は-99かつbackoff値あり。

このbackoff値をどう求めるか、というのは難しそう…sortlm.pyでもしっかり参照してるし。

13:28:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ゆれたねえ

13:08:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

どうやら問題を見誤ってたみたい。日本語ウェブコーパス2010、N-gram化は済んでいて頻度の値が出ている以上、ここから出現率（とバックオフ値）を計算して.arpaに落とし込むという作業をしないとダメなんだろう。srilmに食わせるんじゃなく。

07:11:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

スマホで十分撮れるのにスマホじゃない物をわざわざ持ち歩いてどうすんの、しかも重いし金かかるしという…価値観の違いなんじゃないかなあ。日本のデジタル一眼離れ。

07:10:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-05 07:08:04 Posting アカハナ akahana@fla.red

This account is not set to public on notestock.

07:08:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://nostryfied.online/ とりあえず自分のデータとやらを落としてみましょうか…

Nostryfied