22:12:44 @uaa@social.mikutter.hachune.net
icon

cmusphinx.github.io/wiki/arpaf 1-gramの確率はなんとなくわかるけど、2-gramの確率は分かんない…

21:37:30 @uaa@social.mikutter.hachune.net
icon

SI485i : NLP Set 4 Smoothing Language Models usna.edu/Users/cs/nchamber/cou 8ページ目からのLaplace smoothingの説明がまだわかりやすいのかな。

21:08:47 @uaa@social.mikutter.hachune.net
icon

とりあえず今使えそうなものでそれっぽいものを仕立てて、それを食わせたらどうなるか…まずはそこから始めないことには。

21:08:11 @uaa@social.mikutter.hachune.net
icon

あと、kakasiで強引に読みを付けてしまうのだけど…読み順にソートし直さないといけないのがちょい面倒。kakasiの限界もあるだろう(chasen/mecab/jumanなどを使った場合にどうなるかというのも課題になるか)。

21:06:08 @uaa@social.mikutter.hachune.net
icon

3-gramの有効なエントリ数は4251526、出現数の総和は3342176718、3-gramについてはこれで出現率は出せる(1-gram/2-gramについても同じ方法で出せるんだろうが)。

問題はバックオフだよなあ…

19:28:56 @uaa@social.mikutter.hachune.net
icon

(page28)「コーパスのサイズが大きくなるとスムージングの性能差がなくなる」、コーパスのサイズが大きくなるとスムージング(バックオフ)の有無の差がなくなる、ではないんだよなあ…?

言語モデル入門 (第二版)(2014/10/19) slideshare.net/yoshinarifujinu

Web site image
言語モデル入門 (第二版)
18:45:57 @uaa@social.mikutter.hachune.net
icon

data.arpaを見るに、1-gram, 2-gramはbackoff値あり、3-gramは無し。1-gramについては</s>はbackoff値無し、<s>は-99かつbackoff値あり。

このbackoff値をどう求めるか、というのは難しそう…sortlm.pyでもしっかり参照してるし。

13:28:25 @uaa@social.mikutter.hachune.net
icon

ゆれたねえ

13:08:05 @uaa@social.mikutter.hachune.net
icon

どうやら問題を見誤ってたみたい。日本語ウェブコーパス2010、N-gram化は済んでいて頻度の値が出ている以上、ここから出現率(とバックオフ値)を計算して.arpaに落とし込むという作業をしないとダメなんだろう。srilmに食わせるんじゃなく。

07:11:22 @uaa@social.mikutter.hachune.net
icon

スマホで十分撮れるのにスマホじゃない物をわざわざ持ち歩いてどうすんの、しかも重いし金かかるしという…価値観の違いなんじゃないかなあ。日本のデジタル一眼離れ。

07:10:11 @uaa@social.mikutter.hachune.net
2023-09-05 07:08:04 アカハナの投稿 akahana@fla.red
icon

このアカウントは、notestockで公開設定になっていません。

07:08:48 @uaa@social.mikutter.hachune.net
icon

nostryfied.online/ とりあえず自分のデータとやらを落としてみましょうか…