20:43:18 @uaa@social.mikutter.hachune.net
icon

あー、これ詰んだかも。kakasiによる読み仮名の付与、言語モデル作成後にやらないとダメだわ。
ngram-count -text tune.text -write-vocab tune.vocab これでmixture weightsの調整を行うんだけど適当な文をtune.textで解釈させる以上、ここで読み仮名付いてると解釈の邪魔。

コーパスの掃除と、言語モデルの読み仮名付与の二段階でやらないといけないっぽい。あと、weights調整用のサンプルの用意(どうやって?)。無い状態でごり押し、という手もなくはないだろうけど。

20:33:34 @uaa@social.mikutter.hachune.net
icon

gmake MACHINE_TYPE=i686-m64 World

18:53:01 @uaa@social.mikutter.hachune.net
icon

昔からオーディオは宗教だと思っている(異論はあるだろうけど、そう思わせることをしてきたという事実は認識してほしいかも

18:47:31 @uaa@social.mikutter.hachune.net
icon

togetterでまとめている割に、鍵垢で読めないツイートです!残念!!というのを見せられると、すっごく感じ悪いですね…(鍵垢のツイートをtogetterでまとめることができてしまうのも問題なのかも)

06:10:40 @uaa@social.mikutter.hachune.net
icon

いや、単語→識別子、である以上は<s></s>も単語として扱うんだと思う。
unigram: P(<s>), P(word), P(</s>)だと、bigram: P(word|<s>), P(</s>|word)になるから、<s></s>に対応する確率を格納する場所は作っておかないといけないし組み合わせの数としても考慮しないとおかしなことになってしまう。

とはいえ…1-gramの結果を見れば分かるんじゃないのって気もするんだけどそれはまあなんか理由があるんでしょう、シロートでは分からない何かが。

06:04:45 @uaa@social.mikutter.hachune.net
icon

vocabsizeとtotalcountについてはngram(1) speech.sri.com/projects/srilm/ の-count-lmオプション見ろって書いてあるじゃんSRILM-FAQ… speech.sri.com/projects/srilm/

totalcount C: " C the sum of all unigram counts"→ じゃあ<s></s>も含めたカウントで良いんだよな?
vocabsize V: "V gives the vocabulary size" lintool.github.io/UMD-courses/ では"vocabulary size or number of unique words"ってあるから…1-gramに含まれる単語のうち<s></s>は除いたもので良いんだろうか。