あー、これ詰んだかも。kakasiによる読み仮名の付与、言語モデル作成後にやらないとダメだわ。
ngram-count -text tune.text -write-vocab tune.vocab これでmixture weightsの調整を行うんだけど適当な文をtune.textで解釈させる以上、ここで読み仮名付いてると解釈の邪魔。
コーパスの掃除と、言語モデルの読み仮名付与の二段階でやらないといけないっぽい。あと、weights調整用のサンプルの用意(どうやって?)。無い状態でごり押し、という手もなくはないだろうけど。