07:25:14
icon

uaa@emeraude:~/nwc2010-libkkc$ head -n 5 data.arpa.{cc,nwc}*
==> data.arpa.cc.100 <==

\data\
ngram 1= 63525
ngram 2= 1175059
ngram 3= 6044823

==> data.arpa.cc.75 <==

\data\
ngram 1= 70444
ngram 2= 1419241
ngram 3= 7942800

==> data.arpa.nwc.750 <==

\data\
ngram 1= 80280
ngram 2= 1263366
ngram 3= 5042232
uaa@emeraude:~/nwc2010-libkkc$

CC100-ja、組み合わせの数(2-gram/3-gram)が多い割に語彙数(1-gram)が少ない感じ。こういう方向性が、取ってきた資源で出てくる「色」とか「味」とかそういう部分になるのかねえ。

07:20:32
icon

CC100-ja/頻度75辞書を作ってみたけど、中二病ならぬ点2病は治ってないねえ…メモリ消費量も多めだし。頻度100辞書に戻すかどうかが悩ましい。

06:46:29
icon

やっぱ「てんに/点2」なんてのは見つからないんだが…うーむ…?