uaa@emeraude:~/nwc2010-libkkc$ head -n 5 data.arpa.{cc,nwc}*
==> data.arpa.cc.100 <==
\data\
ngram 1= 63525
ngram 2= 1175059
ngram 3= 6044823
==> data.arpa.cc.75 <==
\data\
ngram 1= 70444
ngram 2= 1419241
ngram 3= 7942800
==> data.arpa.nwc.750 <==
\data\
ngram 1= 80280
ngram 2= 1263366
ngram 3= 5042232
uaa@emeraude:~/nwc2010-libkkc$
CC100-ja、組み合わせの数(2-gram/3-gram)が多い割に語彙数(1-gram)が少ない感じ。こういう方向性が、取ってきた資源で出てくる「色」とか「味」とかそういう部分になるのかねえ。