07:54:13 @uaa@social.mikutter.hachune.net
icon

続きは後で。

07:54:05 @uaa@social.mikutter.hachune.net
icon

grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches

これは…検索キーワードと検索対象の問題なのかなあ。これ以外の検索では出てきてないし(ちょっと気持ち悪いとは思ってる)。

07:52:23 @uaa@social.mikutter.hachune.net
icon

ん-む…nwc-toolkit-ngram-mergerを通す必要はありそうなんだけど、その結果がきちんとマージされていない感じなんだよな。

07:47:48 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いけい/畏敬 の/の きもち/気持ち"
いけい/畏敬 の/の きもち/気持ち 21
いけい/畏敬 の/の きもち/気持ち 13
いけい/畏敬 の/の きもち/気持ち 25
uaa@emeraude:~/cc100-libkkc$

07:47:42 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いけい/畏敬 の/の きもち/気持ち";done
ngms-temp.0000.gz
いけい/畏敬 の/の きもち/気持ち 13
ngms-temp.0001.gz
いけい/畏敬 の/の きもち/気持ち 11
ngms-temp.0002.gz
いけい/畏敬 の/の きもち/気持ち 17
ngms-temp.0003.gz
いけい/畏敬 の/の きもち/気持ち 10
ngms-temp.0004.gz
いけい/畏敬 の/の きもち/気持ち 8
uaa@emeraude:~/cc100-libkkc$

07:33:23 @uaa@social.mikutter.hachune.net
icon

データクリーニング用に考えてたコードの警告はduplicate key detected (いたっ/至っ た/た はなし/話)までで止まってる…「ん」とかで始まるキーが無いのが謎。

07:30:28 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "あくじ/悪事 を/を はたらき/働き"
あくじ/悪事 を/を はたらき/働き 111
あくじ/悪事 を/を はたらき/働き 112
uaa@emeraude:~/cc100-libkkc$

これはちゃんと総和になってる

07:30:15 @uaa@social.mikutter.hachune.net
icon

aa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "あくじ/悪事 を/を はたらき/働き";done
ngms-temp.0000.gz
あくじ/悪事 を/を はたらき/働き 46
ngms-temp.0001.gz
あくじ/悪事 を/を はたらき/働き 64
ngms-temp.0002.gz
あくじ/悪事 を/を はたらき/働き 44
ngms-temp.0003.gz
あくじ/悪事 を/を はたらき/働き 48
ngms-temp.0004.gz
あくじ/悪事 を/を はたらき/働き 21
uaa@emeraude:~/cc100-libkkc$

07:22:13 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "<S> いあい/居合 ぎり/切り";done
ngms-temp.0000.gz
<S> いあい/居合 ぎり/切り 3
ngms-temp.0001.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0002.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0003.gz
ngms-temp.0004.gz
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

これは合ってるな。

07:20:51 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "<S> いあい/居合 ぎり/切り"
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 3
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

07:14:54 @uaa@social.mikutter.hachune.net
icon

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 36 34 0a

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 31 39 0a

同じだな…んでもって、最初のエントリが正しい。

07:05:08 @uaa@social.mikutter.hachune.net
icon

00000040 81 9f 20 e3 81 af e3 81 aa e3 81 97 2f e8 a9 b1 |.. ........./...|
00000050 e3 81 97 09 31 0a e3 81 84 e3 81 9f e3 81 a3 2f |....1........../|
00000060 e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 81 9f 20 e3 |...... .../... .|
00000070 81 af e3 81 aa e3 81 97 2f e8 a9 b1 09 31 39 0a |......../....19.|
00000080
uaa@emeraude:~/cc100-libkkc$

07:05:03 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話" |hexdump -C
00000000 e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3 |........./......|
00000010 20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3 | .../... .......|
00000020 81 97 2f e8 a9 b1 09 36 34 0a e3 81 84 e3 81 9f |../....64.......|
00000030 e3 81 a3 2f e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 |.../...... .../.|

07:00:23 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話"
いたっ/至っ た/た はなし/話 64
いたっ/至っ た/た はなし/話し 1
いたっ/至っ た/た はなし/話 19
uaa@emeraude:~/cc100-libkkc$

二番目はともかく三番目のエントリは?(一番目のエントリは個別の合計になってるみたいだけど)

06:59:12 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches
ngms-temp.0001.gz
いたっ/至っ た/た はなし/話 20
ngms-temp.0002.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0003.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0004.gz
いたっ/至っ た/た はなし/話 10
uaa@emeraude:~/cc100-libkkc$

何故バイナリが吐き出されるのかが、一つ目の謎。