07:54:13
icon

続きは後で。

07:54:05
icon

grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches

これは…検索キーワードと検索対象の問題なのかなあ。これ以外の検索では出てきてないし(ちょっと気持ち悪いとは思ってる)。

07:52:23
icon

ん-む…nwc-toolkit-ngram-mergerを通す必要はありそうなんだけど、その結果がきちんとマージされていない感じなんだよな。

07:47:48
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いけい/畏敬 の/の きもち/気持ち"
いけい/畏敬 の/の きもち/気持ち 21
いけい/畏敬 の/の きもち/気持ち 13
いけい/畏敬 の/の きもち/気持ち 25
uaa@emeraude:~/cc100-libkkc$

07:47:42
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いけい/畏敬 の/の きもち/気持ち";done
ngms-temp.0000.gz
いけい/畏敬 の/の きもち/気持ち 13
ngms-temp.0001.gz
いけい/畏敬 の/の きもち/気持ち 11
ngms-temp.0002.gz
いけい/畏敬 の/の きもち/気持ち 17
ngms-temp.0003.gz
いけい/畏敬 の/の きもち/気持ち 10
ngms-temp.0004.gz
いけい/畏敬 の/の きもち/気持ち 8
uaa@emeraude:~/cc100-libkkc$

07:33:23
icon

データクリーニング用に考えてたコードの警告はduplicate key detected (いたっ/至っ た/た はなし/話)までで止まってる…「ん」とかで始まるキーが無いのが謎。

07:30:28
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "あくじ/悪事 を/を はたらき/働き"
あくじ/悪事 を/を はたらき/働き 111
あくじ/悪事 を/を はたらき/働き 112
uaa@emeraude:~/cc100-libkkc$

これはちゃんと総和になってる

07:30:15
icon

aa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "あくじ/悪事 を/を はたらき/働き";done
ngms-temp.0000.gz
あくじ/悪事 を/を はたらき/働き 46
ngms-temp.0001.gz
あくじ/悪事 を/を はたらき/働き 64
ngms-temp.0002.gz
あくじ/悪事 を/を はたらき/働き 44
ngms-temp.0003.gz
あくじ/悪事 を/を はたらき/働き 48
ngms-temp.0004.gz
あくじ/悪事 を/を はたらき/働き 21
uaa@emeraude:~/cc100-libkkc$

07:22:13
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "<S> いあい/居合 ぎり/切り";done
ngms-temp.0000.gz
<S> いあい/居合 ぎり/切り 3
ngms-temp.0001.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0002.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0003.gz
ngms-temp.0004.gz
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

これは合ってるな。

07:20:51
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "<S> いあい/居合 ぎり/切り"
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 3
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

07:14:54
icon

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 36 34 0a

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 31 39 0a

同じだな…んでもって、最初のエントリが正しい。

07:05:08
icon

00000040 81 9f 20 e3 81 af e3 81 aa e3 81 97 2f e8 a9 b1 |.. ........./...|
00000050 e3 81 97 09 31 0a e3 81 84 e3 81 9f e3 81 a3 2f |....1........../|
00000060 e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 81 9f 20 e3 |...... .../... .|
00000070 81 af e3 81 aa e3 81 97 2f e8 a9 b1 09 31 39 0a |......../....19.|
00000080
uaa@emeraude:~/cc100-libkkc$

07:05:03
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話" |hexdump -C
00000000 e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3 |........./......|
00000010 20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3 | .../... .......|
00000020 81 97 2f e8 a9 b1 09 36 34 0a e3 81 84 e3 81 9f |../....64.......|
00000030 e3 81 a3 2f e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 |.../...... .../.|

07:00:23
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話"
いたっ/至っ た/た はなし/話 64
いたっ/至っ た/た はなし/話し 1
いたっ/至っ た/た はなし/話 19
uaa@emeraude:~/cc100-libkkc$

二番目はともかく三番目のエントリは?(一番目のエントリは個別の合計になってるみたいだけど)

06:59:12
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches
ngms-temp.0001.gz
いたっ/至っ た/た はなし/話 20
ngms-temp.0002.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0003.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0004.gz
いたっ/至っ た/た はなし/話 10
uaa@emeraude:~/cc100-libkkc$

何故バイナリが吐き出されるのかが、一つ目の謎。