続きは後で。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches
これは…検索キーワードと検索対象の問題なのかなあ。これ以外の検索では出てきてないし(ちょっと気持ち悪いとは思ってる)。
ん-む…nwc-toolkit-ngram-mergerを通す必要はありそうなんだけど、その結果がきちんとマージされていない感じなんだよな。
uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いけい/畏敬 の/の きもち/気持ち"
いけい/畏敬 の/の きもち/気持ち 21
いけい/畏敬 の/の きもち/気持ち 13
いけい/畏敬 の/の きもち/気持ち 25
uaa@emeraude:~/cc100-libkkc$
uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いけい/畏敬 の/の きもち/気持ち";done
ngms-temp.0000.gz
いけい/畏敬 の/の きもち/気持ち 13
ngms-temp.0001.gz
いけい/畏敬 の/の きもち/気持ち 11
ngms-temp.0002.gz
いけい/畏敬 の/の きもち/気持ち 17
ngms-temp.0003.gz
いけい/畏敬 の/の きもち/気持ち 10
ngms-temp.0004.gz
いけい/畏敬 の/の きもち/気持ち 8
uaa@emeraude:~/cc100-libkkc$
データクリーニング用に考えてたコードの警告はduplicate key detected (いたっ/至っ た/た はなし/話)までで止まってる…「ん」とかで始まるキーが無いのが謎。
uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "あくじ/悪事 を/を はたらき/働き"
あくじ/悪事 を/を はたらき/働き 111
あくじ/悪事 を/を はたらき/働き 112
uaa@emeraude:~/cc100-libkkc$
これはちゃんと総和になってる
aa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "あくじ/悪事 を/を はたらき/働き";done
ngms-temp.0000.gz
あくじ/悪事 を/を はたらき/働き 46
ngms-temp.0001.gz
あくじ/悪事 を/を はたらき/働き 64
ngms-temp.0002.gz
あくじ/悪事 を/を はたらき/働き 44
ngms-temp.0003.gz
あくじ/悪事 を/を はたらき/働き 48
ngms-temp.0004.gz
あくじ/悪事 を/を はたらき/働き 21
uaa@emeraude:~/cc100-libkkc$
uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "<S> いあい/居合 ぎり/切り";done
ngms-temp.0000.gz
<S> いあい/居合 ぎり/切り 3
ngms-temp.0001.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0002.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0003.gz
ngms-temp.0004.gz
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$
これは合ってるな。
uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "<S> いあい/居合 ぎり/切り"
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 3
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$
e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 36 34 0a
e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 31 39 0a
同じだな…んでもって、最初のエントリが正しい。
00000040 81 9f 20 e3 81 af e3 81 aa e3 81 97 2f e8 a9 b1 |.. ........./...|
00000050 e3 81 97 09 31 0a e3 81 84 e3 81 9f e3 81 a3 2f |....1........../|
00000060 e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 81 9f 20 e3 |...... .../... .|
00000070 81 af e3 81 aa e3 81 97 2f e8 a9 b1 09 31 39 0a |......../....19.|
00000080
uaa@emeraude:~/cc100-libkkc$
uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話" |hexdump -C
00000000 e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3 |........./......|
00000010 20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3 | .../... .......|
00000020 81 97 2f e8 a9 b1 09 36 34 0a e3 81 84 e3 81 9f |../....64.......|
00000030 e3 81 a3 2f e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 |.../...... .../.|
uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話"
いたっ/至っ た/た はなし/話 64
いたっ/至っ た/た はなし/話し 1
いたっ/至っ た/た はなし/話 19
uaa@emeraude:~/cc100-libkkc$
二番目はともかく三番目のエントリは?(一番目のエントリは個別の合計になってるみたいだけど)
uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches
ngms-temp.0001.gz
いたっ/至っ た/た はなし/話 20
ngms-temp.0002.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0003.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0004.gz
いたっ/至っ た/た はなし/話 10
uaa@emeraude:~/cc100-libkkc$
何故バイナリが吐き出されるのかが、一つ目の謎。