2023年10月4日 - @uaa@social.mikutter.hachune.netの投稿

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

21:55:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

mecab+neologd辞書で形態素解析＋各要素にlibkkc仕様のよみがなを振って（変換対象にできないものは<UNK>化する）、これをコーパス化→辞書作成というのを試そうとしている。

今まで試していた形態素解析済・3-gram化した物に後付けで読みを付けるのは緊急的な手段であり、本来であれば形態素解析時に読みを付ける方が適切なんじゃない？って前々から思っていたので。

21:19:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

mecab辞書の特性なのかは分からないけど、カンマ区切りCSV使っているからか…単語に半角スペースが入るケースがあるみたい。なので、トークンの区切りに半角スペースを使うのではなく、タブかカンマで区切るのが良さそう（タブ使ってみた）。

21:06:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ nwc-toolkit/build/nwc-toolkit-unicode-normalizer ja.txt.xz |nwc-toolkit/build/nwc-toolkit-text-filter |mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd |cc100-libkkc/src/convert_yomi |gzip -c > ja.mecab-neologd.txt.gz
こんな感じで一日くらい回してみるか

20:28:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd
で使えるのかな？

20:25:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

./bin/install-mecab-ipadic-neologd -n -a 全部入りにする

07:01:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

逆順にして

mecab --node-format="％m %f[7] " --unk-format="<UNK> <UNK> " --eos-format="\n"

「語」「読み」順にするか…「語」に問題があれば「読み」の変換は不要だし。出力時に「読み/語」にしちゃえば良いんだから。

06:51:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

mecab --node-format="%f[7] %m " --unk-format="<UNK> <UNK> " --eos-format="\n"

の方が良いかなあ。トークンは2個単位で「読み」「語」の順。

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31