2023年10月3日 - @uaa@social.mikutter.hachune.netの投稿

21:46:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

流石に酔った頭ではコード書けないけど。

21:45:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

後付けの読み仮名も良いんだけど、形態素解析側で読み振ってくれて辞書も変えられるならそっちで処理してもらう方が良いよねえ。

21:44:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

mecab側の知らない単語は<unk>で出すとして、その後の読み仮名修正/候補として適切かチェック（基本的にかな/カナ/漢字を対象としそれ以外の文字…記号英数他は非対象とする）の際に不適切な物は<unk>で刎ねるようにするとかそんなフィルタを書けば良いのかな。

21:39:49 SASANO Takayoshi @uaa@social.mikutter.hachune.net

くっそくっそ…Fonts66のセール乗り遅れた…次こそは… https://uzurea.net/fonts66-completepack-98off-202309/ 日本語フォント109書体入りで2,980円（98％OFF）『Fonts66』2023年9月28日までのセールデザイナー鈴木竹治が手掛ける (2023/9/16)

https://uzurea.net/fonts66-completepack-98off-202309/

日本語フォント109書体入りで2,980円（98％OFF）『Fonts66』2023年9月28日までのセールデザイナー鈴木竹治が手掛ける

21:27:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱ<unk>の扱いをどうするかは頭が痛いな。<unk>の絡んだものはとりあえず<unk>突っ込んだまま流すか、全て切るか…単語レベルなら変換しようもないので切るんだけど、2-gram, 3-gramの場合は連なりとして考えないといけないから切ることが正しいのか不明（libkkc側が<unk>をどう扱うかって問題もある…<s></s>と同様っぽいけど）

21:22:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ヴはそのままに、それ以外をカタカナ→ひらがな変換したところでソートの結果の関係は崩れない。これは押さえておく必要がある…？

21:05:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やらない後悔よりやる後悔

という訳で、飲まない後悔より飲む後悔（飲みますってことでｗ）

20:15:23 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱmecab-ipadic-NEologdは必須だよなあ。というかipadic+NEologdの内容を言語資源を介してdata.arpaへ転写し、libkkcの辞書にしてるだけということで、形態素解析辞書（もしくは読み仮名を別途付与する場合はそのツールの辞書）の性能に依存するってのは…まあ分かり切ってる話ではあるんだけど。

20:05:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

mecab --node-format="%f[7]/%m " --unk-format="<UNK> " --eos-format="\n"
これで「ヨミ/読みカナ/仮名」形式な形態素解析結果は出るけど…それでも結果のクリーニングは必要だしそもそもlibkkcの必要とする「読み仮名は平仮名であるべし（ただしヴは除く）」をどうにかしないといけないんだよなあ。

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31