流石に酔った頭ではコード書けないけど。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
後付けの読み仮名も良いんだけど、形態素解析側で読み振ってくれて辞書も変えられるならそっちで処理してもらう方が良いよねえ。
mecab側の知らない単語は<unk>で出すとして、その後の読み仮名修正/候補として適切かチェック(基本的にかな/カナ/漢字を対象としそれ以外の文字…記号英数他は非対象とする)の際に不適切な物は<unk>で刎ねるようにするとかそんなフィルタを書けば良いのかな。
くっそくっそ…Fonts66のセール乗り遅れた…次こそは… https://uzurea.net/fonts66-completepack-98off-202309/ 日本語フォント109書体入りで2,980円(98%OFF) 『Fonts66』2023年9月28日までのセール デザイナー鈴木竹治が手掛ける (2023/9/16)
やっぱ<unk>の扱いをどうするかは頭が痛いな。<unk>の絡んだものはとりあえず<unk>突っ込んだまま流すか、全て切るか…単語レベルなら変換しようもないので切るんだけど、2-gram, 3-gramの場合は連なりとして考えないといけないから切ることが正しいのか不明(libkkc側が<unk>をどう扱うかって問題もある…<s></s>と同様っぽいけど)
ヴはそのままに、それ以外をカタカナ→ひらがな変換したところでソートの結果の関係は崩れない。これは押さえておく必要がある…?
やらない後悔よりやる後悔
という訳で、飲まない後悔より飲む後悔(飲みますってことでw)
やっぱmecab-ipadic-NEologdは必須だよなあ。というかipadic+NEologdの内容を言語資源を介してdata.arpaへ転写し、libkkcの辞書にしてるだけということで、形態素解析辞書(もしくは読み仮名を別途付与する場合はそのツールの辞書)の性能に依存するってのは…まあ分かり切ってる話ではあるんだけど。
mecab --node-format="%f[7]/%m " --unk-format="<UNK> " --eos-format="\n"
これで「ヨミ/読み カナ/仮名」形式な形態素解析結果は出るけど…それでも結果のクリーニングは必要だしそもそもlibkkcの必要とする「読み仮名は平仮名であるべし(ただしヴは除く)」をどうにかしないといけないんだよなあ。