21:46:21 @uaa@social.mikutter.hachune.net
icon

流石に酔った頭ではコード書けないけど。

21:45:26 @uaa@social.mikutter.hachune.net
icon

後付けの読み仮名も良いんだけど、形態素解析側で読み振ってくれて辞書も変えられるならそっちで処理してもらう方が良いよねえ。

21:44:44 @uaa@social.mikutter.hachune.net
icon

mecab側の知らない単語は<unk>で出すとして、その後の読み仮名修正/候補として適切かチェック(基本的にかな/カナ/漢字を対象としそれ以外の文字…記号英数他は非対象とする)の際に不適切な物は<unk>で刎ねるようにするとかそんなフィルタを書けば良いのかな。

21:39:49 @uaa@social.mikutter.hachune.net
icon

くっそくっそ…Fonts66のセール乗り遅れた…次こそは… uzurea.net/fonts66-completepac 日本語フォント109書体入りで2,980円(98%OFF) 『Fonts66』2023年9月28日までのセール デザイナー鈴木竹治が手掛ける (2023/9/16)

Web site image
日本語フォント109書体入りで2,980円(98%OFF) 『Fonts66』2023年9月28日までのセール デザイナー鈴木竹治が手掛ける
21:27:17 @uaa@social.mikutter.hachune.net
icon

やっぱ<unk>の扱いをどうするかは頭が痛いな。<unk>の絡んだものはとりあえず<unk>突っ込んだまま流すか、全て切るか…単語レベルなら変換しようもないので切るんだけど、2-gram, 3-gramの場合は連なりとして考えないといけないから切ることが正しいのか不明(libkkc側が<unk>をどう扱うかって問題もある…<s></s>と同様っぽいけど)

21:22:24 @uaa@social.mikutter.hachune.net
icon

ヴはそのままに、それ以外をカタカナ→ひらがな変換したところでソートの結果の関係は崩れない。これは押さえておく必要がある…?

21:05:54 @uaa@social.mikutter.hachune.net
icon

やらない後悔よりやる後悔

という訳で、飲まない後悔より飲む後悔(飲みますってことでw)

20:15:23 @uaa@social.mikutter.hachune.net
icon

やっぱmecab-ipadic-NEologdは必須だよなあ。というかipadic+NEologdの内容を言語資源を介してdata.arpaへ転写し、libkkcの辞書にしてるだけということで、形態素解析辞書(もしくは読み仮名を別途付与する場合はそのツールの辞書)の性能に依存するってのは…まあ分かり切ってる話ではあるんだけど。

20:05:41 @uaa@social.mikutter.hachune.net
icon

mecab --node-format="%f[7]/%m " --unk-format="<UNK> " --eos-format="\n"
これで「ヨミ/読み カナ/仮名」形式な形態素解析結果は出るけど…それでも結果のクリーニングは必要だしそもそもlibkkcの必要とする「読み仮名は平仮名であるべし(ただしヴは除く)」をどうにかしないといけないんだよなあ。