寝るべ(これはWindows上…なんかこっちの方が意図した変換になってないような…?)
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
寝るべ(これはWindows上…なんかこっちの方が意図した変換になってないような…?)
しっかし、自分で構築してみた補正がかかってるのでアレなんだけど、意外に使えますね…快適ではないんですが、不快でもない。コマンドラインでテストした感じではイケてないなーとは思ったけど、実際に使ってみるとそこまで悪かない。でも他人が評価すると「クソ」と言われてもおかしくないかも。
完全に新しい世界だと、まだ誰も手をつけてない云々という主張も通りやすいんだけど…流石に年月を経たsceneだと下手に「まだこれ誰もやってないですよね」とか言おうものならイタい子扱いされてもおかしくはないし。
なんせlibkkcが登場してから今まで相応の時間が経っていて、それでこの(辞書の生成方法があんまり明確でない)状況なんだもん。
明らかに「なんか(政治か技術的な問題が)ある」と疑うしかないでしょ。
単に今まで誰も手をつけてなかっただけとか思うのは流石に脳味噌お花畑だよね?
なんとなくだけど、data.arpaの生成方法は今まで誰も見つけてなかったというよりは、知られていても秘されていたとかそんな気がするので。
OpenBSD上で動いてるlibkkcの辞書を日本語ウェブコーパス2010から生成したものに入れ替えて、ちょっとあちこちに雑文を書き散らかしてるところ。
良いとはいえないけど悪くもない感じ…かなあ。SKK辞書によるドーピングも効いてるから素の性能は分からないのと、今までの辞書もそれほど使い込んでいた訳ではないから評価しようがないという。
でもSKK辞書無しで、素の辞書をどう強化するかっていうのは言語モデル越しにやっている以上は簡単じゃなさそうな気がするんだけどその辺は詳しい人達にぶん投げちゃっていいよね?
お?
(before)
uaa@framboise:~$ ./a.out ちみもうりょう
0: <地/ち><み/み><魍魎/もうりょう>
uaa@framboise:~$
(after)
[uaa@archlinux-vm ~]$ ./a.out ちみもうりょう
0: <魑魅魍魎/ちみもうりょう>
[uaa@archlinux-vm ~]$
で、日本語ウェブコーパス2010から生成した辞書が一応使えるようにはなったんだけど…前よりお馬鹿になってしまった感じなのでどうしたもんかなと。
(before)
uaa@framboise:~$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <貴社/きしゃ><の/の><記者/きしゃ><が/が><汽車/きしゃ><で/で><帰社/きしゃ><した/した>
uaa@framboise:~$
(after)
[uaa@archlinux-vm ~]$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <記者/きしゃ><の/の><記者/きしゃ><が/が><記者/きしゃ><で/で><記者/きしゃ><下/した>
[uaa@archlinux-vm ~]$
まあこういう意地悪な文章で評価するもんでもないんだろうが…?
一応これで良いのかなー。data.arpaに<s>とか</s>が無い場合は勝手に補完するようsortlm.pyに突っ込んでみたんだけど。
https://github.com/ueno/libkkc/pull/46/commits/6d100540905a68bb9ab83ec203b0696a135d312f
(ValaとかC#とか知らんけど、本当はnullableで<s></s>が存在しないケースも認めてエラーチェック等で対応するのが筋という気がするけど…そうも言ってらんない以上は、sortlm.py側を加工して辞書側で対処するしかないのかもしれない)
<s>はあるけど</s>が見つからないのでエラー、んでもってbigram-decorderではbos_node, eos_nodeを見てるってことは…1-gram(単語辞書)内では<s></s>必須って話になるのかなあ。
ちょい強引ではあるけど、無かった場合は強制的に追加とかそういう処置も考えないといけない?