21:54:23
icon

寝るべ(これはWindows上…なんかこっちの方が意図した変換になってないような…?)

21:52:30
icon

@hadsn それハイリスクノーリターンじゃないですかやだー

21:51:48
icon

しっかし、自分で構築してみた補正がかかってるのでアレなんだけど、意外に使えますね…快適ではないんですが、不快でもない。コマンドラインでテストした感じではイケてないなーとは思ったけど、実際に使ってみるとそこまで悪かない。でも他人が評価すると「クソ」と言われてもおかしくないかも。

21:49:23
icon

完全に新しい世界だと、まだ誰も手をつけてない云々という主張も通りやすいんだけど…流石に年月を経たsceneだと下手に「まだこれ誰もやってないですよね」とか言おうものならイタい子扱いされてもおかしくはないし。

21:42:05
icon

なんせlibkkcが登場してから今まで相応の時間が経っていて、それでこの(辞書の生成方法があんまり明確でない)状況なんだもん。

明らかに「なんか(政治か技術的な問題が)ある」と疑うしかないでしょ。

単に今まで誰も手をつけてなかっただけとか思うのは流石に脳味噌お花畑だよね?

21:38:15
icon

なんとなくだけど、data.arpaの生成方法は今まで誰も見つけてなかったというよりは、知られていても秘されていたとかそんな気がするので。

21:37:30
icon

OpenBSD上で動いてるlibkkcの辞書を日本語ウェブコーパス2010から生成したものに入れ替えて、ちょっとあちこちに雑文を書き散らかしてるところ。

良いとはいえないけど悪くもない感じ…かなあ。SKK辞書によるドーピングも効いてるから素の性能は分からないのと、今までの辞書もそれほど使い込んでいた訳ではないから評価しようがないという。

でもSKK辞書無しで、素の辞書をどう強化するかっていうのは言語モデル越しにやっている以上は簡単じゃなさそうな気がするんだけどその辺は詳しい人達にぶん投げちゃっていいよね?

19:25:27
icon

お?
(before)
uaa@framboise:~$ ./a.out ちみもうりょう
0: <地/ち><み/み><魍魎/もうりょう>
uaa@framboise:~$

(after)
[uaa@archlinux-vm ~]$ ./a.out ちみもうりょう
0: <魑魅魍魎/ちみもうりょう>
[uaa@archlinux-vm ~]$

19:23:14
icon

で、日本語ウェブコーパス2010から生成した辞書が一応使えるようにはなったんだけど…前よりお馬鹿になってしまった感じなのでどうしたもんかなと。
(before)
uaa@framboise:~$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <貴社/きしゃ><の/の><記者/きしゃ><が/が><汽車/きしゃ><で/で><帰社/きしゃ><した/した>
uaa@framboise:~$
(after)
[uaa@archlinux-vm ~]$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <記者/きしゃ><の/の><記者/きしゃ><が/が><記者/きしゃ><で/で><記者/きしゃ><下/した>
[uaa@archlinux-vm ~]$
まあこういう意地悪な文章で評価するもんでもないんだろうが…?

19:19:34
icon

一応これで良いのかなー。data.arpaに<s>とか</s>が無い場合は勝手に補完するようsortlm.pyに突っ込んでみたんだけど。

github.com/ueno/libkkc/pull/46

Web site image
improvement for accept generic arpa language-model data by jg1uaa · Pull Request #46 · ueno/libkkc
06:49:56
icon

(ValaとかC#とか知らんけど、本当はnullableで<s></s>が存在しないケースも認めてエラーチェック等で対応するのが筋という気がするけど…そうも言ってらんない以上は、sortlm.py側を加工して辞書側で対処するしかないのかもしれない)

06:47:30
icon

<s>はあるけど</s>が見つからないのでエラー、んでもってbigram-decorderではbos_node, eos_nodeを見てるってことは…1-gram(単語辞書)内では<s></s>必須って話になるのかなあ。

ちょい強引ではあるけど、無かった場合は強制的に追加とかそういう処置も考えないといけない?