MeCabに倣い、カタカナ化すればいい
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KK -JK |nkf -w
ヴァイオリン
uaa@emeraude:~/nwc2010-libkkc$
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
MeCabに倣い、カタカナ化すればいい
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KK -JK |nkf -w
ヴァイオリン
uaa@emeraude:~/nwc2010-libkkc$
なるほど、これに引っかかってkakasiだと「ヴ」を含む候補が処理できない…
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KH -JH |nkf -w
う゛ぁいおりん
uaa@emeraude:~/nwc2010-libkkc$
JUMANの処理が遅すぎる…というか、漢字を含まない(ひらがな/カタカナのみ)ものであればひらがな変換するコードを通せばいい…いちいち形態素解析エンジンにお願いする理由は無いんだよな。
もしかして:JUMANサーバ、OpenBSD上の実マシンじゃなくnwc2010-libkkcの動くLinuxマシン上のQEMU上で動かした方が実は早いのでは…
chasen-2.4.5、サーバモード削除してる?2.2.9ではサーバモードあるみたいなんだけど。 http://whitewell.sakura.ne.jp/semi2/chasen-man.pdf
ChaSen(-legacy)、OSDNにあるけど…なんでこんなクソ重いのOSDN。 https://ja.osdn.net/projects/chasen-legacy/
TCP/IP越しにJUMANサーバへアクセスしているのでこれがまあ遅い遅い遅い遅い…止まっていないだけましなんだろうけど。
ChaSenのサーバモードって、JUMANと同じプロトコルなのかなあ。同じだとしたら、こっちも楽できるんだけど…
kakasiですら「菓」を読めているというのに??
uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | nkf -e |kakasi -JH -KH |nkf -w
かたくみろくべえ
uaa@framboise:~/juman/dist/bin$
これは通るのに?
uaa@framboise:~/juman/dist/bin$ echo "菓子折" | ./juman
菓子 かし 菓子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:菓子/かし カテゴリ:人工物-食 べ物 ドメイン:料理・食事"
折 折 折 未定義語 15 その他 1 * 0 * 0 NIL
EOS
uaa@framboise:~/juman/dist/bin$
…へ?
uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | ./juman
菓 菓 菓 未定義語 15 その他 1 * 0 * 0 NIL
匠 たくみ 匠 名詞 6 普通名詞 1 * 0 * 0 "代表表記:内匠/たくみ カテゴリ:人"
禄 ろく 禄 名詞 6 普通名詞 1 * 0 * 0 "代表表記:禄/ろく カテゴリ:人工物-金銭"
兵 へい 兵 名詞 6 普通名詞 1 * 0 * 0 "代表表記:兵/へい 漢字読み:音 カテゴリ:人 ドメイン:政治"
衛 まもる 衛 名詞 6 人名 5 * 0 * 0 "代表表記:衛/まもる 人名:日本:名:628:0.00025"
EOS
uaa@framboise:~/juman/dist/bin$
uaa@framboise:~$ echo "生麦生米生卵" |nkf -e |kakasi -JH -KH | nkf -w
なまむぎなまこめなまたまご
uaa@framboise:~$
uaa@framboise:~$ telnet localhost 32000
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
200 Running JUMAN version: 8.0
RUN -b -c
200 OK
生麦生米生卵
生 せい 生 6 1 0 0
麦 むぎ 麦 6 1 0 0
生 せい 生 6 1 0 0
米 こめ 米 6 1 0 0
生卵 なまたまご 生卵 6 1 0 0
EOS
ええええええええええ…
とりあえずreportbug投げてみる。
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1052526
あ…文字コードがUTF-8になってない(JISじゃんこれ)
Debian-12で、デフォルトのgcc-12じゃなくgcc-11に落としても状況変わらず。WSL2上のUbuntuはgcc-11だったという理由で試したんだけどねえ。
OpenBSD上ではちゃんと動いてる。まあ最悪の場合ここでjuman-serverを試すということで良いんだろうけど。Debian-12機が壊れてる可能性もあるので他のDebian-12機でもjuman試しているけど、同様に動いてないのでDebianの問題と言って良いのかも(でもDebianになんか変なクセってあったっけ…?)
juman(juman++じゃない方)、aptなパッケージじゃなくgithubからビルドしてもDebian-12上だと何突っ込んでもEOSしか返らない現象が起きますねえ。辞書はちゃんと参照できてるみたいなんだけど。
Cの場合、if (hoge == TRUE)とか(fuga == FALSE)って確かすべきではない(どっちかというと禁じ手)じゃなかったっけ?単にif (hoge)ないしif (!fuga)で足りるんじゃ