22:09:03
icon

MeCabに倣い、カタカナ化すればいい
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KK -JK |nkf -w
ヴァイオリン
uaa@emeraude:~/nwc2010-libkkc$

22:07:32
icon

なるほど、これに引っかかってkakasiだと「ヴ」を含む候補が処理できない…

uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KH -JH |nkf -w
う゛ぁいおりん
uaa@emeraude:~/nwc2010-libkkc$

21:49:14
icon

JUMANの処理が遅すぎる…というか、漢字を含まない(ひらがな/カタカナのみ)ものであればひらがな変換するコードを通せばいい…いちいち形態素解析エンジンにお願いする理由は無いんだよな。

21:22:43
icon

もしかして:JUMANサーバ、OpenBSD上の実マシンじゃなくnwc2010-libkkcの動くLinuxマシン上のQEMU上で動かした方が実は早いのでは…

21:01:03
icon

chasen-2.4.5、サーバモード削除してる?2.2.9ではサーバモードあるみたいなんだけど。 whitewell.sakura.ne.jp/semi2/c

20:48:02
icon

ChaSen(-legacy)、OSDNにあるけど…なんでこんなクソ重いのOSDN。 ja.osdn.net/projects/chasen-le

Web site image
ChaSen legacy プロジェクト日本語トップページ - OSDN
20:33:22
icon

TCP/IP越しにJUMANサーバへアクセスしているのでこれがまあ遅い遅い遅い遅い…止まっていないだけましなんだろうけど。

20:28:33
icon

ChaSenのサーバモードって、JUMANと同じプロトコルなのかなあ。同じだとしたら、こっちも楽できるんだけど…

19:36:38
icon

うーん、JUMANよりChaSenの方が良いのかなあ。

19:31:41
icon

kakasiですら「菓」を読めているというのに??
uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | nkf -e |kakasi -JH -KH |nkf -w
かたくみろくべえ
uaa@framboise:~/juman/dist/bin$

19:30:07
icon

これは通るのに?
uaa@framboise:~/juman/dist/bin$ echo "菓子折" | ./juman
菓子 かし 菓子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:菓子/かし カテゴリ:人工物-食 べ物 ドメイン:料理・食事"
折 折 折 未定義語 15 その他 1 * 0 * 0 NIL
EOS
uaa@framboise:~/juman/dist/bin$

19:29:37
icon

…へ?

uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | ./juman
菓 菓 菓 未定義語 15 その他 1 * 0 * 0 NIL
匠 たくみ 匠 名詞 6 普通名詞 1 * 0 * 0 "代表表記:内匠/たくみ カテゴリ:人"
禄 ろく 禄 名詞 6 普通名詞 1 * 0 * 0 "代表表記:禄/ろく カテゴリ:人工物-金銭"
兵 へい 兵 名詞 6 普通名詞 1 * 0 * 0 "代表表記:兵/へい 漢字読み:音 カテゴリ:人 ドメイン:政治"
衛 まもる 衛 名詞 6 人名 5 * 0 * 0 "代表表記:衛/まもる 人名:日本:名:628:0.00025"
EOS
uaa@framboise:~/juman/dist/bin$

10:47:46
icon

uaa@framboise:~$ echo "生麦生米生卵" |nkf -e |kakasi -JH -KH | nkf -w
なまむぎなまこめなまたまご
uaa@framboise:~$

uaa@framboise:~$ telnet localhost 32000
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
200 Running JUMAN version: 8.0
RUN -b -c
200 OK
生麦生米生卵
生 せい 生 6 1 0 0
麦 むぎ 麦 6 1 0 0
生 せい 生 6 1 0 0
米 こめ 米 6 1 0 0
生卵 なまたまご 生卵 6 1 0 0
EOS

ええええええええええ…

06:57:06
icon

まあメンテナがnamazuな方なので多分なんとかなる…よね…?

06:56:37
icon

とりあえずreportbug投げてみる。

bugs.debian.org/cgi-bin/bugrep

あ…文字コードがUTF-8になってない(JISじゃんこれ)

#1052526 - juman: the result is nothing - Debian Bug report logs
06:25:53
icon

Debian-12で、デフォルトのgcc-12じゃなくgcc-11に落としても状況変わらず。WSL2上のUbuntuはgcc-11だったという理由で試したんだけどねえ。

06:19:46
icon

juman-serverはIPv4専用っぽいな。v6まで考えなくて良しと。

06:18:13
icon

OpenBSD上ではちゃんと動いてる。まあ最悪の場合ここでjuman-serverを試すということで良いんだろうけど。Debian-12機が壊れてる可能性もあるので他のDebian-12機でもjuman試しているけど、同様に動いてないのでDebianの問題と言って良いのかも(でもDebianになんか変なクセってあったっけ…?)

06:09:51
icon

juman(juman++じゃない方)、aptなパッケージじゃなくgithubからビルドしてもDebian-12上だと何突っ込んでもEOSしか返らない現象が起きますねえ。辞書はちゃんと参照できてるみたいなんだけど。

06:02:09
icon

Cの場合、if (hoge == TRUE)とか(fuga == FALSE)って確かすべきではない(どっちかというと禁じ手)じゃなかったっけ?単にif (hoge)ないしif (!fuga)で足りるんじゃ