2023年9月24日~2023年9月30日 - @uaa@social.mikutter.hachune.netの投稿

SASANO Takayoshi(@uaa@social.mikutter.hachune.net)の投稿

OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)

Another side: https://social.tchncs.de/@uaa

npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890

Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w

年月 Asia/Tokyo

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

2023年9月30日

2023-09-30 22:03:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とりあえず今日は寝るとして…明日の昼くらいまでに終わってなかったら無圧縮でやり直しにしよう。

2023-09-30 22:01:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

マシンは速ければ速いほどいい
ストレージは多ければ多いほどいい

…思いっきり実感させられます、こういうことしてると。

2023-09-30 22:01:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-30 22:00:28 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-30 21:55:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そもそも何故一般の個人が言語資源の入手だのテキストマイニングの真似事だのをしなければいけないんですかね…？（困惑中

2023-09-30 21:54:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（ただの分かち書きで十分なはずなんだけど、日本語ウェブコーパス2010の作り方では品詞データを付ける（その割には捨ててる）とあるのでそれに倣ったらこうなったんですよ…）

2023-09-30 21:53:23 SASANO Takayoshi @uaa@social.mikutter.hachune.net

テキストを圧縮しているので小さくはなるんだろうけど、単に単語を分かち書きするんじゃなく品詞データを付けちゃってるので圧縮対象となるデータ量はもりもり増えているのです…

2023-09-30 21:52:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

しかもよりによって、mecab -Owakatiではなくmecabで食わせているので元のデータより膨れてるｗ

2023-09-30 21:51:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

何も考えずにxz -cに食わせたので…うっうっ

2023-09-30 21:51:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-30 21:51:14 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

xz -0はbzip2よりも速くて小さくなることがあるのでパラメーターが重要

2023-09-30 21:49:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱそうですよねー（うっかりxzしちゃったので一旦止めようかこのまま放置しようか結構悩んでるところ…明日の朝まで放置かなあ）

2023-09-30 21:48:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-30 21:48:25 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-30 21:29:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

a8.netをブロックする方法って無いのかなあ。人気ランキングのバナーがデカくてウザい。

2023-09-30 21:20:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

【研究】技術的側面からの検索エンジンの考察 ~第1回　テキストマイニングの基本中の基本、形態素解析とBOWとは~ (2018.04.09) https://mieruca-ai.com/ai/research-basics-of-text-mining/ JUMAN→ChaSen→MeCab→(Sen)という流れになってたんですね…

https://mieruca-ai.com/ai/research-basics-of-text-mining/

【研究】技術的側面からの検索エンジンの考察 ~第1回テキストマイニングの基本中の基本、形態素解析とBOWとは~

2023-09-30 20:36:35 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（無圧縮だと4時間くらいで終わったタスクが6時間近く経過しても終わりません…）

2023-09-30 20:36:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

もしかして：xzによる圧縮はクソ遅い

2023-09-30 15:02:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~/nwc-toolkit/build$ time xzcat ~/ja.txt.xz |./nwc-toolkit-unicode-normalizer |./nwc-toolkit-text-filter |mecab | xz -c > ~/ja.mecab.txt.xz
ここから始めようか

2023-09-30 07:37:51 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度1以上 707235917
頻度10以上 56327440
頻度25以上 26442415
頻度50以上 14955969
頻度75以上 10679502
頻度100以上8390195
頻度1000以上 1097868

log(75)=1.875, log(395)=2.597、雑に計算して10倍程度の違いがあるから、頻度もそれくらいの違いで考えれば良いってことかなあ

2023-09-30 06:49:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語ウェブコーパス2010で頻度750以上の異なり数が8377628…これを満たす頻度を目指してみれば良いのかな

2023-09-30 06:44:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

出現頻度1000で切ってみて、異なり数を数えてみると1097868、日本語ウェブコーパス2010の形態素N-gram(3-gram)だと6395754…1/6くらいのサイズしかないか。CC100-jaが75GB、nwc2010が396GBのテキストでやっているので、入力量に比例していると言っても良いのかも。

2023-09-30 06:35:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ソートは要らないかなあ…？どうせ読みを付加した時に付加するツール側でソートかけてるし。

2023-09-30 06:33:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

3-gramだけ取れれば良いからzcat a.gz |awk '$4 {printf("%s %s %s\t%s\n",$1,$2,$3,$4)}'で。

2023-09-30 06:30:35 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ngram-counterの-sオプションは必須なのかなあ。これ1-gram, 2-gram, 3-gramを全部まとめて出すので後で分離しないといけないんだけど…

2023-09-30 06:23:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

1-gram（単語）ではなく3-gramでの出現頻度で判断しているけど、出現頻度の一番大きい数が200617497なので、今作った3-gramではこれがどうなるかを調べることかなあ。

2023-09-30 06:13:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 ja.txt.1
input: ja.txt.1
sentences: 592537734, tokens: 13797626505 (x23.29) (8105sec)
output: ngms-20230930-031634.0000.gz

real 167m6.627s
user 163m18.095s
sys 0m39.184s
uaa@emeraude:~$

あとはngram-mergerで3-gramの結果を得れば良い訳か。問題は出現頻度の値をどう設定するか、だよなあ。

2023-09-30 03:06:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ !1989
time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1
output: (standard output)
input: (standard input)
output: (standard output)
input: (standard input)
74360361986 / 74359156435 (15614sec)
74359156435 / 70019552893 (15614sec)

real 260m15.239s
user 257m11.925s
sys 17m23.622s
uaa@emeraude:~$

前の日 2023年9月30日次の日

2023年9月29日

2023-09-29 21:51:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ジョブ仕掛け直して寝るうううううう

2023-09-29 21:50:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ああああジョブ実行中のターミナル閉じたあああああ＞＜

2023-09-29 21:45:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ジョブを仕掛けて寝ちゃいたいし、無駄にディスクを消費したくないことを考えると…

uaa@emeraude:~$ time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1

とでもしとこうかね。

2023-09-29 21:41:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

20分で全体の1/5くらいが処理された感じか…？

2023-09-29 21:37:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkit-text-filterは必須だな。句点までを一文と認識して区切ってくれる。これで正しく<BOS><EOS>として処理ができるようになる。

2023-09-29 21:21:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter > ja.txt.1
こんなんでどうかなー

2023-09-29 21:16:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

正規化→文抽出→形態素解析→コーパス作成、の手順で良いんだろうな多分。

2023-09-29 21:15:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

処理を行うたびに75GB近いディスクを食っていくんですけど…ｗ

2023-09-29 21:12:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Web を母集団とした超大規模コーパスの設計 (浅原正幸, 前川喜久雄, 2013) https://www2.ninjal.ac.jp/past-events/2009_2021/event/specialists/project-meeting/files/JCLWorkshop_no3_papers/JCLWorkshop_No3_27.pdf によると、収集したものを正規化→形態素解析という手順で処理していくとあるので、正規化が先ということで良いみたい。

https://www2.ninjal.ac.jp/past-events/2009_2021/event/specialists/project-meeting/files/JCLWorkshop_no3_papers/JCLWorkshop_No3_27.pdf

2023-09-29 20:59:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

†DEATH CORD†
#こうですかわかりません

2023-09-29 20:57:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-29 20:48:59 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red

ﾃﾞｮｽｺｰﾄﾞ死んだのにまだ誰も「デスコード」って言ってなかったりする？

2023-09-29 07:54:04 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-29 07:28:48 awayukiの投稿 cd408a69cc6c737ca1a76efc3fa247c6ca53ec807f6e7c9574164164797e8162@mostr.pub

このアカウントは、notestockで公開設定になっていません。

前の日 2023年9月29日次の日

2023年9月28日

2023-09-28 18:59:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

明るいナショナル (1980) https://www.youtube.com/watch?v=LA1-W-HdnGE

2023-09-28 18:58:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 18:16:59 餓鬼の投稿 hadsn@mstdn.nere9.help

パナソニック? 贅沢な名前だねえ‥‥ あの時のお前の名前は松下電器産業だ。いいかい、松下電器産業だよ。

2023-09-28 17:50:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@hfp 害はないんでしょうけど、あんまり好きじゃないんですよね影が付くの…まあ諦めますｗ

2023-09-28 17:49:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 17:45:00 FaBEの投稿 fabe@social.tchncs.de

このアカウントは、notestockで公開設定になっていません。

2023-09-28 17:47:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@hfp それ試してもダメでした…

2023-09-28 17:40:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そういえばWindows11、デスクトップのアイコン名に影を付けない設定にしているにも関わらず、影が付いてるんですが…これ直らないのかなあ。一旦付ける設定にしてから戻しても変わらないし。

2023-09-28 17:33:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

明日のお宝は今日の空腹を満たしちゃくれない、どっかのTRPG関連の本で見た台詞なんですが…まさにそれ。

2023-09-28 17:32:23 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とはいえ、我々の懐が潤わないことにはやる気も上がりませんよ。鶏と卵の関係かもですけど…活力が欲しいんならそれに見合うもんを「先に」寄越せとは日々思っておりますので。

2023-09-28 17:30:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

国力を上げないことにはどうにも…

~~2023-09-28 17:29:32~~ 2023-09-28 17:29:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

DSIRNLP06 Nested Pitman-Yor Language Model (2014.10.14) https://www.slideshare.net/uchumik/dsirnlp06-nested-pitmanyor-language-model
「ちなみにNPYLMは特許が取られているため、公開される場合には注意が必要です」と最終ページにある（先のpostにあるmusyokuさんの記事でも同様の記述あり）

https://www.slideshare.net/uchumik/dsirnlp06-nested-pitmanyor-language-model

DSIRNLP06 Nested Pitman-Yor Language Model

2023-09-28 17:24:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

教師なし形態素解析とその周辺(持橋大地, 2013/3/27) http://chasen.org/~daiti-m/paper/Robotics-20130327.pdf
ベイズ階層言語モデルによる教師なし形態素解析（NPYLM）(2016/12/14) http://musyoku.github.io/2016/12/14/%E3%83%99%E3%82%A4%E3%82%BA%E9%9A%8E%E5%B1%A4%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%E3%81%AB%E3%82%88%E3%82%8B%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90/
https://github.com/musyoku/python-npylm

http://chasen.org/~daiti-m/paper/Robotics-20130327.pdf

http://musyoku.github.io/2016/12/14/%E3%83%99%E3%82%A4%E3%82%BA%E9%9A%8E%E5%B1%A4%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%E3%81%AB%E3%82%88%E3%82%8B%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90/

ベイズ階層言語モデルによる教師なし形態素解析（NPYLM）

https://github.com/musyoku/python-npylm

GitHub - musyoku/python-npylm: ベイズ階層言語モデルによる教師なし形態素解析

2023-09-28 17:18:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

<tr1/なんとか>、を<なんとか>に直すのと、error_at_line()はerr()に無理やりまとめるところまではやったんだけど…CMakeが見つけたライブラリのヘッダ（は対応しているが）に加えてライブラリのパスも通さないといけないところで力尽きた…

2023-09-28 17:15:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkit、OpenBSD対応しようかと思ったけどなんかめんどいからLinux専用で放置しとこう。何かしらの環境で動けば良いし。

2023-09-28 16:57:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 16:54:32 あっきぃ / C106(日)東7S-33bの投稿 akkiesoft@social.mikutter.hachune.net

https://magpi.raspberrypi.com/issues/111
https://akkiesoft.hatenablog.jp/entry/20211208/1638889422

https://magpi.raspberrypi.com/issues/111

The MagPi issue 111 — The MagPi magazine

https://akkiesoft.hatenablog.jp/entry/20211208/1638889422

MagPi Issue 111に掲載されたインタビューの日本語原稿

2023-09-28 16:57:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 16:53:35 あっきぃ / C106(日)東7S-33bの投稿 akkiesoft@social.mikutter.hachune.net

公式ストアのカウンターにPiZero2Wリリース号が飾られてたんだけど、その号のインタビュー記事私なんですよね……（ｽｰｯ……）となった

2023-09-28 16:53:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

！！

2023-09-28 16:53:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 16:52:44 あっきぃ / C106(日)東7S-33bの投稿 akkiesoft@social.mikutter.hachune.net

公式ストアで紙版が買えるのと、PDFは無料でダウンロードできる（寄付も可能）。

2023-09-28 16:53:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

異国の雑誌だから格好よく見えてしまう（補正がかかっている）のか、それとも日本のこの手の雑誌があんまし（自粛）なのか…

2023-09-28 16:51:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MagPi Magazine、面白そう https://magpi.raspberrypi.com/

https://magpi.raspberrypi.com/

The MagPi magazine

2023-09-28 16:51:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-22 07:11:30 あっきぃ / C106(日)東7S-33bの投稿 akkiesoft@social.mikutter.hachune.net

今日のラズピッピストアの戦利品。トート、マウスパッド、ステッカー、マグネットあたりはおみやげに。デバッグプローブはそのうち買おうと思ってたのでついでに。あとCM4。私は8GB RAM/16G eMMCになったのでこれからあそぶ

2023-09-28 16:36:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

test.c:11:2: warning: implicit declaration of function 'errc' is invalid in C99 [-Wimplicit-function-declaration]
NWC_TOOLKIT_ERROR("%s", string);
^
test.c:4:2: note: expanded from macro 'NWC_TOOLKIT_ERROR'
errc(-(__LINE__), errno, "%s:%d: " fmt, __FILE__, __LINE__, ## __VA_ARGS__)

2023-09-28 15:41:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

町田某所で見たモバイルCT車から知ったんだけど、東芝メディカルシステムズってキヤノンメディカルシステムズに変わってたんですね…（５年前から）。

2023-09-28 15:36:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 15:23:48 あっきぃ / C106(日)東7S-33bの投稿 akkiesoft@social.mikutter.hachune.net

Raspberry Pi 5 実機レビュー（外観編） | Japanese Raspberry Pi Users Group
https://www.raspi.jp/2023/09/raspberry-pi-5-interfaces-review/

外見を舐め回すレビュー記事です

https://www.raspi.jp/2023/09/raspberry-pi-5-interfaces-review/

Raspberry Pi 5 実機レビュー（外観編）

2023-09-28 15:22:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

error_at_line(-(__LINE__), 4, __FILE__, __LINE__, "%s", string);
errc(-(__LINE__), 4, "%s:%d: " "%s", __FILE__, __LINE__, string);
完全に同じではないけど大体同じ感じになる。

2023-09-28 15:15:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

errc()はBSD方言…

2023-09-28 14:39:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

statusは必ず-(__LINE__)なので0以外、であれば…
errc(_(__LINE__), errno, "%s:%d" fmt, __FILE__, __LINE__, ## __VA_ARGS__)
みたいな形に置き換えるのも手かなあ（できるんなら）。

2023-09-28 14:31:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://linuxjm.osdn.jp/html/LDP_man-pages/man3/error_print_progname.3.html
error_at_line(status, errnum, filename, linenum, format...)
statusが0以外だとexit(status)する。メッセージは標準エラー出力に吐き出す。

https://linuxjm.osdn.jp/html/LDP_man-pages/man3/error_print_progname.3.html

Man page of ERROR

2023-09-28 14:15:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

<error.h>なんていうLinux方言を使うなああああああああ💢💢💢💢💢💢（BSDユーザの叫び）

2023-09-28 14:12:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

これでおしまい。 https://github.com/jg1uaa/nwc-toolkit/commit/469ea1a25c82ee91b1b37e4aaf70b7e5437ca179

https://github.com/jg1uaa/nwc-toolkit/commit/469ea1a25c82ee91b1b37e4aaf70b7e5437ca179

use CMake instead of autotools to build nwc-toolkit on Debian-12 · jg1uaa/nwc-toolkit@469ea1a

2023-09-28 13:18:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

40行に満たないCMakeLists.txtを書いて、ビルドできちゃいましたね…下手にautotoolsで苦労するくらいなら、CMakeに置き換えちゃうのも手なのかも。

2023-09-28 12:13:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

まあ自虐的に老人って言ってるから老人会なんだろうけど

2023-09-28 12:12:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

オッサンに対する敬意は無くても、爺さんには敬意が伴うもんだし。

2023-09-28 12:11:15 SASANO Takayoshi @uaa@social.mikutter.hachune.net

中年よりも老人の方がイメージが良いから、じゃないの…

2023-09-28 12:11:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-28 11:33:54 mzpの投稿 mzp@mstdn.nere9.help

中年会がないのなんでだろ、中年は仲悪いんかな

2023-09-28 11:12:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なんかCMakeでごりっと書き直した方が良いのかこれ…？

2023-09-28 10:37:58 SASANO Takayoshi @uaa@social.mikutter.hachune.net

g++ -Wall -Weffc++ -I../include `pkg-config --cflags icu-i18n` -g -O2 `pkg-config --libs icu-i18n` -o nwc-toolkit-text-extractor nwc-toolkit-text-extractor.o ../lib/libnwc-toolkit.a -llzma -lbz2 -lz

ああ、これダメだ。libnwc-toolkit.aより後にicuをリンクしないと。

2023-09-28 10:28:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

C++のことだし、メソッドの引数の型があってないので対応するメソッド呼べないだけっしょ？と雑に考えてるけど果たしてどうかなー…？

2023-09-28 10:27:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

undefined reference to `icu_72::UnicodeString::~UnicodeString()'
/usr/bin/ld: warning: creating DT_TEXTREL in a PIE

この辺の問題を解決できればいいんだとは思うが…

2023-09-28 10:26:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

undefined reference to `icu_72::UnicodeString::extract(int, int, char*, unsigned int, char const*) const'
undefined reference to `icu_72::UnicodeString::UnicodeString(char const*, int, char const*)'
undefined reference to `vtable for icu_72::UnicodeString'
undefined reference to `icu_72::Normalizer::normalize(icu_72::UnicodeString const&, UNormalizationMode, int, icu_72::UnicodeString&, UErrorCode&)'

2023-09-28 10:22:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ぎゃあああああああああautoupdateしたらconfigure.acがああああああ＞＜

2023-09-28 09:45:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

いやこれ内部でStringクラス作って定義してる…

2023-09-28 09:32:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

イマドキのC++の文字列操作って<string>読み込んでstd::stringの話ばっかりだから、String使ったコードを扱う場合にどうすりゃいいか分からないんだもん（昔のC++の本を引っ張り出せと…？）

2023-09-28 09:29:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

std::stringじゃなく、String型の話ってのはどこにあるんだろ。

2023-09-28 08:47:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

え゛ー、-DU_DISABLE_RENAMING=1でもだめなんか

2023-09-28 08:07:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

C++(g++)のエラーメッセージがやたらと長いので解読に困ってる

2023-09-28 07:33:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

U_DISABLE_RENAMINGについては特に何もないみいたいではある…かどうかは、icu-configじゃないので分からない。

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-i18n

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-io

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-uc

uaa@emeraude:~/nwc-toolkit$

2023-09-28 07:32:30 SASANO Takayoshi @uaa@social.mikutter.hachune.net

こいつはどーしたもんかな…

uaa@framboise:/usr/local$ icu-config --cppflags
-DU_DISABLE_RENAMING=1 -I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-i18n
-I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-io
-I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-uc
-I/usr/local/include
uaa@framboise:/usr/local$

2023-09-28 07:28:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Debian上でpkg-configすれば…

uaa@emeraude:~/nwc-toolkit$ pkg-config --libs icu-i18n
-licui18n -licuuc -licudata
uaa@emeraude:~/nwc-toolkit$

2023-09-28 07:28:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/local$ icu-config --ldflags
-L/usr/local/lib -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-i18n
-L/usr/local/lib -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-io
-L/usr/local/lib -licuio -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-uc
-L/usr/local/lib -licuuc -licudata
uaa@framboise:/usr/local$

OpenBSD上でこれ。

2023-09-28 07:27:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

iconv見つからないんですけど、はiconv無ければ即エラーとするconfigure.acを直せば良いとして…icu探すのにicu-configが無いって問題はちょっと面倒かも。

2023-09-28 04:59:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とりあえずnwc-toolkit-0.0.2のビルドはOpenBSD上での話は置いといて、Linux(Debian)上でやる訳ですが…iconv見つからないんですけどとか言われる問題を直さないといけなくて。

2023-09-28 04:55:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

configure:5182: c++ -E conftest.cpp
conftest.cpp:22:10: fatal error: 'unicode/unistr.h' file not found
#include <unicode/unistr.h>
^~~~~~~~~~~~~~~~~~
1 error generated.

CFLAGS/CXXFLAGSは設定しているのに、それを反映せずヘッダ読もうとしてるそちらさんの問題では…？

2023-09-28 04:54:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

checking unicode/unistr.h usability... yes
checking unicode/unistr.h presence... no
configure: WARNING: unicode/unistr.h: accepted by the compiler, rejected by the preprocessor!
configure: WARNING: unicode/unistr.h: proceeding with the compiler's result
checking for unicode/unistr.h... yes

いやいやそんなこと言われてもですね。

2023-09-28 04:45:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ん－、nwc-toolkit-0.0.2、OpenBSD上だとicu4cを見つけられないぬー。ちゃんと/usr/local/includeにヘッダ置いてるのに（まあいつものことでこのディレクトリを見てくれないだけだと思うけど）。

2023-09-28 04:41:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なんつーか、「今更あんたそんな古いもん触ってるの？時代はもっと先よ？？」、もしくは「バスはとっくに出ちゃってるけど今更乗り場に来た訳？時刻表ちゃんと見た？？」感が凄くてすごく嫌なんだけどね。そう思われるのが嫌というのもちょっとあるけど、むしろ間の悪さっていうのかな…祭りの終わった後にのっそりやって来てその虚しさを味わうというか。

いつもいつも、そんなのばっかりで。

2023-09-28 04:38:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkit、Google Codeへのリンクを張って「使えなさそうで使えません．」というなら…国語研のアレも0.0.2を使っている以上は0.0.2を改修して使うのが筋だろうか。改修ったってエラーが出てビルドできない状態を直すだけですが。 http://www.s-yata.jp/projects/

http://www.s-yata.jp/projects/

プロジェクト

2023-09-28 04:29:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ぃゃぃゃぃゃぃゃ、作者居るよねここに。アカウント名違うけど。 https://github.com/s-yata

https://github.com/s-yata

s-yata - Overview

2023-09-28 04:24:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwjc2vec:『国語研日本語ウェブコーパス』に基づく単語の分散表現データ (浅原正幸, 岡照晃, 言語処理学会第23回年次大会発表論文集, 2017.3)によれば、nwc-toolkit-0.0.2を使っているが「現在公開停止」の注釈がある。

…どういうことだ…

2023-09-28 04:20:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

中納言やめるってよ https://masayu-a.github.io/NWJC/
んでもって、データは研究所内に囲っておくと。ほーん…

https://masayu-a.github.io/NWJC/

『国語研日本語ウェブコーパス』

2023-09-28 04:15:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkit、Google Codeでは0.0.2になっているけど https://code.google.com/archive/p/nwc-toolkit/ GitHub上でが0.1.0になっていて https://github.com/xen/nwc-toolkit/commit/2ae8448c16eecc822cf7dfb22abd53ad7ff6ccd8 、ログを見る限りでは作者の手による最新版っぽいものに見えるんだけど… とはいえその作者はGitHub上に居ないか別垢で活動してるかのどっちかといった状態っぽいんだよなあ。

メンテしないことには全く動かせないんだけどそのフィードバック先があるんだか無いんだか分からないしリポジトリも荒らしたくないし、それ以前にどこを作業の起点にすれば良いのやら。

https://code.google.com/archive/p/nwc-toolkit/

Google Code Archive - Long-term storage for Google Code Project Hosting.

https://github.com/xen/nwc-toolkit/commit/2ae8448c16eecc822cf7dfb22abd53ad7ff6ccd8

Added CETR modules: · xen/nwc-toolkit@2ae8448

前の日 2023年9月28日次の日

2023年9月27日

2023-09-27 22:35:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-27 22:33:44 uaaの投稿 1f46356a832a4b2d65c12e9f7c6fd8608a285b1efa896773f4f67c6ee9e33e21@mostr.pub

このアカウントは、notestockで公開設定になっていません。

2023-09-27 22:29:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://store.steampowered.com/app/2478020/Rayz_Arcade_Chronology/　Ray'z Arcade Chronogy…待て待て待て待て、そんなの出たって聞いてないぞ（今は無理だけどいつか買う！）。

2023-09-27 22:27:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ギンガフォースとナツキクロニクルが割引価格で出ていたけど…SHUMP(Shoot 'em ups)フェスの影響なのかなあ。とりあえず積んでみたけど（やれよ＞自分）。

2023-09-27 22:24:23 SASANO Takayoshi @uaa@social.mikutter.hachune.net

それにしても…Steamの積みゲーが多いな…ｗ

2023-09-27 22:22:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そういえばSteamポイントって何に使えるんだろう。よく分からんのでとりあえず貯めとくけど、貯めとくだけで役に立たないっていうのもなんかねー…って。

2023-09-27 22:17:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ラジルギ2（初代ラジルギ収録！） Switch/PS4/PS5だったら何故Steamへ来ないの…？ https://www.beep-shop.com/sap/radirgy2/

https://www.beep-shop.com/sap/radirgy2/

スーパーアレンジプロジェクト第二弾『ラジルギ２』

2023-09-27 22:11:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

バテンカイトス/斑鳩はGAMECUBEから他のプラットフォーム(PC)へ来るだろう/とっくに来ているので…あとはラジルギをぜひともお願いしたい。流石に任天堂タイトルのF-ZERO GXは無理だろうけど（それはイマドキの任天堂機でやれば良いって話なんだろうし）。

2023-09-27 22:09:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

バテンカイトス、リメイクが出るって知ったのは実は最近で（3月くらいから話出てたみたいですね）Switch版しかないならSwitch版買うかーって思ってはいたんですが…Steam(PC)配信あるなら当然PCでしょ。

2023-09-27 22:05:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱ今後もGMOとは距離を置くのが正解っぽいですねー（ConoHa VPSが気になってた時期はあったけどGMO系という理由で手を出さないでいたんですが…この扱いも継続で良いですね）

2023-09-27 22:03:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-27 21:58:16 quoizの投稿 quoiz@mastodon.juggler.jp

このアカウントは、notestockで公開設定になっていません。

2023-09-27 22:02:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ゲームキューブの名作RPGがPCにも？『バテン・カイトス I&II HD Remaster』PC版がオーストラリア等級審査委員会の評価を受ける(2023.9.26) https://www.gamespark.jp/article/2023/09/26/134482.html
PC版出るなら買いますよ？GAMECUBE版は中古で買って最初の方だけ遊んではいましたが…続きをやろうにもGAMECUBE動かなくなっちゃってどうにもならなくなってしまいましたし。

https://www.gamespark.jp/article/2023/09/26/134482.html

ゲームキューブの名作RPGがPCにも？『バテン・カイトス I&II HD Remaster』PC版がオーストラリア等級審査委員会の評価を受ける | Game*Spark - 国内・海外ゲーム情報サイト

2023-09-27 21:57:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

s3-ap-northeast-1.amazonaws.com ってどこにあるんだろう。tracerouteすると、nfgw1-be1.at-dc.zaq.ad.jpの次…J:COM出たらすぐそこって感じの場所にいるみたいなんだけど。国内？

2023-09-27 21:30:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkitのビルドが通らないですね…

2023-09-27 07:33:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

printf(fpo, "%ls\t%ld\n",
あれか、<inttypes.h>を使えと…あとで直しておこう

2023-09-27 07:31:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

VMware Player上のRaspberry Pi Desktopだと動いちゃいるみたい。fprintfの引数がおかしいと怒られたけど。

2023-09-27 07:08:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（こういう時に、下手にあれこれ対応するようツールを拡張した自分を呪いたくなる）

2023-09-27 07:07:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ChaSenとMeCabは置いといて、libkakasiだけでもOpenBSD上で使えるようにしておくべきか…いちいちLinux機へログインして作業するのはすっっっっっっごく不便だし。

2023-09-27 07:02:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc2010-libkkc、なんかWSL2上のUbuntuじゃファイルを生成できないんですけど…その割にエラーも出ないという…どうなってるのこれ。

2023-09-27 07:02:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

POSIX互換だからってことでbashじゃなくdash使ってるのか、Debian/Ubuntu。個人的にLinuxはbashであるべしと思っているので（Slackwareから始めた身だから…刷り込みは怖い）、しれっとdashを混ぜるというのはどうかと思ってしまう。

2023-09-27 06:44:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

bashとdashのエスケープシーケンスの挙動の違いに最近悩まされたような気がする…ｳｯ

前の日 2023年9月27日次の日

2023年9月26日

2023-09-26 22:43:49 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とはいえ、うちのガキんちょ共にこれ見せても多分「なんでこんなに音質悪いのー？」と言われるのがオチなんだろうなあ。

あの時代の貧弱なハードウェアで、どうにかしてやっちまおうという部分が見ていて燃えるのに（ゲームの内容についてはあんまり考えてないです、すみません）。

逆に言えば、あの時代を見ていないと何が凄いのか全く理解してもらえないってことなんだろうなあ。そこまで説明するのが面倒なのでもういいやって自分はぶん投げちゃうダメな人なんですけど。

2023-09-26 22:35:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

久々に見てはみたが…SFCでこれやったのか…（驚）

SFC　テイルズオブファンタジア　OP
https://www.youtube.com/watch?v=moN-c0DzSiM

2023-09-26 22:32:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Tales of Phantasia(SFC)とかオープニングで歌ってましたよね。今の技術だったらSFCでももう少しクリアな音質で歌わせることができるんでしょうか…？（わくわく）

2023-09-26 22:31:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-26 22:20:45 kb10uyの投稿 kb10uy@mstdn.maud.io

SFC/GBA 世代だと拡張なくてもサンプル流せるからそういう意味での拡張音源の需要は下がったんだろうか(でも SFC にはスーパー FX チップとかがあるな……)

2023-09-26 22:31:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MSXだってOPLL(MSX-MUSIC)だのY8950(MSX-AUDIO)だのSCCだのといった拡張音源をカートリッジに載せて、PSG鳴らす（のでPSGと拡張音源との音量バランスが問題になった）なんてのがありましたねえ…

2023-09-26 22:29:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://oldshop.switch-science.com/pressrelease/evy1shield/ こんなのが売られてたのか…NESの音声入力端子に入れられれば何つないでも良いはずなので…そういうのもアリかも（震えてる）

https://oldshop.switch-science.com/pressrelease/evy1shield/

ヤマハNSX-1搭載Arduino用音源シールド eVY1シールド - スイッチサイエンス

2023-09-26 22:21:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

悪魔城伝説(VRC7)とかGimmick!(SunSoft5B)は結構イイ音してるし、なんかそういう拡張音源カートリッジを沢山突っ込んで鳴らしてみた系の動画とかもあるようで。

https://www.nicovideo.jp/watch/sm19831733

ファミコンを「もっと」拡張しまくった。

2023-09-26 22:16:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-26 22:15:37 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

ファミコンの拡張音声機能はこんなにたくさんのゲームで使われていたのか。

https://www.nesdev.org/wiki/List_of_games_with_expansion_audio

List of games with expansion audio

2023-09-26 22:15:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Intel ArcのAV1エンコードって画質どうなんだろう…（動画のエンコードってあんまりやらないのでよく分かっていない）

2023-09-26 22:02:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-26 21:49:30 kb10uyの投稿 kb10uy@mstdn.maud.io

1) 用法、用量を守ること。
2) 服用する前によく考えること。
3) 大きな薬効には大きな副作用が伴うこと。

2023-09-26 22:02:30 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-26 21:50:38 kb10uyの投稿 kb10uy@mstdn.maud.io

あなたは薬剤師から講習を受けたはずです。
これは通常以下の 3 点に集約されます:

2023-09-26 21:15:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

それにしても、（分かっていることではありますが）その辺のdata.arpaをlibkkc-data製造用のツールにぶち込んでもうまく動かない問題への対処法について、未だ反応無いっすね…まあそーゆうもんなんでしょうが。

2023-09-26 21:13:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

一体どんな言語資源から学ばせたんだよと小一時間問いつめませんけど…この辺りの、資源の選択とかも考えないといけないんだろうなあ。

とはいえ、そもそもdata.arpaの作り方が公表されてるかどうかよー分からんので自力で無理矢理作ってみることが発端ですしそれが分かった以上はあとは誰かにぶん投げたいというのが正直なところなんですよ。終わりがないので。

2023-09-26 21:10:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-26 21:10:03 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

語尾をカタカナにするの昔の漫画とかの印象がある

2023-09-26 21:04:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

結局暮らしの中に取り入れて使ってみないことにはこの手のツールの使いやすさは判断しづらいものがあるからなあ。

「あるからなあ」が「あるからなア」になってるﾑｷｰ…

2023-09-26 21:03:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

出現頻度750辞書にしたせいかは分からないけど、「ですよねー」が「ですよネー」にならない。出現頻度の閾値を下げて単語数を増やしゃいいってもんじゃないのは確かそうだな。

とはいえ、どこで線を引くのがまあまあ使いやすい辞書になるのかというのは正直よく分からない。640は使いにくい感じがあった、さて750はどうなんだろう（ここんとこ750しか使ってないけど）。

2023-09-26 20:28:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

口語体で書くと、語尾の部分を「ですよネー」な形で片仮名化してくれるのがちょっと面倒だな。出現頻度750の時はそんなに感じなかった気がするが…？

2023-09-26 20:26:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

7〜8割の人が抱える問題の、7〜8割くらいが解決できるようなもので十分じゃないのーと割とユルく考えてるんですが…フツーの人は「それって49〜64％しか物事解決できてないですよね、不合格じゃないんですか」とバツつけてくれますよねー…

2023-09-26 20:23:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc2010-libkkcの、kakasiだと「ヴ」をちゃんと扱えない問題を修正したので（面倒なのであんまりやりたくなかった）辞書の作り直し。出現頻度を750→640にして少し単語数を増やしてみたけど使い始めたばかりなので評価しようがない。

前の日 2023年9月26日次の日

2023年9月25日

2023-09-25 22:34:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（議題、というキーワードからふと連想してしまったけど…でも議事録の内容はちょっと偏りがあるかなあ？）

2023-09-25 22:32:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

議会の議事録って言語資源として使えないのかな…？

2023-09-25 22:32:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-25 22:31:24 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

国会の議題が公開されていても人々は見ないし、ソフトウェア開発の課題リストが公開されていても人々は見ないし、どちらも正式版がリリースされてから大騒ぎになるということなのかもしれない

2023-09-25 22:28:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ChaSen対応は意外に簡単にできたけど…どうも漢字かな変換に癖があるな。MeCab, kakasiと比べてみたけど…なんとなく、雑にフリガナを振るならkakasiが良い気がする。まあ形態素解析器を辞書代わりに使うのと、漢字仮名交じり文を平仮名に変換することを目的としたプログラムなら、後者の方が良いのでは？というのは特に不思議な話ではないだろうし。

2023-09-25 21:35:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

出力結果をパースしないといけないのかと思ったけど、chasen、出力フォーマットを指定すれば読みだけ簡単に取れるのね…

uaa@emeraude:~$ echo "生麦生米生卵" | chasen -F "%y"
ナマムギナマヨネオタマゴ
uaa@emeraude:~$

ナマヨネオはともかくとして。

2023-09-25 21:21:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ echo "生麦生米生卵" |chasen -b -c
生麦ナマムギ生麦 7 0 0
生ナマ生 42 0 0
米生ヨネオ米生 11 0 0
卵タマゴ卵 2 0 0
EOS
uaa@emeraude:~$

…ちょ

2023-09-25 06:59:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

juman対応入れてはみたけど一晩回しても結果が出ないのは流石に遅すぎて使えないのでテスト用のブランチに放り込んで寝かせておくことにします。代わりにkakasi使用時に「ヴ」を含む文字列がちゃんと処理できなかったバグを見つけて潰せたので、無駄な作業ではなかった。

2023-09-25 06:50:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-25 04:27:59 KOBA789の投稿 koba789@misskey.io

このアカウントは、notestockで公開設定になっていません。

前の日 2023年9月25日次の日

2023年9月24日

2023-09-24 22:09:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MeCabに倣い、カタカナ化すればいい
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KK -JK |nkf -w
ヴァイオリン
uaa@emeraude:~/nwc2010-libkkc$

2023-09-24 22:07:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なるほど、これに引っかかってkakasiだと「ヴ」を含む候補が処理できない…

uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KH -JH |nkf -w
う゛ぁいおりん
uaa@emeraude:~/nwc2010-libkkc$

2023-09-24 21:49:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

JUMANの処理が遅すぎる…というか、漢字を含まない（ひらがな/カタカナのみ）ものであればひらがな変換するコードを通せばいい…いちいち形態素解析エンジンにお願いする理由は無いんだよな。

2023-09-24 21:22:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

もしかして：JUMANサーバ、OpenBSD上の実マシンじゃなくnwc2010-libkkcの動くLinuxマシン上のQEMU上で動かした方が実は早いのでは…

2023-09-24 21:01:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

chasen-2.4.5、サーバモード削除してる？2.2.9ではサーバモードあるみたいなんだけど。 http://whitewell.sakura.ne.jp/semi2/chasen-man.pdf

http://whitewell.sakura.ne.jp/semi2/chasen-man.pdf

2023-09-24 20:48:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ChaSen(-legacy)、OSDNにあるけど…なんでこんなクソ重いのOSDN。 https://ja.osdn.net/projects/chasen-legacy/

https://ja.osdn.net/projects/chasen-legacy/

ChaSen legacy プロジェクト日本語トップページ - OSDN

2023-09-24 20:33:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

TCP/IP越しにJUMANサーバへアクセスしているのでこれがまあ遅い遅い遅い遅い…止まっていないだけましなんだろうけど。

2023-09-24 20:28:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ChaSenのサーバモードって、JUMANと同じプロトコルなのかなあ。同じだとしたら、こっちも楽できるんだけど…

2023-09-24 19:36:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーん、JUMANよりChaSenの方が良いのかなあ。

2023-09-24 19:31:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

kakasiですら「菓」を読めているというのに？？
uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | nkf -e |kakasi -JH -KH |nkf -w
かたくみろくべえ
uaa@framboise:~/juman/dist/bin$

2023-09-24 19:30:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

これは通るのに？
uaa@framboise:~/juman/dist/bin$ echo "菓子折" | ./juman
菓子かし菓子名詞 6 普通名詞 1 * 0 * 0 "代表表記:菓子/かしカテゴリ:人工物-食べ物ドメイン:料理・食事"
折折折未定義語 15 その他 1 * 0 * 0 NIL
EOS
uaa@framboise:~/juman/dist/bin$

2023-09-24 19:29:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

…へ？

uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | ./juman
菓菓菓未定義語 15 その他 1 * 0 * 0 NIL
匠たくみ匠名詞 6 普通名詞 1 * 0 * 0 "代表表記:内匠/たくみカテゴリ:人"
禄ろく禄名詞 6 普通名詞 1 * 0 * 0 "代表表記:禄/ろくカテゴリ:人工物-金銭"
兵へい兵名詞 6 普通名詞 1 * 0 * 0 "代表表記:兵/へい漢字読み:音カテゴリ:人ドメイン:政治"
衛まもる衛名詞 6 人名 5 * 0 * 0 "代表表記:衛/まもる人名:日本:名:628:0.00025"
EOS
uaa@framboise:~/juman/dist/bin$

2023-09-24 10:47:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:~$ echo "生麦生米生卵" |nkf -e |kakasi -JH -KH | nkf -w
なまむぎなまこめなまたまご
uaa@framboise:~$

uaa@framboise:~$ telnet localhost 32000
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
200 Running JUMAN version: 8.0
RUN -b -c
200 OK
生麦生米生卵
生せい生 6 1 0 0
麦むぎ麦 6 1 0 0
生せい生 6 1 0 0
米こめ米 6 1 0 0
生卵なまたまご生卵 6 1 0 0
EOS

ええええええええええ…

2023-09-24 06:57:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

まあメンテナがnamazuな方なので多分なんとかなる…よね…？

2023-09-24 06:56:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とりあえずreportbug投げてみる。

https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1052526

あ…文字コードがUTF-8になってない（JISじゃんこれ）

https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1052526

#1052526 - juman: the result is nothing - Debian Bug report logs

2023-09-24 06:25:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Debian-12で、デフォルトのgcc-12じゃなくgcc-11に落としても状況変わらず。WSL2上のUbuntuはgcc-11だったという理由で試したんだけどねえ。

2023-09-24 06:19:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

juman-serverはIPv4専用っぽいな。v6まで考えなくて良しと。

2023-09-24 06:18:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSD上ではちゃんと動いてる。まあ最悪の場合ここでjuman-serverを試すということで良いんだろうけど。Debian-12機が壊れてる可能性もあるので他のDebian-12機でもjuman試しているけど、同様に動いてないのでDebianの問題と言って良いのかも（でもDebianになんか変なクセってあったっけ…？）

2023-09-24 06:09:51 SASANO Takayoshi @uaa@social.mikutter.hachune.net

juman（juman++じゃない方）、aptなパッケージじゃなくgithubからビルドしてもDebian-12上だと何突っ込んでもEOSしか返らない現象が起きますねえ。辞書はちゃんと参照できてるみたいなんだけど。

2023-09-24 06:02:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Cの場合、if (hoge == TRUE)とか(fuga == FALSE)って確かすべきではない（どっちかというと禁じ手）じゃなかったっけ？単にif (hoge)ないしif (!fuga)で足りるんじゃ

前の日 2023年9月24日次の日

コピーしました

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30