2023年9月17日 - @uaa@social.mikutter.hachune.netの投稿

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

21:11:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 21:02:09 もちゃ(あと-9.80Kg)の投稿 mot@mastodon.motcha.tech

このアカウントは、notestockで公開設定になっていません。

15:48:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りの除外はとりあえず保留。なんか害があるようならその時に除外を考えることにしよう。

15:46:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

大判焼のことか…（解釈に５秒以上かかった）

15:45:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 11:39:39

の投稿 pizzayousei@misskey.io

このアカウントは、notestockで公開設定になっていません。

14:16:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度 750辞書くらいがバランスとしては良いのかなあ（よく分かってません）

14:13:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

辞書のデカい影響だと思うけど、 fcitx5が600M以上もメモリ喰ってるのは流石に…

14:09:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

形態素解析で単語を得ているからかは分からないけど、「ぁぁぁぁ」「ぁあっしだってそんなこたぁ」「ああああああああああああああああああああああああ」ですら一単語になってしまうから、なんかうまいことやらないといけない気がする。

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りは除外した方が良いのかなあ（「ー」で始まるのは除いてたんだけど、これらの文字は考えてなかった）。

14:03:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

canna辞書（標準）が4万語、強化して26万くらいか…
https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html
https://ja.osdn.net/projects/alt-cannadic/wiki/FrontPage

https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html

4 canna辞書の強化

https://ja.osdn.net/projects/alt-cannadic/wiki/FrontPage

cannadic改 Wiki - cannadic改 - OSDN

13:47:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーむ、頻度100辞書、できちゃったのは良いけど…これ生成するのにRAM16GBじゃ厳しそうな感じ（32GBマシンでtop見てると16GB近く使ってるとか表示される）。data.3gramが290M、data.3gram.filterが24Mと当然デカいし…

12:18:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語ウェブコーパス2010、頻度100以上から辞書を作れるかも試してみるか…

10:45:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.1000/
total 51172
448 data.1gram 864 data.2gram.filter 160 data.input
704 data.1gram.index 34464 data.3gram 4 metadata.json
11616 data.2gram 2912 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

~~10:44:41~~ 10:45:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.orig/
total 30892
736 data.1gram 672 data.2gram.filter 264 data.input
1184 data.1gram.index 17408 data.3gram 4 metadata.json
9120 data.2gram 1504 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

10:38:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

オリジナルの辞書だと30Mくらい、とはいえ日本語ウェブコーパスで生成した辞書と比べると1-gramの量が1.5倍くらいオリジナルの方が大きかったりするので単純に辞書の「総量」で比べてもあんまり比較にならない気がする。

10:13:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度1000辞書載った…

10:03:35 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーむ、生成元のdata.arpa付きでアーカイブ作ってみるにしても、data.arpa自体がデカすぎる…出現頻度1000でバイナリは50M程度、data.arpaは260M。

09:58:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

LinuxでもOpenBSDでも、amd64なので生成されたlib/libkkc/models/sorted3/*の内容は同一…Linux上で、出現頻度を1000, 1800, 1500, 1250に調整して辞書を生成し、それをOpenBSD上に持っていって評価というのはできそうだな。1000で以前動かなかったけど、これが動くなら…だいぶ変わりそうな予感。

09:49:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

__attribute__(hogefuga)とか、使うこと多いかも…

09:48:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 09:44:07 hfpの投稿 hfp@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

09:13:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

web上の文章とか活動とか集めるだけ集めたくせに、その成果を限られた人間にしか公開してやらねえ、という態度が非常にムカついているので「言語資源を特定の属性を持った云々しか公開しない」ということに対して激しく攻撃したくなるんですよね。ザケんなコラ💢って。

09:10:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

不満調査データセット、ちょっと気になる。何に対して不満を持っているのか… https://www.nii.ac.jp/dsc/idr/fuman/

https://www.nii.ac.jp/dsc/idr/fuman/

情報学研究データリポジトリ不満調査データセット

09:09:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（こっちでも書いちゃう）
情報学研究データリポジトリ https://nii.ac.jp/dsc/idr/ の中にあるのだと、ニコニコデータセットくらいしか個人で使えそうな言語資源が見当たらないんだけど（これですら蹴られそうな気がする）。 https://www.nii.ac.jp/dsc/idr/nico/nico-user.html

https://nii.ac.jp/dsc/idr/

Not Found

https://www.nii.ac.jp/dsc/idr/nico/nico-user.html

情報学研究データリポジトリニコニコデータセット利用者向けページ

07:30:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSDのportsがkakasi 2.3.4だったりするのでここはメンテしないといけないのかもしれんな…？

07:29:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

NetBSD/pkgsrcはjapanese/kakasi→textproc/kakasiへ引っ越してるのか。とはいえ、libkakasiは非対応なのか…？（NetBSDに詳しい方のツッコミ希望） http://cvsweb.netbsd.org/bsdweb.cgi/pkgsrc/textproc/kakasi/?only_with_tag=MAIN

http://cvsweb.netbsd.org/bsdweb.cgi/pkgsrc/textproc/kakasi/?only_with_tag=MAIN

pkgsrc/textproc/kakasi/

07:22:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そういえばOpenBSDにlibkakasiのportsってあったっけ…（見当たらない？）これがあるともう少し作業が楽なんだけど…いちいちDebian上でやらないで済むし…

07:19:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（出来上がっている辞書の利用については、class defaultで大丈夫なんだろうか…？という疑問があったので試してる。基本的にclass staffで使っているからよく分かんないんだよね）

07:17:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

libkkc-dataの生成、デフォルトユーザだとPythonのMemoryErrorで生成できないんだけど…組み合わせの出現頻度数を1800以上に絞っても生成できないっていうのはどうなんだろう（package生成時はrootで行っているので制限に引っかかってないというのはある）。

07:14:59 SASANO Takayoshi @uaa@social.mikutter.hachune.net

class staffでもこんなもん
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1572864
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 256
virtual memory (kbytes, -v) 1576960
bash-5.2$

07:14:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSDにおけるデフォルトのリソース（ulimit -aで表示されるやつ）って結構厳しめだな。unlimitでないのはこんな感じ。
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1048576
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 128
virtual memory (kbytes, -v) 1052672
bash-5.2$

07:02:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@trondd looks no problem...?

openbsd-current-vm$ df -i
Filesystem 512-blocks Used Avail Capacity iused ifree %iused Mounted on
/dev/sd0a 146237396 30294360 108631168 22% 1068616 8392182 12% /
openbsd-current-vm$

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30