このアカウントは、notestockで公開設定になっていません。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
このアカウントは、notestockで公開設定になっていません。
読みの最初が「ぁぃぅぇぉっゃゅょ」辺りの除外はとりあえず保留。なんか害があるようならその時に除外を考えることにしよう。
このアカウントは、notestockで公開設定になっていません。
辞書のデカい影響だと思うけど、 fcitx5が600M以上もメモリ喰ってるのは流石に…
形態素解析で単語を得ているからかは分からないけど、「ぁぁぁぁ」「ぁあっしだってそんなこたぁ」「ああああああああああああああああああああああああ」ですら一単語になってしまうから、なんかうまいことやらないといけない気がする。
読みの最初が「ぁぃぅぇぉっゃゅょ」辺りは除外した方が良いのかなあ(「ー」で始まるのは除いてたんだけど、これらの文字は考えてなかった)。
canna辞書(標準)が4万語、強化して26万くらいか…
https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html
https://ja.osdn.net/projects/alt-cannadic/wiki/FrontPage
うーむ、頻度100辞書、できちゃったのは良いけど…これ生成するのにRAM16GBじゃ厳しそうな感じ(32GBマシンでtop見てると16GB近く使ってるとか表示される)。data.3gramが290M、data.3gram.filterが24Mと当然デカいし…
uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.1000/
total 51172
448 data.1gram 864 data.2gram.filter 160 data.input
704 data.1gram.index 34464 data.3gram 4 metadata.json
11616 data.2gram 2912 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$
uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.orig/
total 30892
736 data.1gram 672 data.2gram.filter 264 data.input
1184 data.1gram.index 17408 data.3gram 4 metadata.json
9120 data.2gram 1504 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$
オリジナルの辞書だと30Mくらい、とはいえ日本語ウェブコーパスで生成した辞書と比べると1-gramの量が1.5倍くらいオリジナルの方が大きかったりするので単純に辞書の「総量」で比べてもあんまり比較にならない気がする。
うーむ、生成元のdata.arpa付きでアーカイブ作ってみるにしても、data.arpa自体がデカすぎる…出現頻度1000でバイナリは50M程度、data.arpaは260M。
LinuxでもOpenBSDでも、amd64なので生成されたlib/libkkc/models/sorted3/*の内容は同一…Linux上で、出現頻度を1000, 1800, 1500, 1250に調整して辞書を生成し、それをOpenBSD上に持っていって評価というのはできそうだな。1000で以前動かなかったけど、これが動くなら…だいぶ変わりそうな予感。
このアカウントは、notestockで公開設定になっていません。
web上の文章とか活動とか集めるだけ集めたくせに、その成果を限られた人間にしか公開してやらねえ、という態度が非常にムカついているので「言語資源を特定の属性を持った云々しか公開しない」ということに対して激しく攻撃したくなるんですよね。ザケんなコラ💢って。
(こっちでも書いちゃう)
情報学研究データリポジトリ https://nii.ac.jp/dsc/idr/ の中にあるのだと、ニコニコデータセットくらいしか個人で使えそうな言語資源が見当たらないんだけど(これですら蹴られそうな気がする)。 https://www.nii.ac.jp/dsc/idr/nico/nico-user.html
OpenBSDのportsがkakasi 2.3.4だったりするのでここはメンテしないといけないのかもしれんな…?
NetBSD/pkgsrcはjapanese/kakasi→textproc/kakasiへ引っ越してるのか。とはいえ、libkakasiは非対応なのか…?(NetBSDに詳しい方のツッコミ希望) http://cvsweb.netbsd.org/bsdweb.cgi/pkgsrc/textproc/kakasi/?only_with_tag=MAIN
そういえばOpenBSDにlibkakasiのportsってあったっけ…(見当たらない?)これがあるともう少し作業が楽なんだけど…いちいちDebian上でやらないで済むし…
(出来上がっている辞書の利用については、class defaultで大丈夫なんだろうか…?という疑問があったので試してる。基本的にclass staffで使っているからよく分かんないんだよね)
libkkc-dataの生成、デフォルトユーザだとPythonのMemoryErrorで生成できないんだけど…組み合わせの出現頻度数を1800以上に絞っても生成できないっていうのはどうなんだろう(package生成時はrootで行っているので制限に引っかかってないというのはある)。
class staffでもこんなもん
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1572864
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 256
virtual memory (kbytes, -v) 1576960
bash-5.2$
OpenBSDにおけるデフォルトのリソース(ulimit -aで表示されるやつ)って結構厳しめだな。unlimitでないのはこんな感じ。
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1048576
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 128
virtual memory (kbytes, -v) 1052672
bash-5.2$