21:11:28 @uaa@social.mikutter.hachune.net
2023-09-17 21:02:09 もちゃ(あと-17.00Kg)の投稿 mot@mastodon.motcha.tech
icon

このアカウントは、notestockで公開設定になっていません。

15:48:05 @uaa@social.mikutter.hachune.net
icon

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りの除外はとりあえず保留。なんか害があるようならその時に除外を考えることにしよう。

15:46:29 @uaa@social.mikutter.hachune.net
icon

大判焼のことか…(解釈に5秒以上かかった)

15:45:44 @uaa@social.mikutter.hachune.net
2023-09-17 11:39:39 ぴざまんの投稿 pizzayousei@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。

14:16:32 @uaa@social.mikutter.hachune.net
icon

頻度 750辞書くらいがバランスとしては良いのかなあ(よく分かってません)

14:13:09 @uaa@social.mikutter.hachune.net
icon

辞書のデカい影響だと思うけど、 fcitx5が600M以上もメモリ喰ってるのは流石に…

14:09:06 @uaa@social.mikutter.hachune.net
icon

形態素解析で単語を得ているからかは分からないけど、「ぁぁぁぁ」「ぁあっしだってそんなこたぁ」「ああああああああああああああああああああああああ」ですら一単語になってしまうから、なんかうまいことやらないといけない気がする。

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りは除外した方が良いのかなあ(「ー」で始まるのは除いてたんだけど、これらの文字は考えてなかった)。

13:47:37 @uaa@social.mikutter.hachune.net
icon

うーむ、頻度100辞書、できちゃったのは良いけど…これ生成するのにRAM16GBじゃ厳しそうな感じ(32GBマシンでtop見てると16GB近く使ってるとか表示される)。data.3gramが290M、data.3gram.filterが24Mと当然デカいし…

12:18:13 @uaa@social.mikutter.hachune.net
icon

日本語ウェブコーパス2010、頻度100以上から辞書を作れるかも試してみるか…

10:45:25 @uaa@social.mikutter.hachune.net
icon

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.1000/
total 51172
448 data.1gram 864 data.2gram.filter 160 data.input
704 data.1gram.index 34464 data.3gram 4 metadata.json
11616 data.2gram 2912 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

10:44:41 10:45:01 @uaa@social.mikutter.hachune.net
icon

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.orig/
total 30892
736 data.1gram 672 data.2gram.filter 264 data.input
1184 data.1gram.index 17408 data.3gram 4 metadata.json
9120 data.2gram 1504 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

10:38:34 @uaa@social.mikutter.hachune.net
icon

オリジナルの辞書だと30Mくらい、とはいえ日本語ウェブコーパスで生成した辞書と比べると1-gramの量が1.5倍くらいオリジナルの方が大きかったりするので単純に辞書の「総量」で比べてもあんまり比較にならない気がする。

10:13:47 @uaa@social.mikutter.hachune.net
icon

頻度1000辞書載った…

10:03:35 @uaa@social.mikutter.hachune.net
icon

うーむ、生成元のdata.arpa付きでアーカイブ作ってみるにしても、data.arpa自体がデカすぎる…出現頻度1000でバイナリは50M程度、data.arpaは260M。

09:58:27 @uaa@social.mikutter.hachune.net
icon

LinuxでもOpenBSDでも、amd64なので生成されたlib/libkkc/models/sorted3/*の内容は同一…Linux上で、出現頻度を1000, 1800, 1500, 1250に調整して辞書を生成し、それをOpenBSD上に持っていって評価というのはできそうだな。1000で以前動かなかったけど、これが動くなら…だいぶ変わりそうな予感。

09:49:19 @uaa@social.mikutter.hachune.net
icon

__attribute__(hogefuga)とか、使うこと多いかも…

09:48:56 @uaa@social.mikutter.hachune.net
2023-09-17 09:44:07 hfpの投稿 hfp@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

09:13:13 @uaa@social.mikutter.hachune.net
icon

web上の文章とか活動とか集めるだけ集めたくせに、その成果を限られた人間にしか公開してやらねえ、という態度が非常にムカついているので「言語資源を特定の属性を持った云々しか公開しない」ということに対して激しく攻撃したくなるんですよね。ザケんなコラ💢って。

09:10:07 @uaa@social.mikutter.hachune.net
icon

不満調査データセット、ちょっと気になる。何に対して不満を持っているのか… nii.ac.jp/dsc/idr/fuman/

情報学研究データリポジトリ 不満調査データセット
09:09:03 @uaa@social.mikutter.hachune.net
icon

(こっちでも書いちゃう)
情報学研究データリポジトリ nii.ac.jp/dsc/idr/ の中にあるのだと、ニコニコデータセットくらいしか個人で使えそうな言語資源が見当たらないんだけど(これですら蹴られそうな気がする)。 nii.ac.jp/dsc/idr/nico/nico-us

情報学研究データリポジトリ ニコニコデータセット 利用者向けページ
07:30:54 @uaa@social.mikutter.hachune.net
icon

OpenBSDのportsがkakasi 2.3.4だったりするのでここはメンテしないといけないのかもしれんな…?

07:29:33 @uaa@social.mikutter.hachune.net
icon

NetBSD/pkgsrcはjapanese/kakasi→textproc/kakasiへ引っ越してるのか。とはいえ、libkakasiは非対応なのか…?(NetBSDに詳しい方のツッコミ希望) cvsweb.netbsd.org/bsdweb.cgi/p

07:22:54 @uaa@social.mikutter.hachune.net
icon

そういえばOpenBSDにlibkakasiのportsってあったっけ…(見当たらない?)これがあるともう少し作業が楽なんだけど…いちいちDebian上でやらないで済むし…

07:19:11 @uaa@social.mikutter.hachune.net
icon

(出来上がっている辞書の利用については、class defaultで大丈夫なんだろうか…?という疑問があったので試してる。基本的にclass staffで使っているからよく分かんないんだよね)

07:17:09 @uaa@social.mikutter.hachune.net
icon

libkkc-dataの生成、デフォルトユーザだとPythonのMemoryErrorで生成できないんだけど…組み合わせの出現頻度数を1800以上に絞っても生成できないっていうのはどうなんだろう(package生成時はrootで行っているので制限に引っかかってないというのはある)。

07:14:59 @uaa@social.mikutter.hachune.net
icon

class staffでもこんなもん
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1572864
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 256
virtual memory (kbytes, -v) 1576960
bash-5.2$

07:14:03 @uaa@social.mikutter.hachune.net
icon

OpenBSDにおけるデフォルトのリソース(ulimit -aで表示されるやつ)って結構厳しめだな。unlimitでないのはこんな感じ。
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1048576
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 128
virtual memory (kbytes, -v) 1052672
bash-5.2$

07:02:21 @uaa@social.mikutter.hachune.net
icon

@trondd looks no problem...?

openbsd-current-vm$ df -i
Filesystem 512-blocks Used Avail Capacity iused ifree %iused Mounted on
/dev/sd0a 146237396 30294360 108631168 22% 1068616 8392182 12% /
openbsd-current-vm$