あれー?数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
あれー?数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。
自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。
(ここで「てんに」が「点2」しか変換できずむきーっとなっている)
(下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある)
悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。
ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。
@redbrick どうもツール側で圧縮して書きだすのでそのせいという気がします。無圧縮で出力する手段がありそうなので次はそれを試してみることにします(デフォルトだとgzipで固めるようです)。
This account is not set to public on notestock.
uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 -b ja.mecab.txt
input: ja.mecab.txt
sentences: 592537732, tokens: 14982701916 (x25.29) (8774sec)
output: ngms-20231001-171914.0000.gz
real 182m11.671s
user 178m31.048s
sys 0m41.345s
uaa@emeraude:~$
文書の処理がその秒数でも、ファイルの書き出しが遅い…
(見積もりを出すにも結局コード書かないと分からんってケースは結構ある…というのはあんまり安全じゃない考えなのかもだけど、実際そういうのは多かったからなあ。ヘンなところで足をすくわれる可能性っていうのが結構あるから基本的にはちょい多めに時間とらないと後で死ぬケースが多かったような…??)
n-gram作成、どこまで時間かかるかなーと思ったけど前回8100secって数字が出てるからまあそのくらいはかかるか…メモ残しといてよかった。
朝の4時くらいにむくりと起き出して、家族の目を逃れながらこっそり食べるカップラーメンが…見つかるかもしれないというスリルがちょっと楽しくて。
賞味期限間近のカップ麺って妙に膨らんでいたりするんですが、それって保存状態が悪かったが故にそうなるんでしょうか…
カップ麺の賞味期限は過ぎても保存状態がよければ問題なさそうな気がするけれどどうなんだろう
形態素解析が終わってn-gram作成をやってるけど、なんか1.5時間経過しても終わらないですね…一応どれだけの数を処理したかという表示はあるけど、どこまで処理したかは謎。そのうち終わるとは思うのですが。
ガラス調光レンズは使ってたことあるけど、クリアに見えるけど重いです。あと、割れる(割りました)。
This account is not set to public on notestock.
This account is not set to public on notestock.
FISCHERがオーストラリア、LF SYSTEMがスコットランド、ALOKがブラジルか…
三隣亡、だっけ…三りんぼう(みりんぼう)と読んでた時期があります…みりんの味のする棒?
This account is not set to public on notestock.