22:03:59 @uaa@social.mikutter.hachune.net
icon

あれー?数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。

22:02:55 @uaa@social.mikutter.hachune.net
icon

自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。

(ここで「てんに」が「点2」しか変換できずむきーっとなっている)

22:01:52 @uaa@social.mikutter.hachune.net
icon

(下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある)

22:01:24 @uaa@social.mikutter.hachune.net
icon

悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。

21:58:02 @uaa@social.mikutter.hachune.net
icon

ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。

20:29:47 @uaa@social.mikutter.hachune.net
icon

@redbrick どうもツール側で圧縮して書きだすのでそのせいという気がします。無圧縮で出力する手段がありそうなので次はそれを試してみることにします(デフォルトだとgzipで固めるようです)。

20:27:32 @uaa@social.mikutter.hachune.net
icon

今月のどっかで7.4来るんだよな…?

20:26:50 @uaa@social.mikutter.hachune.net
2023-10-01 20:16:09 Solene % botの投稿 solenepercent@bsd.network
icon

このアカウントは、notestockで公開設定になっていません。

20:22:10 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 -b ja.mecab.txt
input: ja.mecab.txt
sentences: 592537732, tokens: 14982701916 (x25.29) (8774sec)
output: ngms-20231001-171914.0000.gz

real 182m11.671s
user 178m31.048s
sys 0m41.345s
uaa@emeraude:~$

文書の処理がその秒数でも、ファイルの書き出しが遅い…

20:19:49 @uaa@social.mikutter.hachune.net
icon

(見積もりを出すにも結局コード書かないと分からんってケースは結構ある…というのはあんまり安全じゃない考えなのかもだけど、実際そういうのは多かったからなあ。ヘンなところで足をすくわれる可能性っていうのが結構あるから基本的にはちょい多めに時間とらないと後で死ぬケースが多かったような…??)

20:11:09 @uaa@social.mikutter.hachune.net
icon

@reasonset アドバイス感謝です!

20:09:44 @uaa@social.mikutter.hachune.net
icon

@reasonset くっ、もっと早くに知っておけば…!

20:08:22 @uaa@social.mikutter.hachune.net
icon

@reasonset 自分も一人暮らししてた時期は鍋とやかんは持ってました…

19:23:26 @uaa@social.mikutter.hachune.net
icon

(過去の発言を読み直して、「…え。」ってなってる)

19:22:42 @uaa@social.mikutter.hachune.net
icon

(やかんが無くても鍋で湯は沸かせる…)

19:22:07 @uaa@social.mikutter.hachune.net
icon

…やかん or ちょっとした小鍋?

19:20:59 @uaa@social.mikutter.hachune.net
icon

n-gram作成、どこまで時間かかるかなーと思ったけど前回8100secって数字が出てるからまあそのくらいはかかるか…メモ残しといてよかった。

19:18:41 @uaa@social.mikutter.hachune.net
icon

(見つかるとジト目で怒られます…)

19:18:09 @uaa@social.mikutter.hachune.net
icon

朝の4時くらいにむくりと起き出して、家族の目を逃れながらこっそり食べるカップラーメンが…見つかるかもしれないというスリルがちょっと楽しくて。

19:15:47 @uaa@social.mikutter.hachune.net
icon

賞味期限間近のカップ麺って妙に膨らんでいたりするんですが、それって保存状態が悪かったが故にそうなるんでしょうか…

19:15:22 @uaa@social.mikutter.hachune.net
2023-10-01 19:12:45 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

カップ麺の賞味期限は過ぎても保存状態がよければ問題なさそうな気がするけれどどうなんだろう

19:08:37 @uaa@social.mikutter.hachune.net
icon

形態素解析が終わってn-gram作成をやってるけど、なんか1.5時間経過しても終わらないですね…一応どれだけの数を処理したかという表示はあるけど、どこまで処理したかは謎。そのうち終わるとは思うのですが。

17:22:31 @uaa@social.mikutter.hachune.net
icon

やっぱ分かち書き(品詞情報なし)+xz圧縮無ければ形態素解析に4.5時間で済む…

14:28:29 @uaa@social.mikutter.hachune.net
icon

機会があったらまたガラスレンズは使ってみたいんだけど…なかなか難しいよな、って。

14:27:56 @uaa@social.mikutter.hachune.net
icon

ガラス調光レンズは使ってたことあるけど、クリアに見えるけど重いです。あと、割れる(割りました)。

12:35:48 @uaa@social.mikutter.hachune.net
icon

…ジョブ止めよう。この方法では次へ進めない。

11:36:06 @uaa@social.mikutter.hachune.net
icon

20時間経過しても終わんない…(ハングアップはしていない)

10:01:18 @uaa@social.mikutter.hachune.net
icon

ここにも時空の狭間があったか…12月32日もしくは1月0日と同様な。

10:00:49 @uaa@social.mikutter.hachune.net
2023-10-01 09:59:53 炎上妖精焼風の投稿 ahiru@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

10:00:48 @uaa@social.mikutter.hachune.net
2023-10-01 09:59:32 炎上妖精焼風の投稿 ahiru@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

09:33:33 @uaa@social.mikutter.hachune.net
icon

FISCHERがオーストラリア、LF SYSTEMがスコットランド、ALOKがブラジルか…

05:50:43 @uaa@social.mikutter.hachune.net
icon

三隣亡、だっけ…三りんぼう(みりんぼう)と読んでた時期があります…みりんの味のする棒?

05:50:01 @uaa@social.mikutter.hachune.net
2023-10-01 01:39:12 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

05:49:21 @uaa@social.mikutter.hachune.net
icon

ジョブ終わんなーい♪