2023-10-1 - Posting @uaa@social.mikutter.hachune.net

22:03:59 SASANO Takayoshi @uaa@social.mikutter.hachune.net

あれー？数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。

22:02:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。

（ここで「てんに」が「点２」しか変換できずむきーっとなっている）

22:01:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある）

22:01:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。

21:58:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。

20:29:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@redbrick どうもツール側で圧縮して書きだすのでそのせいという気がします。無圧縮で出力する手段がありそうなので次はそれを試してみることにします（デフォルトだとgzipで固めるようです）。

20:27:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

今月のどっかで7.4来るんだよな…？

20:26:50 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-01 20:16:09 Posting Solene % bot solenepercent@bsd.network

This account is not set to public on notestock.

20:22:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 -b ja.mecab.txt
input: ja.mecab.txt
sentences: 592537732, tokens: 14982701916 (x25.29) (8774sec)
output: ngms-20231001-171914.0000.gz

real 182m11.671s
user 178m31.048s
sys 0m41.345s
uaa@emeraude:~$

文書の処理がその秒数でも、ファイルの書き出しが遅い…

20:19:49 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（見積もりを出すにも結局コード書かないと分からんってケースは結構ある…というのはあんまり安全じゃない考えなのかもだけど、実際そういうのは多かったからなあ。ヘンなところで足をすくわれる可能性っていうのが結構あるから基本的にはちょい多めに時間とらないと後で死ぬケースが多かったような…？？）

20:11:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@reasonset アドバイス感謝です！

20:09:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@reasonset くっ、もっと早くに知っておけば…！

20:08:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@reasonset 自分も一人暮らししてた時期は鍋とやかんは持ってました…

19:23:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（過去の発言を読み直して、「…え。」ってなってる）

19:22:42 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（やかんが無くても鍋で湯は沸かせる…）

19:22:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

…やかん or ちょっとした小鍋？

19:20:59 SASANO Takayoshi @uaa@social.mikutter.hachune.net

n-gram作成、どこまで時間かかるかなーと思ったけど前回8100secって数字が出てるからまあそのくらいはかかるか…メモ残しといてよかった。

19:18:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（見つかるとジト目で怒られます…）

19:18:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

朝の4時くらいにむくりと起き出して、家族の目を逃れながらこっそり食べるカップラーメンが…見つかるかもしれないというスリルがちょっと楽しくて。

19:15:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

賞味期限間近のカップ麺って妙に膨らんでいたりするんですが、それって保存状態が悪かったが故にそうなるんでしょうか…

19:15:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-01 19:12:45 Posting Masanori Ogino 𓀁 omasanori@mstdn.maud.io

カップ麺の賞味期限は過ぎても保存状態がよければ問題なさそうな気がするけれどどうなんだろう

19:08:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

形態素解析が終わってn-gram作成をやってるけど、なんか1.5時間経過しても終わらないですね…一応どれだけの数を処理したかという表示はあるけど、どこまで処理したかは謎。そのうち終わるとは思うのですが。

17:22:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱ分かち書き（品詞情報なし）＋xz圧縮無ければ形態素解析に4.5時間で済む…

14:28:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

機会があったらまたガラスレンズは使ってみたいんだけど…なかなか難しいよな、って。

14:27:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ガラス調光レンズは使ってたことあるけど、クリアに見えるけど重いです。あと、割れる（割りました）。

12:35:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

…ジョブ止めよう。この方法では次へ進めない。

11:36:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

20時間経過しても終わんない…（ハングアップはしていない）

10:01:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ここにも時空の狭間があったか…12月32日もしくは1月0日と同様な。

10:00:49 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-01 09:59:53 Posting 身も蓋も404 ahiru@social.mikutter.hachune.net

This account is not set to public on notestock.

10:00:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-01 09:59:32 Posting 身も蓋も404 ahiru@social.mikutter.hachune.net

This account is not set to public on notestock.

09:33:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

FISCHERがオーストラリア、LF SYSTEMがスコットランド、ALOKがブラジルか…

05:50:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

三隣亡、だっけ…三りんぼう（みりんぼう）と読んでた時期があります…みりんの味のする棒？

05:50:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-01 01:39:12 Posting Giraffe Beer giraffe_beer@mstdn.maud.io

This account is not set to public on notestock.

05:49:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ジョブ終わんなーい♪

Sun	Mon	Tue	Wed	Thu	Fri	Sat
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Sun	Mon	Tue	Wed	Thu	Fri	Sat
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Sun	Mon	Tue	Wed	Thu	Fri	Sat
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31