2023年10月5日 - @uaa@social.mikutter.hachune.netの投稿

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

19:40:35 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://twitter.com/PutStickerOn/status/1709829746257998203 から。
秘密の NTT 電話局、フレッツ光、およびインターネット入門 (1) 登大遊 (2023/6/10)
https://dnobori.cyber.ipa.go.jp/ppt/download/20230610_soumu/230610%20%E8%AC%9B%E6%BC%94%20%E7%AC%AC1%E9%83%A8%20(%E7%99%BB)%20-%20%E9%85%8D%E5%B8%83%E8%B3%87%E6%96%99%E3%81%9D%E3%81%AE1%20-%20%E7%A7%98%E5%AF%86%E3%81%AE%20NTT%20%E9%9B%BB%E8%A9%B1%E5%B1%80%E3%80%81%E3%83%95%E3%83%AC%E3%83%83%E3%83%84%E5%85%89%E3%80%81%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%BC%E3%83%8D%E3%83%83%E3%83%88%E5%85%A5%E9%96%80.pdf

…(1)ってことは、それ以降もあるってこと？？

https://dnobori.cyber.ipa.go.jp/ppt/download/20230610_soumu/230610%20%E8%AC%9B%E6%BC%94%20%E7%AC%AC1%E9%83%A8%20(%E7%99%BB)%20-%20%E9%85%8D%E5%B8%83%E8%B3%87%E6%96%99%E3%81%9D%E3%81%AE1%20-%20%E7%A7%98%E5%AF%86%E3%81%AE%20NTT%20%E9%9B%BB%E8%A9%B1%E5%B1%80%E3%80%81%E3%83%95%E3%83%AC%E3%83%83%E3%83%84%E5%85%89%E3%80%81%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%BC%E3%83%8D%E3%83%83%E3%83%88%E5%85%A5%E9%96%80.pdf

-
-X

17:00:15 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Matecam-X7/X9のどっちなんだろう。https://www.aliexpress.com/item/1005005528550512.html

https://www.aliexpress.com/item/1005005528550512.html

77.59US $ |Matecam X9 Mini Camcorders | Wireless Mini Camera Wifi | Camera Module Matecam - X7 X9 - Aliexpress

16:03:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーん、ngram-counter、ソート無しでも分割が掛かってしまうな。ふむ。

15:59:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ヘンな事件を起こす輩のおかげで、SBCやWiFi/カメラモジュールの入手に制約を掛けたがる馬鹿共（と敢えて書く）が活発化しないことを願いたいもんだ。

15:58:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ESP32-CAMなんてあるみたいだし、M5Stackに適当なカメラ付けてというのもあり得ない話ではない気がする。 https://www.aliexpress.com/item/1005005938095636.html

https://www.aliexpress.com/item/1005005938095636.html

4.49US $ |ESP32 CAM WiFi + Bluetooth Camera Module Development Board ESP32 With Camera Module OV2640| | - AliExpress

14:53:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なるほど…これが「メモリ32GBでも足りない事態」って奴か…どうしろと（増やそうにもお金が）。

14:52:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

自分はChatGPTとかStableDiffusionとか使ったことがないので悔い改めないといけないなあ。異教徒とか、非国民とか、そういう扱いなんだろうなあきっと。

14:51:42 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-05 14:51:29 犬とハイネ🦋🩵💚の投稿 naota344@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

14:47:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkit-ngram-counter、ソート無しで、できれば分割無しで生成するケース/分割して生成するケースで結果を見比べてみるか…？

14:36:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkitのnwc-toolkit-ngram-mergerってちゃんとマージできてるのかなあ…なんか挙動が？？？というところがあって。

自分でマージしちゃう方が実は確実だったりするのかなあ。

14:35:23 SASANO Takayoshi @uaa@social.mikutter.hachune.net

分割されているコーパスをnwc-toolkit-ngram-merger ngms-*.gz -o ngms-out.gzで統合するのに40分。zcat ngms-out.gz | awk '$4 {print $0}' > 3gm（単純化しました）で3-gramを取り出して、 02-Oct-2023と同様にN-gram(3-gram)の異なり数を出してみます。未知語の扱いをどうするか考える必要があるので、未知語有り/無しの両方で調べてみます。

ボツ原稿です（多分今日の日記は存在しない）。

14:34:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

形態素解析後は、nwc-toolkit-ngram-counter -n 3 -l 24576 -bs ja.mecab-neologd.txt.gzでコーパスを作ります。01-Oct-2023と異なり、sオプションでnwc-toolkit-ngram-counterにソートを行わせます（ディスクの空きが厳しいので無圧縮は試しません）。今回はソートも行ったせいか出力されるファイルは複数になり、ファイルサイズの合計は8.5GB。実行終了時のステータスはsentences: 592537732, tokens: 14308722796 (x24.15) (13259sec)で、作業にかかった時間は4時間。

14:34:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Unicode正規化→一文ごとに切り出し→読み仮名付きで形態素解析→libkkc用にフォーマットを変更→圧縮保存を、nwc-toolkit-unicode-normalizer ja.txt.xz | nwc-toolkit-text-filter | mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd | convert_yomi | gzip -c > ja.mecab-neologd.txt.gzで行います。mecabの-dオプションにあるようにNEologd辞書を使用し（-aオプションで全部入りの辞書を使っています）、スペース(' ')を含む単語への対策として単語の区切りはタブ(\t)を用い、変換候補にできない単語は削除せず未知語(<UNK>)としました。作業完了には6時間を要し、ja.mecab-neologd.txt.gzは44GBになりました。

14:34:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

今日の日記（ボツ）
wc2010-libkkcは既に形態素解析が済みコーパス化されたデータに読み仮名を無理矢理付けて辞書化していますが、形態素解析の時点で読み仮名を付けることができる以上、オリジナル(libkkc-data)の辞書はこの方法で作っているのではないか…と前々から気になっていたので、試してみることにしました。

という訳で、手順をメモしながら辞書を作っていきます。今回作ったツールはconvert_yomiだけです。ソースはこちら。

07:58:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ポイントは現金として取り返せない（お金を預けてるようなもんだ）から確かにポイント還元されても実際に安いかというとなんか違う気がする。別の物買えばお得なんだろうけど、「今そこで」別の物買うかどうかなんて分からないし、ポイントを預かっているお店が存続し続ける保証だって無いんだし…お店があってもポイント制度が消える/変わる（目減りする）可能性だってゼロじゃないよねえ？

07:55:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-05 07:50:02 hfpの投稿 hfp@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

07:31:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うへぇ、こりゃあports unlockしても慌ててupdateする訳にはいかないじゃないか…

07:22:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-10-05 01:39:27 Izumi Tsutsuiの投稿 tsutsuii@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

05:14:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

6時間で終わってた。ファイルサイズは44GB（ja.txt.xzの3倍）。

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31