17:00:15
icon

Matecam-X7/X9のどっちなんだろう。aliexpress.com/item/1005005528

Web site image
77.59US $ |Matecam X9 Mini Camcorders | Wireless Mini Camera Wifi | Camera Module Matecam - X7 X9 - Aliexpress
16:03:56
icon

うーん、ngram-counter、ソート無しでも分割が掛かってしまうな。ふむ。

15:59:29
icon

ヘンな事件を起こす輩のおかげで、SBCやWiFi/カメラモジュールの入手に制約を掛けたがる馬鹿共(と敢えて書く)が活発化しないことを願いたいもんだ。

15:58:20
icon

ESP32-CAMなんてあるみたいだし、M5Stackに適当なカメラ付けてというのもあり得ない話ではない気がする。 aliexpress.com/item/1005005938

Web site image
4.49US $ |ESP32 CAM WiFi + Bluetooth Camera Module Development Board ESP32 With Camera Module OV2640| | - AliExpress
14:53:47
icon

なるほど…これが「メモリ32GBでも足りない事態」って奴か…どうしろと(増やそうにもお金が)。

14:52:47
icon

自分はChatGPTとかStableDiffusionとか使ったことがないので悔い改めないといけないなあ。異教徒とか、非国民とか、そういう扱いなんだろうなあきっと。

14:51:42
2023-10-05 14:51:29 コロコロコロ助の投稿 naota344@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

14:47:09
icon

nwc-toolkit-ngram-counter、ソート無しで、できれば分割無しで生成するケース/分割して生成するケースで結果を見比べてみるか…?

14:36:25
icon

nwc-toolkitのnwc-toolkit-ngram-mergerってちゃんとマージできてるのかなあ…なんか挙動が???というところがあって。

自分でマージしちゃう方が実は確実だったりするのかなあ。

14:35:23
icon

分割されているコーパスをnwc-toolkit-ngram-merger ngms-*.gz -o ngms-out.gzで統合するのに40分。zcat ngms-out.gz | awk '$4 {print $0}' > 3gm(単純化しました)で3-gramを取り出して、 02-Oct-2023と同様にN-gram(3-gram)の異なり数を出してみます。未知語の扱いをどうするか考える必要があるので、未知語有り/無しの両方で調べてみます。

ボツ原稿です(多分今日の日記は存在しない)。

14:34:52
icon

形態素解析後は、nwc-toolkit-ngram-counter -n 3 -l 24576 -bs ja.mecab-neologd.txt.gzでコーパスを作ります。01-Oct-2023と異なり、sオプションでnwc-toolkit-ngram-counterにソートを行わせます(ディスクの空きが厳しいので無圧縮は試しません)。今回はソートも行ったせいか出力されるファイルは複数になり、ファイルサイズの合計は8.5GB。実行終了時のステータスはsentences: 592537732, tokens: 14308722796 (x24.15) (13259sec)で、作業にかかった時間は4時間。

14:34:31
icon

Unicode正規化→一文ごとに切り出し→読み仮名付きで形態素解析→libkkc用にフォーマットを変更→圧縮保存を、nwc-toolkit-unicode-normalizer ja.txt.xz | nwc-toolkit-text-filter | mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd | convert_yomi | gzip -c > ja.mecab-neologd.txt.gzで行います。mecabの-dオプションにあるようにNEologd辞書を使用し(-aオプションで全部入りの辞書を使っています)、スペース(' ')を含む単語への対策として単語の区切りはタブ(\t)を用い、変換候補にできない単語は削除せず未知語(<UNK>)としました。作業完了には6時間を要し、ja.mecab-neologd.txt.gzは44GBになりました。

14:34:21
icon

今日の日記(ボツ)
wc2010-libkkcは既に形態素解析が済みコーパス化されたデータに読み仮名を無理矢理付けて辞書化していますが、形態素解析の時点で読み仮名を付けることができる以上、オリジナル(libkkc-data)の辞書はこの方法で作っているのではないか…と前々から気になっていたので、試してみることにしました。

という訳で、手順をメモしながら辞書を作っていきます。今回作ったツールはconvert_yomiだけです。ソースはこちら。

07:58:54
icon

ポイントは現金として取り返せない(お金を預けてるようなもんだ)から確かにポイント還元されても実際に安いかというとなんか違う気がする。別の物買えばお得なんだろうけど、「今そこで」別の物買うかどうかなんて分からないし、ポイントを預かっているお店が存続し続ける保証だって無いんだし…お店があってもポイント制度が消える/変わる(目減りする)可能性だってゼロじゃないよねえ?

07:55:18
2023-10-05 07:50:02 hfpの投稿 hfp@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

07:31:57
icon

うへぇ、こりゃあports unlockしても慌ててupdateする訳にはいかないじゃないか…

07:22:55
2023-10-05 01:39:27 Izumi Tsutsuiの投稿 tsutsuii@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

05:14:33
icon

6時間で終わってた。ファイルサイズは44GB(ja.txt.xzの3倍)。