22:03:17
icon

とりあえず今日は寝るとして…明日の昼くらいまでに終わってなかったら無圧縮でやり直しにしよう。

22:01:47
icon

マシンは速ければ速いほどいい
ストレージは多ければ多いほどいい

…思いっきり実感させられます、こういうことしてると。

22:01:03
2023-09-30 22:00:28 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

21:55:46
icon

そもそも何故一般の個人が言語資源の入手だのテキストマイニングの真似事だのをしなければいけないんですかね…?(困惑中

21:54:24
icon

(ただの分かち書きで十分なはずなんだけど、日本語ウェブコーパス2010の作り方では品詞データを付ける(その割には捨ててる)とあるのでそれに倣ったらこうなったんですよ…)

21:53:23
icon

テキストを圧縮しているので小さくはなるんだろうけど、単に単語を分かち書きするんじゃなく品詞データを付けちゃってるので圧縮対象となるデータ量はもりもり増えているのです…

21:52:22
icon

しかもよりによって、mecab -Owakatiではなくmecabで食わせているので元のデータより膨れてるw

21:51:47
icon

何も考えずにxz -cに食わせたので…うっうっ

21:51:27
2023-09-30 21:51:14 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

xz -0はbzip2よりも速くて小さくなることがあるのでパラメーターが重要

21:49:33
icon

やっぱそうですよねー(うっかりxzしちゃったので一旦止めようかこのまま放置しようか結構悩んでるところ…明日の朝まで放置かなあ)

21:48:57
2023-09-30 21:48:25 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

21:29:00
icon

a8.netをブロックする方法って無いのかなあ。人気ランキングのバナーがデカくてウザい。

21:20:53
icon

【研究】技術的側面からの検索エンジンの考察 ~第1回 テキストマイニングの基本中の基本、形態素解析とBOWとは~ (2018.04.09) mieruca-ai.com/ai/research-bas JUMAN→ChaSen→MeCab→(Sen)という流れになってたんですね…

Web site image
【研究】技術的側面からの検索エンジンの考察 ~第1回 テキストマイニングの基本中の基本、形態素解析とBOWとは~
20:36:35
icon

(無圧縮だと4時間くらいで終わったタスクが6時間近く経過しても終わりません…)

20:36:06
icon

もしかして:xzによる圧縮はクソ遅い

15:02:14
icon

uaa@emeraude:~/nwc-toolkit/build$ time xzcat ~/ja.txt.xz |./nwc-toolkit-unicode-normalizer |./nwc-toolkit-text-filter |mecab | xz -c > ~/ja.mecab.txt.xz
ここから始めようか

07:37:51
icon

頻度1以上 707235917
頻度10以上 56327440
頻度25以上 26442415
頻度50以上 14955969
頻度75以上 10679502
頻度100以上8390195
頻度1000以上 1097868

log(75)=1.875, log(395)=2.597、雑に計算して10倍程度の違いがあるから、頻度もそれくらいの違いで考えれば良いってことかなあ

06:49:46
icon

日本語ウェブコーパス2010で頻度750以上の異なり数が8377628…これを満たす頻度を目指してみれば良いのかな

06:44:38
icon

出現頻度1000で切ってみて、異なり数を数えてみると1097868、日本語ウェブコーパス2010の形態素N-gram(3-gram)だと6395754…1/6くらいのサイズしかないか。CC100-jaが75GB、nwc2010が396GBのテキストでやっているので、入力量に比例していると言っても良いのかも。

06:35:14
icon

ソートは要らないかなあ…?どうせ読みを付加した時に付加するツール側でソートかけてるし。

06:33:29
icon

3-gramだけ取れれば良いからzcat a.gz |awk '$4 {printf("%s %s %s\t%s\n",$1,$2,$3,$4)}'で。

06:30:35
icon

ngram-counterの-sオプションは必須なのかなあ。これ1-gram, 2-gram, 3-gramを全部まとめて出すので後で分離しないといけないんだけど…

06:23:40
icon

1-gram(単語)ではなく3-gramでの出現頻度で判断しているけど、出現頻度の一番大きい数が200617497なので、今作った3-gramではこれがどうなるかを調べることかなあ。

06:13:47
icon

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 ja.txt.1
input: ja.txt.1
sentences: 592537734, tokens: 13797626505 (x23.29) (8105sec)
output: ngms-20230930-031634.0000.gz

real 167m6.627s
user 163m18.095s
sys 0m39.184s
uaa@emeraude:~$

あとはngram-mergerで3-gramの結果を得れば良い訳か。問題は出現頻度の値をどう設定するか、だよなあ。

03:06:52
icon

uaa@emeraude:~$ !1989
time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1
output: (standard output)
input: (standard input)
output: (standard output)
input: (standard input)
74360361986 / 74359156435 (15614sec)
74359156435 / 70019552893 (15614sec)

real 260m15.239s
user 257m11.925s
sys 17m23.622s
uaa@emeraude:~$