21:51:57
icon

ジョブ仕掛け直して寝るうううううう

21:50:31
icon

ああああジョブ実行中のターミナル閉じたあああああ><

21:45:41
icon

ジョブを仕掛けて寝ちゃいたいし、無駄にディスクを消費したくないことを考えると…

uaa@emeraude:~$ time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1

とでもしとこうかね。

21:41:26
icon

20分で全体の1/5くらいが処理された感じか…?

21:37:10
icon

nwc-toolkit-text-filterは必須だな。句点までを一文と認識して区切ってくれる。これで正しく<BOS><EOS>として処理ができるようになる。

21:21:20
icon

uaa@emeraude:~$ cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter > ja.txt.1
こんなんでどうかなー

21:16:45
icon

正規化→文抽出→形態素解析→コーパス作成、の手順で良いんだろうな多分。

21:15:05
icon

処理を行うたびに75GB近いディスクを食っていくんですけど…w

21:12:44
icon

Web を母集団とした超大規模コーパスの設計 (浅原 正幸, 前川 喜久雄, 2013) www2.ninjal.ac.jp/past-events/ によると、収集したものを正規化→形態素解析という手順で処理していくとあるので、正規化が先ということで良いみたい。

20:59:02
20:57:13
2023-09-29 20:48:59 Posting らりお・ザ・何らかの🈗然㊌ソムリエ lo48576@mastodon.cardina1.red
icon

デョスコード死んだのにまだ誰も「デスコード」って言ってなかったりする?

07:54:04
2023-09-29 07:28:48 Posting awayuki cd408a69cc6c737ca1a76efc3fa247c6ca53ec807f6e7c9574164164797e8162@mostr.pub
icon

This account is not set to public on notestock.