ジョブ仕掛け直して寝るうううううう
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
ジョブを仕掛けて寝ちゃいたいし、無駄にディスクを消費したくないことを考えると…
uaa@emeraude:~$ time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1
とでもしとこうかね。
nwc-toolkit-text-filterは必須だな。句点までを一文と認識して区切ってくれる。これで正しく<BOS><EOS>として処理ができるようになる。
uaa@emeraude:~$ cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter > ja.txt.1
こんなんでどうかなー
Web を母集団とした超大規模コーパスの設計 (浅原 正幸, 前川 喜久雄, 2013) https://www2.ninjal.ac.jp/past-events/2009_2021/event/specialists/project-meeting/files/JCLWorkshop_no3_papers/JCLWorkshop_No3_27.pdf によると、収集したものを正規化→形態素解析という手順で処理していくとあるので、正規化が先ということで良いみたい。
デョスコード死んだのにまだ誰も「デスコード」って言ってなかったりする?
このアカウントは、notestockで公開設定になっていません。