IRSTLMのページ、github上のを追うしかなさそう。hlt-mt.fbk.euのはweb archive上でしか見られないけどそんなに有用な情報は見当たらない…
https://web.archive.org/web/20210126180309/https://hlt-mt.fbk.eu/technologies/irstlm
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
IRSTLMのページ、github上のを追うしかなさそう。hlt-mt.fbk.euのはweb archive上でしか見られないけどそんなに有用な情報は見当たらない…
https://web.archive.org/web/20210126180309/https://hlt-mt.fbk.eu/technologies/irstlm
MSRLMってのはここにあるやつで良いのかな https://www.microsoft.com/en-us/download/details.aspx?id=52542
How to distributed LM training: step 3に
「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3
-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。
というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。
…試してみる価値はありそうだな?
A tutorial on the IRSTLM library (2008/May/17) https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=2ef9472ecfc0c3d48a0f9b2a031916c703fb1140 分からん…
2009年の時点で、SRILMでGoogle N-gramをARPA化できませんか?って話が出てる。
https://mailman.speech.sri.com/pipermail/srilm-user/2009q2/000750.html
それに対し、SRILMはあくまでも仮の対応でしかしない(意訳)ので、MSRLMかIRSTLMを使えという返事が来ている。
https://mailman.speech.sri.com/pipermail/srilm-user/2009q2/000751.html
This account is not set to public on notestock.
とりあえず、SRILM-FAQのB6) e)ただし-text tune.ext -vocab tune.vocab抜きでngram-countが通ることは確認した。
…で、ここからどうやってdata.arpa作るのかにゃ?
https://github.com/BitSpeech/SRILM/blob/master/utils/src/make-google-ngrams.gawk ←お前はこの存在を知っていながらちゃんと読んでないだろう?とお叱りを受けそう。
1gms/vocabは1-gramそのもの、
2gms/2gm-0000は2-gramのデータで、2gm.idx以降は各ファイルの先頭にあるN-gram…たとえば2gm-0000の最初のエントリが「<S> ぁ 60447」なら、2gm.idxの中身は「2gm-0000 <S> ぁ」みたいな感じ。
こんなの知るかああああああ💢、というのはただの逆切れですね。お見苦しいものをお見せして申し訳ない。
Google N-gramデータを持っている人にお願いしてそういう作業をしてもらう以外、なんか方法ないのかなあ。
日本語ウェブコーパス2010に転がってるN-gramデータをsrilmに食わせて、data.arpa(3-gram)を得られればそれで良いだけなんだがなあ…その作業に必要な情報(データフォーマット)を得るにしても、google謹製のN-gramデータを手にしないといかんとかそういう状況になってる?閲覧するだけでもお金払ってとか言われても無理なんすけど(データセットを使いたいんじゃなく、既にあるデータのフォーマットをgoogle形式に合わせたいだけ)。
DBpedia, Extremism, Drugなるデータセットを使ってなにやらやったってことまでは読めたけど…うーむむ https://local.cis.strath.ac.uk/wp/extras/msctheses/papers/strath_cis_publication_2693.pdf Textual Analysis for Document
Forensics (Alice Oberacker, Aug 2017)
ユーザの自由、というのを認めたくないというのが日本のメーカーの思考だと思ってる。パソコンよりもゲーム機が売れちゃうこのお国ですし。ゲームだってMOD文化を徹底的に否定してきましたよね?
This account is not set to public on notestock.
うーん、1gms/vocabは誤魔化したとして、2gms/2gm.idxってなんなのこれ…?
サディスティック・ミカ・バンド|ライブBlu-ray&DVD『晴天 ライブ・イン・トーキョー1989』11月22日発売 https://tower.jp/article/feature_item/2023/09/08/0708
これはDVD版を買うべきか、Blu-ray版を買うべきか結構悩む。
PCでのBlu-ray視聴環境が無いので、DVDの方が扱いやすいんだけど居間のTVで見るならBlu-rayの方が良いし…
もう意味が分からない
uaa@DESKTOP-251U0UF:~$ echo 蹴っ蹴っ蹴っ | nkf -e | kakasi -KH -JH |nkf -w
けっ蹴っけっ
uaa@DESKTOP-251U0UF:~$
二度呼びしないとダメ…?
uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる
uaa@DESKTOP-251U0UF:~$ echo ふっ切れる | nkf -e | kakasi -KH -JH |nkf -w
ふっきれる
uaa@DESKTOP-251U0UF:~$
自分もC++のヘッダファイルの中に関数の実体書くのは流石にどーよとは思っているんだけど…テンプレート使った場合はヘッダ(クラス定義)の中に書かないとうまくコンパイルしてくれない感じなので仕方なくそーしたっていう話。多分自分のやり方に問題があるだけなんだと思うけど。
This account is not set to public on notestock.
これはkakasiのバグなのかなあ?「っ」の後の漢字を仮名変換してくれない。
uaa@DESKTOP-251U0UF:~$ echo 蹴っ飛ばす | nkf -e | kakasi -KH -JH |nkf -w
けっ飛ばす
uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる
uaa@DESKTOP-251U0UF:~$
uaa@DESKTOP-251U0UF:~$ echo 代々木 | nkf -e | kakasi -KH -JH |nkf -w
よよぎ
uaa@DESKTOP-251U0UF:~$ echo 代々 | nkf -e | kakasi -KH -JH |nkf -w
だいだい
uaa@DESKTOP-251U0UF:~$ echo 々木 | nkf -e | kakasi -KH -JH |nkf -w
き
uaa@DESKTOP-251U0UF:~$ echo 々 | nkf -e | kakasi -KH -JH |nkf -w
uaa@DESKTOP-251U0UF:~$
々、の扱いも…単体では読めないものとしている(これについてはそれで良いのだと思う)
uaa@DESKTOP-251U0UF:~$ echo 〆切 | nkf -e | kakasi -KH -JH |nkf -w
せつ
uaa@DESKTOP-251U0UF:~$ echo 〆 | nkf -e | kakasi -KH -JH |nkf -w
uaa@DESKTOP-251U0UF:~$
〆切(しめきり)を認識しない…?
関数テンプレートで実装される関数の実装のみ.cppに書いてあるのって、これダメ例なんですか…(大した量のコードじゃないので、ヘッダに関数の内容を実装して事なきを得た)
確かに言われてみれば非可逆の操作だな…ポストに投函。
とはいえ、e-mailも送ったものはよほどのことでない限り取り消せないから、これも非可逆操作と言えるな。
そう考えると怖いな、手紙やメールを送る行為。