23:22:24
icon

IRSTLMのページ、github上のを追うしかなさそう。hlt-mt.fbk.euのはweb archive上でしか見られないけどそんなに有用な情報は見当たらない…

web.archive.org/web/2021012618

23:14:35
21:30:55
icon

How to distributed LM training: step 3に
「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3
-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。

というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。

…試してみる価値はありそうだな?

21:10:40
icon

2009年の時点で、SRILMでGoogle N-gramをARPA化できませんか?って話が出てる。
mailman.speech.sri.com/piperma
それに対し、SRILMはあくまでも仮の対応でしかしない(意訳)ので、MSRLMかIRSTLMを使えという返事が来ている。
mailman.speech.sri.com/piperma

16:51:48
icon

少し…?あんまり変わらない…?うーん…?

16:51:33
2023-09-10 16:49:26 Posting さわじり imgssy@misskey.io
icon

This account is not set to public on notestock.

16:12:38
icon

とりあえず、SRILM-FAQのB6) e)ただし-text tune.ext -vocab tune.vocab抜きでngram-countが通ることは確認した。

…で、ここからどうやってdata.arpa作るのかにゃ?

16:09:14
icon

github.com/BitSpeech/SRILM/blo ←お前はこの存在を知っていながらちゃんと読んでないだろう?とお叱りを受けそう。

1gms/vocabは1-gramそのもの、
2gms/2gm-0000は2-gramのデータで、2gm.idx以降は各ファイルの先頭にあるN-gram…たとえば2gm-0000の最初のエントリが「<S> ぁ 60447」なら、2gm.idxの中身は「2gm-0000 <S> ぁ」みたいな感じ。

こんなの知るかああああああ💢、というのはただの逆切れですね。お見苦しいものをお見せして申し訳ない。

15:34:59
icon

Google N-gramデータを持っている人にお願いしてそういう作業をしてもらう以外、なんか方法ないのかなあ。

15:31:38
icon

日本語ウェブコーパス2010に転がってるN-gramデータをsrilmに食わせて、data.arpa(3-gram)を得られればそれで良いだけなんだがなあ…その作業に必要な情報(データフォーマット)を得るにしても、google謹製のN-gramデータを手にしないといかんとかそういう状況になってる?閲覧するだけでもお金払ってとか言われても無理なんすけど(データセットを使いたいんじゃなく、既にあるデータのフォーマットをgoogle形式に合わせたいだけ)。

15:27:57
icon

DBpedia, Extremism, Drugなるデータセットを使ってなにやらやったってことまでは読めたけど…うーむむ local.cis.strath.ac.uk/wp/extr Textual Analysis for Document
Forensics (Alice Oberacker, Aug 2017)

15:26:19
icon

ユーザの自由、というのを認めたくないというのが日本のメーカーの思考だと思ってる。パソコンよりもゲーム機が売れちゃうこのお国ですし。ゲームだってMOD文化を徹底的に否定してきましたよね?

15:16:36
2023-09-10 15:13:45 Posting hfp hfp@social.mikutter.hachune.net
icon

This account is not set to public on notestock.

15:15:47
icon

うーん、1gms/vocabは誤魔化したとして、2gms/2gm.idxってなんなのこれ…?

14:58:00
icon

サディスティック・ミカ・バンド|ライブBlu-ray&DVD『晴天 ライブ・イン・トーキョー1989』11月22日発売 tower.jp/article/feature_item/

これはDVD版を買うべきか、Blu-ray版を買うべきか結構悩む。
PCでのBlu-ray視聴環境が無いので、DVDの方が扱いやすいんだけど居間のTVで見るならBlu-rayの方が良いし…

Web site image
サディスティック・ミカ・バンド|ライブBlu-ray&DVD『晴天 ライブ・イン・トーキョー1989』11月22日発売 - TOWER RECORDS ONLINE
13:36:26
icon

もう意味が分からない

uaa@DESKTOP-251U0UF:~$ echo 蹴っ蹴っ蹴っ  | nkf -e | kakasi -KH -JH |nkf -w
けっ蹴っけっ 
uaa@DESKTOP-251U0UF:~$

13:31:22
icon

二度呼びしないとダメ…?

uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる 
uaa@DESKTOP-251U0UF:~$ echo ふっ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっきれる 
uaa@DESKTOP-251U0UF:~$

13:29:31
icon

自分もC++のヘッダファイルの中に関数の実体書くのは流石にどーよとは思っているんだけど…テンプレート使った場合はヘッダ(クラス定義)の中に書かないとうまくコンパイルしてくれない感じなので仕方なくそーしたっていう話。多分自分のやり方に問題があるだけなんだと思うけど。

13:28:07
2023-09-10 13:22:14 Posting redbrick@HyZERO3強制解約済み redbrick@social.mikutter.hachune.net
icon

This account is not set to public on notestock.

13:27:30
icon

これはkakasiのバグなのかなあ?「っ」の後の漢字を仮名変換してくれない。

uaa@DESKTOP-251U0UF:~$ echo 蹴っ飛ばす  | nkf -e | kakasi -KH -JH |nkf -w
けっ飛ばす 
uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる 
uaa@DESKTOP-251U0UF:~$

13:21:39
icon

じゃあ「ヽヾゝゞ」なんかの対応も要らないかなー

13:16:59
icon

uaa@DESKTOP-251U0UF:~$ echo 代々木  | nkf -e | kakasi -KH -JH |nkf -w
よよぎ 
uaa@DESKTOP-251U0UF:~$ echo 代々  | nkf -e | kakasi -KH -JH |nkf -w
だいだい 
uaa@DESKTOP-251U0UF:~$ echo 々木  | nkf -e | kakasi -KH -JH |nkf -w
き 
uaa@DESKTOP-251U0UF:~$ echo 々  | nkf -e | kakasi -KH -JH |nkf -w
 
uaa@DESKTOP-251U0UF:~$

々、の扱いも…単体では読めないものとしている(これについてはそれで良いのだと思う)

13:15:52
icon

uaa@DESKTOP-251U0UF:~$ echo 〆切 | nkf -e | kakasi -KH -JH |nkf -w
せつ
uaa@DESKTOP-251U0UF:~$ echo 〆 | nkf -e | kakasi -KH -JH |nkf -w

uaa@DESKTOP-251U0UF:~$

〆切(しめきり)を認識しない…?

12:05:01
icon

あ、読みに「ヴ」があった場合も考慮してなかったかも

10:15:41
icon

関数テンプレートで実装される関数の実装のみ.cppに書いてあるのって、これダメ例なんですか…(大した量のコードじゃないので、ヘッダに関数の内容を実装して事なきを得た)

07:29:35
icon

確かに言われてみれば非可逆の操作だな…ポストに投函。
とはいえ、e-mailも送ったものはよほどのことでない限り取り消せないから、これも非可逆操作と言えるな。
そう考えると怖いな、手紙やメールを送る行為。

07:28:22
2023-09-10 06:47:59 Posting rinsuki rinsuki@mstdn.rinsuki.net
icon

郵便ポスト、非可逆な操作なので怖い