2023年9月8日 - @uaa@social.mikutter.hachune.netの投稿

21:48:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語ウェブコーパス2010の、1-gramのデータ、これって単語とその出現数の一覧（確率になっていないので）と何が違うんだろうか…？

21:00:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

グラッパってボトルで買うと結構高いんだよなあ…とはいえ、サイゼリヤのワインを扱っていると言われるADDA WINE SHOPでまだ売られてるなら一本買うのもアリな気はする（他の酒屋でも大体\3k～\4kはする代物なのです）。 https://adda-wine.com/products/gra0001

https://adda-wine.com/products/gra0001

404 Not Found

20:56:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（税込み\300って、以前より安くなってない…？）

20:55:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

大航海時代Onlineやってた身としては（ちなみに酒宴スキルR15なキャラも居るぞ）、グラッパは気になるお酒なのです。復活したのなら、機会を作って飲まねば…

20:31:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

サイゼリヤ、グラッパ復活したの？だったら行くしかないか…

20:31:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-08 20:30:35 Izumi Tsutsuiの投稿 tsutsuii@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

07:09:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

となると、観測された（テキストを単に形態素解析した）生データだけで出現率を計算してもダメで、言語モデルに落とし込んだうえで.arpa作らないとそりゃあ処理する側も困るってことになるか。

07:07:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2-gram, 3-gramに出てくる単語は1-gramに依存するという作り方をするなら、1-gramの結果から単語一覧を構築ってことになるんだろうかね。（なので2-gramでしか出てこない単語とかやられちゃうとsortlm.pyがコケるとかそういう話になるんだろうか）

06:57:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

無償で配布されるオープンソースソフトウェアの日本語かな漢字変換エンジンで用いる変換辞書の構築、という目的は果たして「営利」なのか「学術」なのか「一般」なのか…やっぱ一般なんだろうな。

まあ学術利用のお値段よりも安くできないよね、無償のオープンソースで利用するからと言って。

https://chunagon.ninjal.ac.jp/offlinedataappl?target=BCCWJ

中納言の一般利用\200k、まだGoogleコーパスの\44kの方が安いけど…そんなお金払う余裕は無いですからね。

https://chunagon.ninjal.ac.jp/offlinedataappl?target=BCCWJ

有償版 (BCCWJ)

06:48:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

1-gramのカウント数と、単語の出現頻度は同一になるのかどうかが分からない。
totalはそのコーパス内でのトークン数だってことはまあ分かったけどさ。
https://catalog.ldc.upenn.edu/docs/LDC2006T13/readme.txt

https://catalog.ldc.upenn.edu/docs/LDC2006T13/readme.txt

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30