21:48:13
icon

日本語ウェブコーパス2010の、1-gramのデータ、これって単語とその出現数の一覧(確率になっていないので)と何が違うんだろうか…?

21:00:11
icon

グラッパってボトルで買うと結構高いんだよなあ…とはいえ、サイゼリヤのワインを扱っていると言われるADDA WINE SHOPでまだ売られてるなら一本買うのもアリな気はする(他の酒屋でも大体\3k~\4kはする代物なのです)。 adda-wine.com/products/gra0001

20:56:16
icon

(税込み\300って、以前より安くなってない…?)

20:55:14
icon

大航海時代Onlineやってた身としては(ちなみに酒宴スキルR15なキャラも居るぞ)、グラッパは気になるお酒なのです。復活したのなら、機会を作って飲まねば…

20:31:32
icon

サイゼリヤ、グラッパ復活したの?だったら行くしかないか…

20:31:17
2023-09-08 20:30:35 Izumi Tsutsuiの投稿 tsutsuii@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

07:09:08
icon

となると、観測された(テキストを単に形態素解析した)生データだけで出現率を計算してもダメで、言語モデルに落とし込んだうえで.arpa作らないとそりゃあ処理する側も困るってことになるか。

07:07:26
icon

2-gram, 3-gramに出てくる単語は1-gramに依存するという作り方をするなら、1-gramの結果から単語一覧を構築ってことになるんだろうかね。(なので2-gramでしか出てこない単語とかやられちゃうとsortlm.pyがコケるとかそういう話になるんだろうか)

06:57:38
icon

無償で配布されるオープンソースソフトウェアの日本語かな漢字変換エンジンで用いる変換辞書の構築、という目的は果たして「営利」なのか「学術」なのか「一般」なのか…やっぱ一般なんだろうな。

まあ学術利用のお値段よりも安くできないよね、無償のオープンソースで利用するからと言って。

chunagon.ninjal.ac.jp/offlined

中納言の一般利用\200k、まだGoogleコーパスの\44kの方が安いけど…そんなお金払う余裕は無いですからね。

06:48:20
icon

1-gramのカウント数と、単語の出現頻度は同一になるのかどうかが分からない。
totalはそのコーパス内でのトークン数だってことはまあ分かったけどさ。
catalog.ldc.upenn.edu/docs/LDC