日本語ウェブコーパス2010の、1-gramのデータ、これって単語とその出現数の一覧(確率になっていないので)と何が違うんだろうか…?
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
日本語ウェブコーパス2010の、1-gramのデータ、これって単語とその出現数の一覧(確率になっていないので)と何が違うんだろうか…?
グラッパってボトルで買うと結構高いんだよなあ…とはいえ、サイゼリヤのワインを扱っていると言われるADDA WINE SHOPでまだ売られてるなら一本買うのもアリな気はする(他の酒屋でも大体\3k~\4kはする代物なのです)。 https://adda-wine.com/products/gra0001
大航海時代Onlineやってた身としては(ちなみに酒宴スキルR15なキャラも居るぞ)、グラッパは気になるお酒なのです。復活したのなら、機会を作って飲まねば…
このアカウントは、notestockで公開設定になっていません。
となると、観測された(テキストを単に形態素解析した)生データだけで出現率を計算してもダメで、言語モデルに落とし込んだうえで.arpa作らないとそりゃあ処理する側も困るってことになるか。
2-gram, 3-gramに出てくる単語は1-gramに依存するという作り方をするなら、1-gramの結果から単語一覧を構築ってことになるんだろうかね。(なので2-gramでしか出てこない単語とかやられちゃうとsortlm.pyがコケるとかそういう話になるんだろうか)
無償で配布されるオープンソースソフトウェアの日本語かな漢字変換エンジンで用いる変換辞書の構築、という目的は果たして「営利」なのか「学術」なのか「一般」なのか…やっぱ一般なんだろうな。
まあ学術利用のお値段よりも安くできないよね、無償のオープンソースで利用するからと言って。
https://chunagon.ninjal.ac.jp/offlinedataappl?target=BCCWJ
中納言の一般利用\200k、まだGoogleコーパスの\44kの方が安いけど…そんなお金払う余裕は無いですからね。
1-gramのカウント数と、単語の出現頻度は同一になるのかどうかが分からない。
totalはそのコーパス内でのトークン数だってことはまあ分かったけどさ。
https://catalog.ldc.upenn.edu/docs/LDC2006T13/readme.txt