12:32:33

落として簡単にのぞいみたけど、N-gram別にデータが分かれているわけではないし、単語1 単語2 単語3みたいに分割されておらず単語1単語2単語3みたいにくっついてるので使いにくいなこれは…

10:59:14

NDLのN-gramってどうなんだろう(一番小さいデータを落としてみる…って、これでも圧縮された状態で20GB近い) github.com/ndl-lab/ndlngramdat

GitHub - ndl-lab/ndlngramdata: デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
10:54:36

最新版のGSK2020-Cだと\33k…ちょい安くなった?
gsk.or.jp/catalog/gsk2020-c/

GSK2020-C 「国語研日本語ウェブコーパス」n-gram データ・頻度表
10:50:22

結局、最後はGSK2007-Cを買う、という身も蓋もない結論になりそうだけど…個人の非会員だと\44000だし、お金を払わない限り誰も利用できないじゃんって話になるよね。
gsk.or.jp/catalog/gsk2007-c/

GSK2007-C Web日本語Nグラム第1版
10:48:17

探しているものはコーパスというよりは、N-gram(3-gram)化されたデータ、と限定した方が良いのかもなあ。

10:38:46

Livedoor news corpus…今となっては古く小さなデータセットかもだけど、逆に簡単に実験するならこれもアリなのかもしれないな…

rondhuit.com/download.html

10:37:09
2025-02-24 10:35:56 Rikuoh Tsujitaniの投稿 riq0h@mystech.ink

このアカウントは、notestockで公開設定になっていません。

10:30:25

@teobot 既に構築されている、日本語のN-gramコーパス、特に3-gramのものは何がありますか?

10:18:25

@teobot では、CC100-jaに類似した言語資源、有料無料問わず、例示してください。有料か無料かの種別も付けてほしいです。

10:13:57

@teobot cc100-ja以外で、無料で利用可能な、日本語の言語資源は何があるでしょう?

09:39:07

ておくれロボってプログラム系の相談以外も受け付けてたのか…(今知った

09:38:11

@teobot ありがとうございます。ついでに、明日の神奈川の天気を教えてください。

09:35:50

@teobot OpenBSDがELF形式のファイルを読み出す際に、.note.openbsd.identセクションをチェックしているようなのですが、どのようなチェックをしているかご存知ですか?

09:33:24

@teobot OpenBSDがELF形式のファイルを読み出す際にチェックしている項目について教えてください