2025年2月24日 - @uaa@social.mikutter.hachune.netの投稿

12:32:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

落として簡単にのぞいみたけど、N-gram別にデータが分かれているわけではないし、単語1 単語2 単語3みたいに分割されておらず単語1単語2単語3みたいにくっついてるので使いにくいなこれは…

10:59:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

NDLのN-gramってどうなんだろう（一番小さいデータを落としてみる…って、これでも圧縮された状態で20GB近い） https://github.com/ndl-lab/ndlngramdata

GitHub - ndl-lab/ndlngramdata: デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット

10:54:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

最新版のGSK2020-Cだと\33k…ちょい安くなった？
https://www.gsk.or.jp/catalog/gsk2020-c/

GSK2020-C 「国語研日本語ウェブコーパス」n-gram データ・頻度表

10:50:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

結局、最後はGSK2007-Cを買う、という身も蓋もない結論になりそうだけど…個人の非会員だと\44000だし、お金を払わない限り誰も利用できないじゃんって話になるよね。
https://www.gsk.or.jp/catalog/gsk2007-c/

GSK2007-C Web日本語Nグラム第1版

10:48:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

探しているものはコーパスというよりは、N-gram(3-gram)化されたデータ、と限定した方が良いのかもなあ。

10:38:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Livedoor news corpus…今となっては古く小さなデータセットかもだけど、逆に簡単に実験するならこれもアリなのかもしれないな…

ダウンロード

10:37:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2025-02-24 10:35:56 Rikuoh Tsujitaniの投稿 riq0h@mystech.ink

このアカウントは、notestockで公開設定になっていません。

10:30:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot 既に構築されている、日本語のN-gramコーパス、特に3-gramのものは何がありますか？

10:18:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot では、CC100-jaに類似した言語資源、有料無料問わず、例示してください。有料か無料かの種別も付けてほしいです。

10:13:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot cc100-ja以外で、無料で利用可能な、日本語の言語資源は何があるでしょう？

09:39:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ておくれロボってプログラム系の相談以外も受け付けてたのか…（今知った

09:38:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot ありがとうございます。ついでに、明日の神奈川の天気を教えてください。

09:35:50 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot OpenBSDがELF形式のファイルを読み出す際に、.note.openbsd.identセクションをチェックしているようなのですが、どのようなチェックをしているかご存知ですか？

09:33:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@teobot OpenBSDがELF形式のファイルを読み出す際にチェックしている項目について教えてください