落として簡単にのぞいみたけど、N-gram別にデータが分かれているわけではないし、単語1 単語2 単語3みたいに分割されておらず単語1単語2単語3みたいにくっついてるので使いにくいなこれは…
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
落として簡単にのぞいみたけど、N-gram別にデータが分かれているわけではないし、単語1 単語2 単語3みたいに分割されておらず単語1単語2単語3みたいにくっついてるので使いにくいなこれは…
NDLのN-gramってどうなんだろう(一番小さいデータを落としてみる…って、これでも圧縮された状態で20GB近い) https://github.com/ndl-lab/ndlngramdata
最新版のGSK2020-Cだと\33k…ちょい安くなった?
https://www.gsk.or.jp/catalog/gsk2020-c/
結局、最後はGSK2007-Cを買う、という身も蓋もない結論になりそうだけど…個人の非会員だと\44000だし、お金を払わない限り誰も利用できないじゃんって話になるよね。
https://www.gsk.or.jp/catalog/gsk2007-c/
探しているものはコーパスというよりは、N-gram(3-gram)化されたデータ、と限定した方が良いのかもなあ。
Livedoor news corpus…今となっては古く小さなデータセットかもだけど、逆に簡単に実験するならこれもアリなのかもしれないな…
このアカウントは、notestockで公開設定になっていません。
@teobot 既に構築されている、日本語のN-gramコーパス、特に3-gramのものは何がありますか?
@teobot では、CC100-jaに類似した言語資源、有料無料問わず、例示してください。有料か無料かの種別も付けてほしいです。
@teobot cc100-ja以外で、無料で利用可能な、日本語の言語資源は何があるでしょう?
@teobot ありがとうございます。ついでに、明日の神奈川の天気を教えてください。
@teobot OpenBSDがELF形式のファイルを読み出す際に、.note.openbsd.identセクションをチェックしているようなのですが、どのようなチェックをしているかご存知ですか?