CC100-ja、展開すると75GBのテキストになりますね…
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
JUMANはChaSen系の出力フォーマット https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
GiNZAはCoNLL-U形式 https://megagonlabs.github.io/ginza/
SudachiはMeCabっぽいけど設定次第ではChaSenっぽくもなる?(よく分からない) https://github.com/WorksApplications/Sudachi#sudachi-%E6%97%A5%E6%9C%AC%E8%AA%9Ereadme
MeCabとChaSenの出力フォーマット (2011-01-02) https://kshi-kshi.hatenadiary.org/entry/20110102/1293920002
これを見るに、JanomeもMeCab形式で出力しているという理解で良いのかな。 https://mocobeta.github.io/janome/
各種形態素解析器の出力フォーマットを見てみる必要はあるのかもしれない。その前にダウンロードしたCC100-jaを展開して、どのくらいのサイズになるかを調べる必要があるかも(空きがなければ作業はできない)。
とはいえ、nwc-toolkitの対応する形態素解析器はMeCabとchasen(ベースとなったJUMANはイケるのか?)と書いてあるのだが…それ以外でも使えるのはあるのだろうか? https://github.com/xen/nwc-toolkit/blob/master/docs/tools/ngram-counter.html
自然言語処理の形態素解析について調べたまとめ (2020/11/15) https://zenn.dev/megane_otoko/articles/008_morphological_analysis
MeCab以外にもJanome, GiNZA, JUMAN, Sudachiがあると。
Firefox OSの後継となったフォークはいくつかあるけれど、Capyloonというプロジェクトは今も活動している
テスト文字列に「うんこ」と入れるな (2021.Sep.9) https://www.slideshare.net/ketaiorg/ss-250149770
「人類はうんこに打ち勝つことは不可能」
…確かにうんこには勝てない。<unk>をそう読んでしまう程度には。
アヒルヤキを変換してみよう(2015.Mar.1) https://www.slideshare.net/hashimom/open-manyo-ahiruyaki
あひる焼き、そういうことだったのか…
メルセンヌツイスターは知ってたけどxoroshiro128+は初耳。
xoshiro / xoroshiro generators and the PRNG shootout https://prng.di.unimi.it/
このアカウントは、notestockで公開設定になっていません。
外部からlookup()呼べれば良いじゃんとか思ったけど、class Stateの中でinternal属性付いちゃってるから手も足も出せない…(プロジェクトの中からは自由に呼べるけど、public APIとしての呼び出しはできない)
lookup()はinitial-state-handler.valaとconvert-sentence-state-handler.valaから呼んでる
このアカウントは、notestockで公開設定になっていません。
変換処理(辞書の優先順位)はlibkkc/state.valaのlookup()に書いてあるね。 https://github.com/ueno/libkkc/blob/master/libkkc/state.vala#L378
ユーザ辞書が最優先になる(そりゃそういうもんだけど)。lookup()はどこから呼んでるかな…
libkkc/system-segment-dictionary.valaってMappedFile()使ってるけど、これってSKK辞書の処理…? https://github.com/ueno/libkkc/blob/master/libkkc/system-segment-dictionary.vala
過去の自分のツイート(当時)に立ち返ってみる。
https://twitter.com/uaa/status/1442001949562322947
libkkc UTと日本語入力の話(2021.1.10) https://chienomi.org/articles/linux/202101-kkc-ut.html にある、UT辞書をlibkkcに載せる話…ユーザ辞書自体の扱い、システム辞書との兼ね合いについてはコードを見ておきたいなって。大きなユーザ辞書でフリーズすること、まともに変換できなくなるというのは流石にどうなのって思う訳で。
CC100-jaのダウンロードは終わり。これからは一般家庭であっても言語資源やテキストマイニングを行える体制を有していないといけない時代なんだろうか…(んなこたない
X(ex. Twitter)の呟きをこちらでもリサイクル。
短単位自動解析用辞書を作る(4) (2023/7/15) https://note.com/teruaki_oka/n/n8b791966aa52
CC100-jaをnwc-toolkit他を使ってUniDicの改良に使用する話…でいいのかな?
HTMLパース→テキスト抽出→Unicode正規化→形態素解析(分かち書き)→N-gramコーパス作成、なんだろうけど…ただのテキストマイニングならそれで良いとして、libkkc向けに「よみがな/単語」形式にしないといけないっていうのをどうしたもんかね。
別に今と同じ、n-gramコーパス構築後にkakasiで付加、でも良いんだろうけど。
CC100-jaをnwc-toolkitで処理してコーパスを作る、というのはどうなんだろうかね。本家(https://code.google.com/archive/p/nwc-toolkit/)にtoolkitソースのアーカイブがあるけど、簡単に中身を確認するなら誰かのmirrorなのかforkなのか https://github.com/xen/nwc-toolkit を見るのが手っ取り早いか。
ミリンの焼酎割りが旨いとは思わなかった (2013.10.27) https://dailyportalz.jp/kiji/131025162167 流石デイリーポータルZ(?)、焼酎だけでなく日本酒・ビール・ウイスキー割りを試している。
Wikipediaだと「柳蔭(やなぎかげ)」ではなく「本直し(ほんなおし)」の項に記されてる。 https://ja.wikipedia.org/wiki/%E6%9C%AC%E7%9B%B4%E3%81%97
夏の終わりに、風流な和製カクテル「柳陰」で夏の余韻を。(2018.8.17) https://www.fukumitsuya.co.jp/komekara/article/1365/ 「氷を入れたロックグラスに味醂1、焼酎2の割合で注ぎ、軽く混ぜます。大切なのは、一切の調味や添加物を加えていない「本味醂」を使うこと。」
結構みりんを使う…?
このアカウントは、notestockで公開設定になっていません。
このアカウントは、notestockで公開設定になっていません。
とはいえ、s3-ap-northeast-1.amazonaws.comは日本国内かと言われると分からんのだけどな…
個人で利用可能な日本語の言語資源が海外にある以上、例の「はじめに」も修正が必要だな…という訳で、「日本国内にあるものに関しては」の文言を付けて直しておくとしよう。
逆に言えば、素材から一貫して自分の納得いく形に加工できるってことでもあるな…本っ当に「ナマ」の素材…
CC-100の日本語テキスト、本当に日本語テキストだこれ…MeCabで形態素解析するところから始めないといけないやつだ…(そう考えると形態素解析が終わってN-gram化してる日本語ウェブコーパス2010ってすごく便利なんじゃ)
日本語の言語資源を海外から手に入れないといけないとか、「日の丸〇〇」的にそれってどーよとか突っついてみようか。
CC-100とか扱いやすそうに見える(といってもトップページから目的とする言語へのリンクが張られているからという理由でデータの中身はこれから見る) https://data.statmt.org/cc-100/ mC4はよく分からない… https://github.com/allenai/allennlp/discussions/5056 JSONでも9.7TB(multilingual)なので、落としてから日本語だけ抜き出すとかしないといけないのかな。
OSCAR23.01にある日本語の資源(?)は181.2GBか… https://oscar-project.github.io/documentation/versions/oscar-2301/
Bing AI chatで「無料で使用可能な日本語の言語資源はありますか?」と聞いてみると、国語研はともかくとして、日本語LLMまとめ https://github.com/llm-jp/awesome-japanese-llm と【自然言語処理】フリーで使える大規模な日本語テキストコーパス(2023/01/08) https://tma15.github.io/blog/2023/01/08/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86%E3%83%95%E3%83%AA%E3%83%BC%E3%81%A7%E4%BD%BF%E3%81%88%E3%82%8B%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%81%AA%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9/ をおすすめされた
犬と同居している人は活動的でiPhoneユーザーが多い、猫と同居している人はスマホ利用時間が長くAndroidスマホユーザーが多い (2023/9/14) https://www.moba-ken.jp/project/lifestyle/20230914.html
そうなの…?
このアカウントは、notestockで公開設定になっていません。