22:42:27
icon

CC100-ja、展開すると75GBのテキストになりますね…

22:40:47
icon

JUMANはChaSen系の出力フォーマット nlp.ist.i.kyoto-u.ac.jp/?JUMAN
GiNZAはCoNLL-U形式 megagonlabs.github.io/ginza/
SudachiはMeCabっぽいけど設定次第ではChaSenっぽくもなる?(よく分からない) github.com/WorksApplications/S

JUMAN++ - LANGUAGE MEDIA PROCESSING LAB
GiNZA - Japanese NLP Library
Web site image
GitHub - WorksApplications/Sudachi: A Japanese Tokenizer for Business
22:35:36
icon

MeCabとChaSenの出力フォーマット (2011-01-02) kshi-kshi.hatenadiary.org/entr
これを見るに、JanomeもMeCab形式で出力しているという理解で良いのかな。 mocobeta.github.io/janome/

Web site image
MeCabとChaSenの出力フォーマット
Welcome to janome''s documentation! (Japanese) — Janome v0.4 documentation (ja)
22:04:20
icon

各種形態素解析器の出力フォーマットを見てみる必要はあるのかもしれない。その前にダウンロードしたCC100-jaを展開して、どのくらいのサイズになるかを調べる必要があるかも(空きがなければ作業はできない)。

22:03:14
icon

とはいえ、nwc-toolkitの対応する形態素解析器はMeCabとchasen(ベースとなったJUMANはイケるのか?)と書いてあるのだが…それ以外でも使えるのはあるのだろうか? github.com/xen/nwc-toolkit/blo

21:59:22
icon

自然言語処理の形態素解析について調べたまとめ (2020/11/15) zenn.dev/megane_otoko/articles
MeCab以外にもJanome, GiNZA, JUMAN, Sudachiがあると。

Web site image
自然言語処理の形態素解析について調べたまとめ
21:55:01
2023-09-18 21:45:49 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

Firefox OSの後継となったフォークはいくつかあるけれど、Capyloonというプロジェクトは今も活動している

17:10:25
icon

テスト文字列に「うんこ」と入れるな (2021.Sep.9) slideshare.net/ketaiorg/ss-250
「人類はうんこに打ち勝つことは不可能」

…確かにうんこには勝てない。<unk>をそう読んでしまう程度には。

Web site image
テスト文字列に「うんこ」と入れるな
16:31:32
icon

アヒルヤキを変換してみよう(2015.Mar.1) slideshare.net/hashimom/open-m
あひる焼き、そういうことだったのか…

Web site image
アヒルヤキを変換してみよう
16:12:05
icon

メルセンヌツイスターは知ってたけどxoroshiro128+は初耳。

xoshiro / xoroshiro generators and the PRNG shootout prng.di.unimi.it/

xoshiro/xoroshiro generators and the PRNG shootout
16:08:45
2023-09-18 08:14:49 負けヒロイン@がんばらないの投稿 kelvin27315@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

16:07:12
icon

外部からlookup()呼べれば良いじゃんとか思ったけど、class Stateの中でinternal属性付いちゃってるから手も足も出せない…(プロジェクトの中からは自由に呼べるけど、public APIとしての呼び出しはできない)

15:34:44
icon

lookup()はinitial-state-handler.valaとconvert-sentence-state-handler.valaから呼んでる

15:33:18
icon

トラ技の厚さは国の豊かさと国力によって変化する

15:32:29
icon

噂じゃなく事実…(CQ Ham radioに関しても薄くなっているけど)

15:31:45
2023-09-18 04:11:42 両切りの投稿 scissors@homoo.social
icon

このアカウントは、notestockで公開設定になっていません。

13:48:31
icon

変換処理(辞書の優先順位)はlibkkc/state.valaのlookup()に書いてあるね。 github.com/ueno/libkkc/blob/ma
ユーザ辞書が最優先になる(そりゃそういうもんだけど)。lookup()はどこから呼んでるかな…

13:37:57
icon

libkkc/system-segment-dictionary.valaってMappedFile()使ってるけど、これってSKK辞書の処理…? github.com/ueno/libkkc/blob/ma

13:32:41
icon

過去の自分のツイート(当時)に立ち返ってみる。
twitter.com/uaa/status/1442001

libkkc UTと日本語入力の話(2021.1.10) chienomi.org/articles/linux/20 にある、UT辞書をlibkkcに載せる話…ユーザ辞書自体の扱い、システム辞書との兼ね合いについてはコードを見ておきたいなって。大きなユーザ辞書でフリーズすること、まともに変換できなくなるというのは流石にどうなのって思う訳で。

libkkc UTと日本語入力の話 - Chienomi
12:53:38
icon

CC100-jaのダウンロードは終わり。これからは一般家庭であっても言語資源やテキストマイニングを行える体制を有していないといけない時代なんだろうか…(んなこたない

12:25:19
icon

X(ex. Twitter)の呟きをこちらでもリサイクル。
短単位自動解析用辞書を作る(4) (2023/7/15) note.com/teruaki_oka/n/n8b7919
CC100-jaをnwc-toolkit他を使ってUniDicの改良に使用する話…でいいのかな?

Web site image
短単位自動解析用辞書を作る(4)|Teruaki Oka
11:53:24
icon

HTMLパース→テキスト抽出→Unicode正規化→形態素解析(分かち書き)→N-gramコーパス作成、なんだろうけど…ただのテキストマイニングならそれで良いとして、libkkc向けに「よみがな/単語」形式にしないといけないっていうのをどうしたもんかね。

別に今と同じ、n-gramコーパス構築後にkakasiで付加、でも良いんだろうけど。

11:45:22
icon

CC100-jaをnwc-toolkitで処理してコーパスを作る、というのはどうなんだろうかね。本家(code.google.com/archive/p/nwc-)にtoolkitソースのアーカイブがあるけど、簡単に中身を確認するなら誰かのmirrorなのかforkなのか github.com/xen/nwc-toolkit を見るのが手っ取り早いか。

Google Code Archive - Long-term storage for Google Code Project Hosting.
Web site image
GitHub - xen/nwc-toolkit: Automatically exported from code.google.com/p/nwc-toolkit
11:41:03
icon

ミリンの焼酎割りが旨いとは思わなかった (2013.10.27) dailyportalz.jp/kiji/131025162 流石デイリーポータルZ(?)、焼酎だけでなく日本酒・ビール・ウイスキー割りを試している。

Web site image
ミリンの焼酎割りが旨いとは思わなかった
11:38:21
icon

Wikipediaだと「柳蔭(やなぎかげ)」ではなく「本直し(ほんなおし)」の項に記されてる。 ja.wikipedia.org/wiki/%E6%9C%A

11:36:36
icon

夏の終わりに、風流な和製カクテル「柳陰」で夏の余韻を。(2018.8.17) fukumitsuya.co.jp/komekara/art 「氷を入れたロックグラスに味醂1、焼酎2の割合で注ぎ、軽く混ぜます。大切なのは、一切の調味や添加物を加えていない「本味醂」を使うこと。」
結構みりんを使う…?

Web site image
夏の終わりに、風流な和製カクテル「柳陰」で夏の余韻を。
11:34:26
2023-09-18 07:29:20 猫山ぽるかの投稿 nekonyanma@pawoo.net
icon

このアカウントは、notestockで公開設定になっていません。

11:11:27
icon

頻度750辞書(100M)→500辞書(180M)、やっぱメモリ喰うな…

10:14:34
2023-09-18 10:11:50 こおしいずの投稿 kcz146@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

10:12:26
icon

ま、多少主語がデカくてもいいかな…?

10:05:27
icon

とはいえ、s3-ap-northeast-1.amazonaws.comは日本国内かと言われると分からんのだけどな…

10:04:50
icon

個人で利用可能な日本語の言語資源が海外にある以上、例の「はじめに」も修正が必要だな…という訳で、「日本国内にあるものに関しては」の文言を付けて直しておくとしよう。

09:39:07
icon

どれどれ…

08:53:28
icon

逆に言えば、素材から一貫して自分の納得いく形に加工できるってことでもあるな…本っ当に「ナマ」の素材…

08:50:09
icon

CC-100の日本語テキスト、本当に日本語テキストだこれ…MeCabで形態素解析するところから始めないといけないやつだ…(そう考えると形態素解析が終わってN-gram化してる日本語ウェブコーパス2010ってすごく便利なんじゃ)

08:38:29
icon

日本語の言語資源を海外から手に入れないといけないとか、「日の丸〇〇」的にそれってどーよとか突っついてみようか。

08:35:53
icon

CC-100とか扱いやすそうに見える(といってもトップページから目的とする言語へのリンクが張られているからという理由でデータの中身はこれから見る) data.statmt.org/cc-100/ mC4はよく分からない… github.com/allenai/allennlp/di JSONでも9.7TB(multilingual)なので、落としてから日本語だけ抜き出すとかしないといけないのかな。

CC-100: Monolingual Datasets from Web Crawl Data
Web site image
Download the C4 dataset! · allenai/allennlp · Discussion #5056
08:32:12
icon

OSCAR23.01にある日本語の資源(?)は181.2GBか… oscar-project.github.io/docume

08:29:28
icon

Bing AI chatで「無料で使用可能な日本語の言語資源はありますか?」と聞いてみると、国語研はともかくとして、日本語LLMまとめ github.com/llm-jp/awesome-japa と【自然言語処理】フリーで使える大規模な日本語テキストコーパス(2023/01/08) tma15.github.io/blog/2023/01/0 をおすすめされた

Web site image
GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ
08:15:29
icon

犬と同居している人は活動的でiPhoneユーザーが多い、猫と同居している人はスマホ利用時間が長くAndroidスマホユーザーが多い (2023/9/14) moba-ken.jp/project/lifestyle/

そうなの…?

07:09:45
icon

えー…

07:09:40
2023-09-17 23:46:20 さわじりの投稿 imgssy@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。