21:50:54 @uaa@social.mikutter.hachune.net
icon

形態素解析辞書の使用感まとめ(2020/11/21) marmooo.blogspot.com/2020/11/b

形態素解析辞書の使用感まとめ
21:25:04 @uaa@social.mikutter.hachune.net
icon

WSL2上のLinux環境、雑に作って雑に消せてしまうのでその都度設定してるような。

21:22:12 @uaa@social.mikutter.hachune.net
icon

でもVMware Playerの使用頻度も随分落ちたような。超漢字を動かす機会よりも、むしろWSL2のおかげでVMware上のLinux仮想マシンの出番が激減してる。

21:18:34 @uaa@social.mikutter.hachune.net
icon

Bulldozer系(Kaveri)のA8/A10使ってましたけど…iGPUの性能もあり、そんなに悪い印象はなかったですね。VMware Playerを動かすとBSoDすることがあったり(※)、VMware Player上でWindows9xがちゃんと動かないことを除けば、ですが。

(※)VMWareとAGESAの問題らしく、VMwareにもマザーボードのメーカーにも見捨てられていた

仮想化(およびその上で古いWindowsを動かすこと)さえ考えなければAMDは良いのですが、ちょっとそうは言ってられない状況なので今はIntel使いになってます。

21:11:27 @uaa@social.mikutter.hachune.net
2023-09-04 21:04:18 mitsukiの投稿 mitsuki64@vivaldi.net
CPUの話(平和
icon

SMT(HT)はパイプラインストールとかで空いてる演算器を無駄なく使おうって機構なので、単純な性能向上はオマケ程度の期待だろうけど、なら整数コアは2つ分あるけどあんまり使わないor重いFPは共有して「コア数」増やしたら有利……はともかく、シングルスレッドケチりすぎて大爆死したのがBulldozerだと理解してる。ZENのプラン見た時の奇跡の安堵感……。

21:07:15 @uaa@social.mikutter.hachune.net
2020-01-05 00:04:35 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

「同時に5体の3Dキャラが 60fps でなめらかに演技」
「眉,白目,瞳,ハイライト,瞼をリアルタイム合成」
「プログラマブルな視線制御」
「髪揺れ等」

「フルスクラッチ開発」
「設計を入力するとソースコードを出力」
「常駐コードサイズは約600KBytes」
「L2 cache に全部入る大きさ」

「(sqlite は) 要求に対してオーバースペックすぎ」「(DB を) 結局自前で作った」

?????

21:07:13 @uaa@social.mikutter.hachune.net
2020-01-05 00:00:32 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

スクールガールストライカーズの内製クライアントエンジン
jp.square-enix.com/conference/

それについてはこちらの資料をご覧ください

20:35:08 @uaa@social.mikutter.hachune.net
icon

格安USBホストマイコン CH559をいじってみた(大盛)(2021-08-02) q61.org/blog/2021/08/02/develo このサイトでなんかお洒落なフォント使ってるなー→ああこれがタイポスね、で調べてたって訳

Web site image
格安USBホストマイコン CH559をいじってみた(大盛)
20:34:02 @uaa@social.mikutter.hachune.net
icon

タイポスはAdobe Fontsへの提供やめたのか… morisawa.co.jp/support/faq/670

Web site image
Adobe Fontsへの提供が終了したフォントについて | よくあるご質問 | サポート
20:18:27 @uaa@social.mikutter.hachune.net
icon

大量のテキストデータと形態素解析機と言語モデルでなんとなく変換辞書を作れちゃう(多分)と考えると、昔のかな漢字変換辞書ってどう作ってたんだろうかというのが気になるな。多分相当の人手あるいは時間を使って作り上げたんだろうなという気がするんだけど。

機械生成な辞書でもある程度の変換効率は出せるんだろうけど、多分最後は人の手を入れないと…という話にはなるんだろう。学習元のテキストデータの選定だの、言葉の利用頻度の調整だの、調整の余地はいくらでもありそうだし。

20:05:36 @uaa@social.mikutter.hachune.net
icon

物理コアがたっぷり乗ればHT(論理コア)は滅びるさ、って話は昔どっかで見た気がするけど…意外とHTは生きてますよね。OpenBSDはセキュリティ向上のためHTをデフォルトで無効化していたりしますが(有効にもできます)。

19:50:20 @uaa@social.mikutter.hachune.net
icon

kakasiに食わせて読み仮名を付けるのが適切なのかどうか、という問題もあるのか。
mecabとかjumanとか、他の形態素解析エンジンの利用もあり得る…と。

18:26:54 @uaa@social.mikutter.hachune.net
icon

uaa@framboise:~$ cat test.cc
<cstdio>
<unordered_map>

int main(int argc, char *argv[])
{
std::unordered_map<int, int> m;

::printf("%lu\n", m.max_size());
return 0;
}
uaa@framboise:~$ c++ -std=c++11 test.cc; ./a.out
768614336404564650
uaa@framboise:~$

こんだけあれば余裕?(OpenBSD上のclangでの結果)

18:26:11 @uaa@social.mikutter.hachune.net
icon

物を数えるのにstd::unordered_mapが使えそうだと思っていたが…max_sizeの制約があるのか。

18:08:28 @uaa@social.mikutter.hachune.net
icon

srilmのソース見るに、本来ならvocabsize等の情報はN-gram作成時に生成されるみたいなんだけど…なんかそれを別途補わないといけないらしいってことらしい。

lm/src/NgramCountLM.ccのNgramCountLM::write()ないしread()辺りの処理から追っていけば、これらのパラメータの意味が分かるんだろうか。

18:04:13 @uaa@social.mikutter.hachune.net
icon

NAISTコーパスをざっくり眺めてるけど、これどうやってsrilmに食わせて.arpa得るの…?

18:00:10 @uaa@social.mikutter.hachune.net
icon

まだかなーと思ったら、google driveで共有できてた。スマホ見るまで通知来てるなんて知らなかったよ!

17:45:44 @uaa@social.mikutter.hachune.net
icon

400GB程度のテキストなら、ストレージに余裕があればなんとかなるよね…って感覚だよなあ。困ったことにその余裕は無いんだけど。 s-yata.jp/corpus/nwc2010/texts

テキストアーカイブ - 日本語ウェブコーパス 2010
17:42:03 @uaa@social.mikutter.hachune.net
icon

これでもくらえ…TTYF?

17:41:31 @uaa@social.mikutter.hachune.net
2023-04-30 23:33:38 須藤のぼる:skeb::youtube::twitch::tvchan:の投稿 noborusudou@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。

17:39:00 @uaa@social.mikutter.hachune.net
icon

Xは課金してないので、この程度の文字数で意図が伝わってるか不安
twitter.com/uaa/status/1698613

17:20:28 @uaa@social.mikutter.hachune.net
icon

全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用(2023/1/31) csd.ninjal.ac.jp/lrc/?%C1%B4%C とか、今後どうするんすかね…(利用できないみたいっすよそのデータ、と一声かけとく?)

全文検索システム『ひまわり』/『日本語学習者作文コーパス』の利用 - 言語データベースとソフトウェア
17:18:22 @uaa@social.mikutter.hachune.net
icon

日本語学習者作文コーパス sakubun.jpn.org/ も閉鎖になってるけど、そこにある全文データ sakubun.jpn.org/corpus/doc/dat も削除って…

「今後のため:10年前に比べ、現在はデータ収集も容易になりましたし、公開の方法も多様化しました。これからは,古いコーパスに頼ることなく、ご自分の力でご自分の研究デザインにあったデータを集めてほしいと思います。」というのは結構だけど、同じ手法でコーパスがどう変化したかとかだって立派な研究になるでしょうに…

日本語学習者作文コーパス
16:04:44 @uaa@social.mikutter.hachune.net
icon

何故SATAの電源ケーブルの長さが足りない→4pin/SATA変換ケーブルの手持ちも無いかなあ…

16:04:16 @uaa@social.mikutter.hachune.net
icon

必要な時に必要なものがそこに無いの法則、発動!orz

15:36:29 @uaa@social.mikutter.hachune.net
icon

NAISTの日本語コーパス、利用申請出してから1時間経過していますがまだお返事はありませんね…やはりどこの馬の骨とも知れぬものにデータは渡さぬわ、でしょうかね。1時間で判断するのは拙速なのでもう少し待ちますが。

(メールアドレス、面倒だったので日頃使ってるフリーメールの奴にしてたけど…昔所属してた研究室のアドレスを使った方が良かったのかな)

15:29:37 @uaa@social.mikutter.hachune.net
icon

N-gramについてもGPGPUを使って色々できそうな感じだけど、当然CUDAの独壇場か…うぐぐぐぐ

15:26:13 @uaa@social.mikutter.hachune.net
icon

イマドキの日本人は「盗んだバイクで走り出せ」という歌詞だけでケシカランケシカラン騒ぐって聞くけど…歌詞の評価はその歌が流行った時代背景を踏まえたうえで行うのが当然だし、それがその時代に対する最低限の礼儀になるはずなんだけど。

15:22:30 @uaa@social.mikutter.hachune.net
2023-09-04 15:21:17 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

15:22:28 @uaa@social.mikutter.hachune.net
2023-09-04 15:18:39 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

15:21:59 @uaa@social.mikutter.hachune.net
icon

ん-む、CUDAだとC++も使えるのか。OpenCL C++って無い訳じゃないけどあんまり聞かないみたいだし。 github.com/XapaJIaMnu/gLM/blob

15:12:13 @uaa@social.mikutter.hachune.net
icon

コーパスにしろAIにしろ、元となるデータの権利問題が絡んでくるから…簡単には学習結果は渡さないよ(部分のチラ見せだけです)というのが基本思想になるのかな。

…なんか、最後は「権利上問題の無いテキストデータを大量に入手して自分で作ってね」という選択肢しかないような気がしてきた。10年前に比べれば使用できる計算機の能力は上がっているから、どこの馬の骨とも知れぬ個人がそういう領域で何か足掻いてみるというのも不思議な話ではなさそうではあるんだけど。

14:48:35 @uaa@social.mikutter.hachune.net
icon

NAISTの日本語コーパスもなんかgoogle formっぽいもので個人情報出した後、さらにダウンロード申請という二段構え(意訳)なので今すぐにダウンロードできるわけじゃないっぽい…

14:43:41 @uaa@social.mikutter.hachune.net
icon

他に使えそう(お金をかけずに簡単に閲覧できそう、という意味)なコーパスっていうとNAISTテキストコーパス sites.google.com/site/naisttex くらいなんだろうか。

なんか日本語コーパス作るとか使って何かするっていうのもブームが過ぎちゃったみたいで、コーパス日本語学の情報館 jhlee.sakura.ne.jp/ みたいに閉鎖しちゃったりリンクがどっか行っちゃったりで今から手を出すにはかなりハードル高い感じがする。

ていうかなんでlibkkcの辞書っぽいものを作ろうとするだけでこんな沼地に沈まないといけないのさ自分…

コーパス日本語学の情報館
14:32:31 @uaa@social.mikutter.hachune.net
icon

問題は(Google N-gramコーパスを使うなら)google.countlm.0の記述方法なんだよな。order 5じゃなく3-gramなのでorder 3になるだろうという想像はつくけど…vocabsize, totalcount, countmodules, mixweights, あとパスの指定はgoogle-countsで問題無いのかどうか。

Web日本語Nグラム第1版 gsk.or.jp/files/catalog/GSK200 でもvocab.gzを見よと書いてあるけど…日本語ウェブコーパス2010にはこれに相当するものがない。

元データが公開されてるなら、AWS借りるなりして自分で作れってことなんですかね…(まさか?)

14:22:26 @uaa@social.mikutter.hachune.net
icon

どうやらやっていたことが激しく間違ってたみたい。
日本語ウェブコーパス 2010 s-yata.jp/corpus/nwc2010/ から形態素N-gramの頻度1000以上のリストで、3-gramのデータだけ引っ張ってあれこれやってたけど多分1-gram, 2-gramのデータも必要なはず。

あと、Google N-gramコーパスと同様にってあるけど…多分srilmでの処理もそれに準じた扱いにしないとダメなんだと思う。SRILM-FAQ speech.sri.com/projects/srilm/ のB6の項みたいに。

日本語ウェブコーパス 2010
14:22:18 @uaa@social.mikutter.hachune.net
icon

本日はお休みを頂いとります

20:33:20 @uaa@social.mikutter.hachune.net
icon

X32とか、もっと流行っても良かったはずなんだけど結局廃れちゃった…

20:31:46 @uaa@social.mikutter.hachune.net
2019-09-04 20:31:06 ksmakotoの投稿 ksmakoto@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

20:31:43 @uaa@social.mikutter.hachune.net
icon

(でもCPUのレジスタ数が増えるとかビット幅が増えると、コンテキスト退避/復帰のコストがかかる訳で、それがリアルタイム性にどの程度影響を及ぼすのかという問題はあるんだけど…多分気になるならFPGAとかもあるしハードウェアでやっちゃいなYO!というのが今の時代と理解している)

20:26:15 @uaa@social.mikutter.hachune.net
icon

ARMv8(64bit)でRTOS使いたいって呟きをTwitterで見たけど、「64bit環境で何すんの?32bitで十分じゃね?」と思ってしまったのは自分が古い人間だからなんだろうなあ。

多分、「32bit環境でRTOS?16bitで十分じゃね?」という歴史の繰り返し…

20:22:32 @uaa@social.mikutter.hachune.net
icon

ARMv8になってからATF必須…みたいな流れを見ると、それに嫌気がさしてRISC-Vどうなん?という話になっているのかなーと感じてしまうのだけどRISC-Vな板を何も持ってないのでその感覚が正しいかどうかは何とも。

20:20:35 @uaa@social.mikutter.hachune.net
icon

以前居た某社、業務の都合上ベアメタルにこだわっている部分が(あの頃は)非常に強かったのだけど今もそうなんだろうか。

20:18:01 @uaa@social.mikutter.hachune.net
icon

OrangePi One Plus(Allwinner H6)向けのU-bootのビルドを試してみたけど、なんかARM Trusted Firmware(ATF)が無いと動かないようになっていて、なんつーかベアメタルで触るのではなく既に動いているブートローダの上で何かをした方が良さげという…