2023-10-07 22:16:12 @uaa@social.mikutter.hachune.net
icon

3-gramの出現頻度、自分でもそれを求めるコードを作って(意外と簡単にできるんですね…と驚いてる)、nwc-toolkitの出力結果と比較してみよう。

2023-10-07 21:03:21 @uaa@social.mikutter.hachune.net
icon

<S>追加の処理をしてるのはnwc-toolkit-ngram-counterだから、nwc-toolkit-ngram-mergerが何してるかを理解しないと何してるかが分からないことになる…C++よく分かんないんだけど…

2023-10-07 20:52:33 @uaa@social.mikutter.hachune.net
icon

自分が使うDMRホットスポットのために社団局立てるにしても、人とカネが要るのでやりたくないし(移動しない局としては持っているけど、今回の改正で「自コール間通信は不可」が明確化されちゃった以上封印してる)…ボッチで電波使った実験をできるのが「ワイヤレス人材」育成のために必要なことだと自分は思うのだけど、どうも総務省はそう考えていないみたいなんですよね。「通信の相手(ヒト)が居てこそのアマチュア無線」だそーで。

2023-10-07 20:49:02 @uaa@social.mikutter.hachune.net
icon

無線従事者ですらない者が技適警察を名乗って叩きに来るのも鬱陶しいんですが、アマチュア無線の場合アマチュア無線家が「それって電波法違反では?」と電波法警察になって叩きに来るので本当に頭が痛いです。自局間(自コール間)通信不可の件も、自分で自分の首を絞めた結果…いちいちそんなこと言わなければグレーゾーンのまま今でも可能だったかもしれないのに。

2023-10-07 20:34:46 @uaa@social.mikutter.hachune.net
icon

単に「叩く」ことを信条としてるだけな気がする、技適警察。

2023-10-07 20:34:07 @uaa@social.mikutter.hachune.net
2023-10-07 20:28:46 埼玉ギャル(仮)の投稿 sota_n@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 20:24:45 @uaa@social.mikutter.hachune.net
icon

※非技適機をJARDの保証認定通して使ってるから

2023-10-07 20:24:20 @uaa@social.mikutter.hachune.net
icon

やっぱ技適警察は滅ぼさないといけない気がする。アマチュア無線に対する脅威にもなりかねないし。

2023-10-07 20:23:39 @uaa@social.mikutter.hachune.net
icon

RPi5買ったことに対して技適警察が動いてる、と曲解して良いのかな。RPi5(話題のデバイス)を手にできなかったやっかみを、技適の名の下に断罪して持ち主を叩くみたいな。

2023-10-07 19:31:12 @uaa@social.mikutter.hachune.net
icon

Googleですらそういう状況なら、日本においてはもう*検閲済み*としか言いようがないな…明日に期待するだけ、無駄なのかも。

※相変わらずだーくもーど。

2023-10-07 19:28:53 @uaa@social.mikutter.hachune.net
2023-10-07 19:02:54 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 19:28:49 @uaa@social.mikutter.hachune.net
2023-10-07 19:02:09 ちゃーしゅーねこの投稿 charsiuCat@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 19:27:01 @uaa@social.mikutter.hachune.net
icon

Linuxの(OpenBSDにこれは無い)splitって、--filterで分割したファイルに処理掛けられるのか。これだよこれ… linuxcommand.net/split/#_--fil

Web site image
split - ファイルを分割する
2023-10-07 18:52:46 @uaa@social.mikutter.hachune.net
icon

1TのSSDで足りるさと思っていましたが、見立て甘かったです…><

2023-10-07 18:51:59 @uaa@social.mikutter.hachune.net
icon

splitした結果を置いとく場所…

2023-10-07 18:51:48 @uaa@social.mikutter.hachune.net
2023-10-07 18:51:28 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 18:51:15 @uaa@social.mikutter.hachune.net
icon

とりあえず、今日は寝ている間に仕事させることにしちゃいました…

2023-10-07 18:49:26 @uaa@social.mikutter.hachune.net
icon

wcで行数数えて、split -lで適当に切る手がありますね…(圧縮解くとディスクの空き容量が心配になるんだけど、余裕はなんとかありそうだし…)

2023-10-07 18:47:30 @uaa@social.mikutter.hachune.net
2023-10-07 18:45:30 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 18:42:58 @uaa@social.mikutter.hachune.net
icon

MeCabのC++ライブラリを使ってみた(C++11のマルチスレッドに触ってみた) (2013/2/6) sucrose.hatenablog.com/entry/2 「一応強調しておきますが、たぶん単純に形態素解析の速度を速くしたいならファイルを分割して別々のプロセスとしてMeCabに投げたほうが速いと思われます。」 えぇ…

入力ファイルがja.txt.xzと固まったまま(ディスク容量を考えると展開したくない)というブツなので、xzcat ja.txt.xz | mecab-mtみたいな形でぶち込んだ際にmecabより速いぜとかそういうのが欲しいんだってばあああああああ

Web site image
MeCabのC++ライブラリを使ってみた(C++11のマルチスレッドに触ってみた)
2023-10-07 18:35:43 @uaa@social.mikutter.hachune.net
icon

MeCabの分かち書きを並列処理で高速化する (2021/7/18) zenn.dev/hpp/articles/255de192
入力した文と出力した文の順序が多少狂っても、どうせN-gram作るのでその程度の用途ならめちゃくちゃ速くなるぜーといった感じでマルチスレッド化したMeCabというのがすごく欲しいんだけど…やっぱparallelで切るしかないのかなあ?

Web site image
MeCabの分かち書きを並列処理で高速化する
2023-10-07 18:30:11 @uaa@social.mikutter.hachune.net
icon

@sleeping_coelacanth となると、あとは言語系でもサポートしてほしいところではありますね…(情報感謝)

2023-10-07 18:25:53 @uaa@social.mikutter.hachune.net
icon

他のツールに頼るならその部分は標準的な手法で、で線を引くしかないか。マージが必要だと言ってるならマージはする、自分のツールにマージする機能があってもそれは使わない。言い方が悪いけど、線引きをしないと自分が悪いのか相手が悪いのか分からなくなってしまう。

2023-10-07 18:23:20 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ grep "ぁ/ァ いる/イル" 3gm.ngms
<S> ぁ/ァ いる/イル 13
ぁ/ァ いる/イル しか/しか 1
ぁ/ァ いる/イル で/で 4
ぁ/ァ いる/イル です/です 8
ぁ/ァ いる/イル と/と 1
ぁ/ァ いる/イル に/に 12
ぁ/ァ いる/イル めい/名 1
uaa@emeraude:~/cc100-libkkc$ grep "ぁ/ァ いる/イル" 3gm.ngms-temp
<S> ぁ/ァ いる/イル 7
ぁ/ァ いる/イル で/で 1
ぁ/ァ いる/イル と/と 1
ぁ/ァ いる/イル に/に 5
ぁ/ァ いる/イル めい/名 1
uaa@emeraude:~/cc100-libkkc$

うーん、分割されたコーパスから単に3-gramだけ切り出すだけではダメで、ngram-mergerを通さないといけないなんらかの理由がありそう。

2023-10-07 18:19:21 @uaa@social.mikutter.hachune.net
icon

AI対応って言うなら、GPUだけでなくCPU側(FPU/SSE/AVX)辺りもbfloat16対応を入れないんですかねー?とは思っているんだけど流石にやらないんですかね…?

2023-10-07 18:16:30 @uaa@social.mikutter.hachune.net
icon

3-gramだけ純粋に拾ってくるか、(おそらく)1-gram, 2-gramに<S>付けて3-gram化したのを作ってくるかの違いという気が、なんとなくする。とはいえ、ngram-mergerにそんな機能があるようには見えないんだけど…?(ngram-counterがちゃんと3-gramを作るはずなのでは?って思う)

2023-10-07 18:10:22 @uaa@social.mikutter.hachune.net
icon

Socket7の時代のベンチマークって、本当にそのスコア出たんですかっていう疑惑がなんとなーくあるんですが、どうだったんですかね…?(ベンチマーク取ったのと完全に同じ機材ならそのスコア出るんですかね…?)

icon

少なくともOpenCLを使う上では、Intel(iGPUもArcも)はそんなに面倒でなかったというのは好感が持てるんだけど。AMDはちょっと面倒だった記憶が。NVIDIAはそこまで使い込んでないので不明(GT1030で何かをしようという気にはならなかったので)。

2023-10-07 18:06:44 @uaa@social.mikutter.hachune.net
icon

ん-む…
nwc-toolkit-ngram-mergerを通した方が「何か」の欠損はない
grepを通すと《何か》が欠損する

手順が確立できないぬぅ…

2023-10-07 18:01:45 @uaa@social.mikutter.hachune.net
icon

お酒足りませんね?と言いたいところですがこれ以上飲むと多分落ちます(落ちてる方が世界にとっては良いのかもしれませんけどw)

2023-10-07 17:59:06 @uaa@social.mikutter.hachune.net
icon

※酔ってます

2023-10-07 17:58:56 @uaa@social.mikutter.hachune.net
icon

(あの時代にCyrixだのTseng Labsだのを使っていた身なのでね、性能が高ければ絶対正しいという思想は相容れないのですよ…)

2023-10-07 17:57:18 @uaa@social.mikutter.hachune.net
icon

まあゲハ厨はゲーム機でも大人しく買ってりゃいいんじゃないんですかね?あくまでも自分はPC自作派の目線なので、パフォーマンスが多少アレでも選択肢が増えることを善と考えていますから。

2023-10-07 17:55:58 @uaa@social.mikutter.hachune.net
icon

てーかさー、Arc程度で呪物扱いとか言ってるようじゃ、Socket5~7の時代のマイナーメーカーなVGAチップ(当時はGPUなんて呼称は無かったので)はどれも呪物扱いになっちゃうんだけど。RenditionとかSiSとか、PowerVRですら呪物だよ?

2023-10-07 17:51:35 @uaa@social.mikutter.hachune.net
icon

Pentium4の時代からHyper-Threadingは存在しているけど、あの時代にそこまでセキュリティについて考えていたかというと多分考えてなかったと思う。PCは一人に一台という前提であり、仮想化で複数のインスタンスをまとめるなんてことは想定してなかったんじゃ…

2023-10-07 17:49:45 @uaa@social.mikutter.hachune.net
icon

Arcってそんなに特級呪物とかdisられる出来なんすかね?(なんて書こうものなら信者扱い…これだからゲハ厨は)

2023-10-07 17:33:43 @uaa@social.mikutter.hachune.net
icon

Raptor Lake GPUもFP64は通っていたような気がする(のにArcは通らない…)

2023-10-07 16:08:59 @uaa@social.mikutter.hachune.net
icon

GUIを実現するtoolkitとかライブラリ(およびそれをアプリ作成者がきちんと扱えるか)の問題なので、Delphi自体の問題ではないって気はするけど…

2023-10-07 16:06:19 @uaa@social.mikutter.hachune.net
icon

某アプリ(詳細は伏せる)、Windows上のアプリの割にWindowsの作法に従っていない箇所が結構あって…マウスのホイールを回してもカーソルが上下するだけで項目がスクロールしないとか、ダブルクリックで決定するのが適当な箇所に対してシングルクリックで決定してしまうとか、shift+↓で範囲選択する場合は文末に改行が入っていないと文末まで選択できないとか…とにかく操作していると段々ストレスが溜まっていく代物だったんですよ💢

で、一体何の開発環境で作られたんだろうと思って調べてみたらどうもDelphiっぽいなって。でも、いくらなんでもDelphiだからってそんな阿呆な作りにはならないと思いたいんだけどねえ。

2023-10-07 15:42:51 @uaa@social.mikutter.hachune.net
icon

(かつてボーランドが出していた)Delphi使った有名どころのアプリって何があるんだろう

2023-10-07 07:36:55 @uaa@social.mikutter.hachune.net
icon

git push -fはたまに使ってます(ごめんなさいごめんなさい)

2023-10-07 07:36:35 @uaa@social.mikutter.hachune.net
2023-10-06 23:46:26 naskya :opensource:の投稿 dev@post.naskya.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-07 07:36:20 @uaa@social.mikutter.hachune.net
icon

当時の画像が残っている(そしてそれが今でも伝わっている)とは…ただただ驚くばかり。

2023-10-07 07:35:46 @uaa@social.mikutter.hachune.net
2023-10-07 01:58:33 tenjuu99(天重誠二)の投稿 tenjuu99@pleroma.tenjuu.net
icon
Web site image
%E3%83%9E%E3%83%83%E3%82%AF%E3%82%B9%E3%83%BB%E3%83%98%E3%83%83%E3%83%89%E3%83%AB%E3%83%BC%E3%83%A0%E4%BA%8B%E4%BB%B6
2023-10-07 06:56:58 @uaa@social.mikutter.hachune.net
icon

ネオン管広告が廃れていく時代だからこそ、敢えてネオン管で(ネオン管風ではなく、ホンモノのネオン管を使って)広告を出すのが一番ヤバい気がする。

2023-10-07 06:49:09 @uaa@social.mikutter.hachune.net
icon

やっぱ特許っぽいな。10年くらい前だから…特許が切れた後はどうなるんだろう。他社もこういうLEDをケチる方向へ進むのか、逆にケチケチ路線は滅んでいくのか。 avix.co.jp/company/patent/

icon

個人的な好みを書いちゃうけど(あくまでも個人的な好みの話ね)、ああいうLEDをケチった電光掲示板(表示器)って嫌い。表示内容をスクロールさせることで必要とするLEDの数と消費電力を減らし、安価に提供できることは評価するけど、でもそれだけ。単に文字情報を流すだけの用途で使うならともかく、看板(お客さんを呼ぶ用途)で使うものじゃないと思う。

2023-10-07 06:37:48 @uaa@social.mikutter.hachune.net
icon

店舗用LED看板、電光掲示板を14日間無料お試し!(2017/06/21) kai-gyou.com/dps150/ youtube.com/watch?v=1bhLk_bDZ3 から、AVIX DPS-150 avix.co.jp/digitalsignage/lbb/ って…さっきのPole Visionと同じメーカーじゃん。LEDケチるのってこの会社の特許か何かなのかなあ。

Web site image
店舗用LED看板、電光掲示板を14日間無料お試し!
Attach YouTube
2023-10-07 06:34:07 @uaa@social.mikutter.hachune.net
icon

Pole Visionって製品があるのか。 avix.co.jp/digitalsignage/ledv
「ポールビジョンは、LED(発光ダイオード)の光を移動させることにより、実際に光っていない部分も光っているような錯覚を与える、目の残像を利用した画期的な設計です。この技術により、LED数を既存表示機の約1/7にするなどコストパフォーマンスを実現しました。」
2m×8mで24本の表示ユニット…ジャパンニューアルファで使ってたのはこれなのかなあ。

2023-10-07 06:26:49 @uaa@social.mikutter.hachune.net
icon

こういうケチな(LED数を省いた)電光掲示板って、なんか総称あるのかなあ。名前が無いと不便だし検索しようもない。

2023-10-07 06:25:33 @uaa@social.mikutter.hachune.net
icon

そういえば、かつてのジャパンニューアルファ(相模原)みたいに、LED数をケチった電光掲示板って最近どの程度あるんでしょうかね?こんな感じに全面LEDじゃなく棒状のがいくつか並んでるタイプの奴(なので表示内容はスクロールする文字に限られる)

google.com/maps/@35.5756566,13

2023-10-07 06:24:14 @uaa@social.mikutter.hachune.net
icon

DSA2020 久光製薬 渋谷スクランブル交差点前LED看板
digital-signage.jp/openevent/a

Web site image
DSA2020 久光製薬 渋谷スクランブル交差点前LED看板 | デジタルサイネージコンソーシアム
2023-10-07 06:18:46 @uaa@social.mikutter.hachune.net
2023-10-07 00:31:37 令和抑留の投稿 hadsn@mstdn.nere9.help
icon

のハチ公口を出てすぐ、スクランブル交差点から見える 広告を見ての会話
???「デジカメ全盛の時代にフィルムカメラ使ってるようなヤバさがあるよね」
ぼく「いや、LEDなのに延々ネオン管風の広告出してるとかデジタルバック使ってる並の近付いちゃいけなさがあるでしょ」

2023-10-07 06:16:12 @uaa@social.mikutter.hachune.net
2023-10-07 00:59:20 桝田道也@近世大名は城下を迷路化なんてしなかったの投稿 mitimasu@mstdn.maud.io
icon

フランス人はクロワッサンに保守的でイタリア人はスパゲティに保守的で、アメリカ人はハンバーガーの具の順番に保守的。
ある国民がもっとも保守的になる料理こそ、その国民のアイデンティティ料理である、という仮説を立てた。
この仮説に基づいて日本人のアイデンティティ料理は何かと考えてみたら、寿司ではなさそう。
日本人はわりとアレンジ寿司に寛容だから。
白ごはんに対してはけっこう保守的に思える。
でも、一番保守的なのは、私の主観だけど、サシミじゃないかと思う。
九州の甘い醤油のサシミさえ許さない人は許さないから。
トロにマヨネーズも結局、市民権を得ていない。

2023-10-07 05:47:50 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -e txt -n 3 24576 -bs ja.mecab.txt.gz
nwc-toolkit/build/nwc-toolkit-ngram-counter: invalid option -- 'e'
nwc-toolkit/build/nwc-toolkit-ngram-counter:/home/uaa/nwc-toolkit/tools/nwc-toolkit-ngram-counter.cc:152: invalid option

real 0m0.006s
user 0m0.006s
sys 0m0.001s
uaa@emeraude:~$

2023-10-07 05:47:23 @uaa@social.mikutter.hachune.net
icon

nwc-toolkit-ngram-counter、バグみっけ。getopt_long()の引数がこれなので"-e"オプションが使用不可…出力結果はどう頑張っても.gz圧縮から変更できない(ドキュメントでは他形式の圧縮 or 圧縮offができることになってる)。 github.com/xen/nwc-toolkit/blo

2023-10-06 07:54:13 @uaa@social.mikutter.hachune.net
icon

続きは後で。

2023-10-06 07:54:05 @uaa@social.mikutter.hachune.net
icon

grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches

これは…検索キーワードと検索対象の問題なのかなあ。これ以外の検索では出てきてないし(ちょっと気持ち悪いとは思ってる)。

2023-10-06 07:52:23 @uaa@social.mikutter.hachune.net
icon

ん-む…nwc-toolkit-ngram-mergerを通す必要はありそうなんだけど、その結果がきちんとマージされていない感じなんだよな。

2023-10-06 07:47:48 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いけい/畏敬 の/の きもち/気持ち"
いけい/畏敬 の/の きもち/気持ち 21
いけい/畏敬 の/の きもち/気持ち 13
いけい/畏敬 の/の きもち/気持ち 25
uaa@emeraude:~/cc100-libkkc$

2023-10-06 07:47:42 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いけい/畏敬 の/の きもち/気持ち";done
ngms-temp.0000.gz
いけい/畏敬 の/の きもち/気持ち 13
ngms-temp.0001.gz
いけい/畏敬 の/の きもち/気持ち 11
ngms-temp.0002.gz
いけい/畏敬 の/の きもち/気持ち 17
ngms-temp.0003.gz
いけい/畏敬 の/の きもち/気持ち 10
ngms-temp.0004.gz
いけい/畏敬 の/の きもち/気持ち 8
uaa@emeraude:~/cc100-libkkc$

2023-10-06 07:33:23 @uaa@social.mikutter.hachune.net
icon

データクリーニング用に考えてたコードの警告はduplicate key detected (いたっ/至っ た/た はなし/話)までで止まってる…「ん」とかで始まるキーが無いのが謎。

2023-10-06 07:30:28 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "あくじ/悪事 を/を はたらき/働き"
あくじ/悪事 を/を はたらき/働き 111
あくじ/悪事 を/を はたらき/働き 112
uaa@emeraude:~/cc100-libkkc$

これはちゃんと総和になってる

2023-10-06 07:30:15 @uaa@social.mikutter.hachune.net
icon

aa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "あくじ/悪事 を/を はたらき/働き";done
ngms-temp.0000.gz
あくじ/悪事 を/を はたらき/働き 46
ngms-temp.0001.gz
あくじ/悪事 を/を はたらき/働き 64
ngms-temp.0002.gz
あくじ/悪事 を/を はたらき/働き 44
ngms-temp.0003.gz
あくじ/悪事 を/を はたらき/働き 48
ngms-temp.0004.gz
あくじ/悪事 を/を はたらき/働き 21
uaa@emeraude:~/cc100-libkkc$

2023-10-06 07:22:13 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "<S> いあい/居合 ぎり/切り";done
ngms-temp.0000.gz
<S> いあい/居合 ぎり/切り 3
ngms-temp.0001.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0002.gz
<S> いあい/居合 ぎり/切り 1
ngms-temp.0003.gz
ngms-temp.0004.gz
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

これは合ってるな。

2023-10-06 07:20:51 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "<S> いあい/居合 ぎり/切り"
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 3
<S> いあい/居合 ぎり/切り 1
<S> いあい/居合 ぎり/切り 1
uaa@emeraude:~/cc100-libkkc$

2023-10-06 07:14:54 @uaa@social.mikutter.hachune.net
icon

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 36 34 0a

e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3
20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3
81 97 2f e8 a9 b1 09 31 39 0a

同じだな…んでもって、最初のエントリが正しい。

2023-10-06 07:05:08 @uaa@social.mikutter.hachune.net
icon

00000040 81 9f 20 e3 81 af e3 81 aa e3 81 97 2f e8 a9 b1 |.. ........./...|
00000050 e3 81 97 09 31 0a e3 81 84 e3 81 9f e3 81 a3 2f |....1........../|
00000060 e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 81 9f 20 e3 |...... .../... .|
00000070 81 af e3 81 aa e3 81 97 2f e8 a9 b1 09 31 39 0a |......../....19.|
00000080
uaa@emeraude:~/cc100-libkkc$

2023-10-06 07:05:03 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話" |hexdump -C
00000000 e3 81 84 e3 81 9f e3 81 a3 2f e8 87 b3 e3 81 a3 |........./......|
00000010 20 e3 81 9f 2f e3 81 9f 20 e3 81 af e3 81 aa e3 | .../... .......|
00000020 81 97 2f e8 a9 b1 09 36 34 0a e3 81 84 e3 81 9f |../....64.......|
00000030 e3 81 a3 2f e8 87 b3 e3 81 a3 20 e3 81 9f 2f e3 |.../...... .../.|

2023-10-06 07:00:23 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ zcat ngms.gz |grep "いたっ/至っ た/た はなし/話"
いたっ/至っ た/た はなし/話 64
いたっ/至っ た/た はなし/話し 1
いたっ/至っ た/た はなし/話 19
uaa@emeraude:~/cc100-libkkc$

二番目はともかく三番目のエントリは?(一番目のエントリは個別の合計になってるみたいだけど)

2023-10-06 06:59:12 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/cc100-libkkc$ for i in ngms-temp.000*;do echo $i;zcat $i | grep "いたっ/至っ た/た はなし/話";done
ngms-temp.0000.gz
grep: (標準入力): binary file matches
ngms-temp.0001.gz
いたっ/至っ た/た はなし/話 20
ngms-temp.0002.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0003.gz
いたっ/至っ た/た はなし/話 17
ngms-temp.0004.gz
いたっ/至っ た/た はなし/話 10
uaa@emeraude:~/cc100-libkkc$

何故バイナリが吐き出されるのかが、一つ目の謎。

2023-10-05 17:00:15 @uaa@social.mikutter.hachune.net
icon

Matecam-X7/X9のどっちなんだろう。aliexpress.com/item/1005005528

Web site image
77.59US $ |Matecam X9 Mini Camcorders | Wireless Mini Camera Wifi | Camera Module Matecam - X7 X9 - Aliexpress
2023-10-05 16:03:56 @uaa@social.mikutter.hachune.net
icon

うーん、ngram-counter、ソート無しでも分割が掛かってしまうな。ふむ。

2023-10-05 15:59:29 @uaa@social.mikutter.hachune.net
icon

ヘンな事件を起こす輩のおかげで、SBCやWiFi/カメラモジュールの入手に制約を掛けたがる馬鹿共(と敢えて書く)が活発化しないことを願いたいもんだ。

2023-10-05 15:58:20 @uaa@social.mikutter.hachune.net
icon

ESP32-CAMなんてあるみたいだし、M5Stackに適当なカメラ付けてというのもあり得ない話ではない気がする。 aliexpress.com/item/1005005938

Web site image
4.49US $ |ESP32 CAM WiFi + Bluetooth Camera Module Development Board ESP32 With Camera Module OV2640| | - AliExpress
2023-10-05 14:53:47 @uaa@social.mikutter.hachune.net
icon

なるほど…これが「メモリ32GBでも足りない事態」って奴か…どうしろと(増やそうにもお金が)。

2023-10-05 14:52:47 @uaa@social.mikutter.hachune.net
icon

自分はChatGPTとかStableDiffusionとか使ったことがないので悔い改めないといけないなあ。異教徒とか、非国民とか、そういう扱いなんだろうなあきっと。

2023-10-05 14:51:42 @uaa@social.mikutter.hachune.net
2023-10-05 14:51:29 コロコロコロ助の投稿 naota344@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-05 14:47:09 @uaa@social.mikutter.hachune.net
icon

nwc-toolkit-ngram-counter、ソート無しで、できれば分割無しで生成するケース/分割して生成するケースで結果を見比べてみるか…?

2023-10-05 14:36:25 @uaa@social.mikutter.hachune.net
icon

nwc-toolkitのnwc-toolkit-ngram-mergerってちゃんとマージできてるのかなあ…なんか挙動が???というところがあって。

自分でマージしちゃう方が実は確実だったりするのかなあ。

2023-10-05 14:35:23 @uaa@social.mikutter.hachune.net
icon

分割されているコーパスをnwc-toolkit-ngram-merger ngms-*.gz -o ngms-out.gzで統合するのに40分。zcat ngms-out.gz | awk '$4 {print $0}' > 3gm(単純化しました)で3-gramを取り出して、 02-Oct-2023と同様にN-gram(3-gram)の異なり数を出してみます。未知語の扱いをどうするか考える必要があるので、未知語有り/無しの両方で調べてみます。

ボツ原稿です(多分今日の日記は存在しない)。

2023-10-05 14:34:52 @uaa@social.mikutter.hachune.net
icon

形態素解析後は、nwc-toolkit-ngram-counter -n 3 -l 24576 -bs ja.mecab-neologd.txt.gzでコーパスを作ります。01-Oct-2023と異なり、sオプションでnwc-toolkit-ngram-counterにソートを行わせます(ディスクの空きが厳しいので無圧縮は試しません)。今回はソートも行ったせいか出力されるファイルは複数になり、ファイルサイズの合計は8.5GB。実行終了時のステータスはsentences: 592537732, tokens: 14308722796 (x24.15) (13259sec)で、作業にかかった時間は4時間。

2023-10-05 14:34:31 @uaa@social.mikutter.hachune.net
icon

Unicode正規化→一文ごとに切り出し→読み仮名付きで形態素解析→libkkc用にフォーマットを変更→圧縮保存を、nwc-toolkit-unicode-normalizer ja.txt.xz | nwc-toolkit-text-filter | mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd | convert_yomi | gzip -c > ja.mecab-neologd.txt.gzで行います。mecabの-dオプションにあるようにNEologd辞書を使用し(-aオプションで全部入りの辞書を使っています)、スペース(' ')を含む単語への対策として単語の区切りはタブ(\t)を用い、変換候補にできない単語は削除せず未知語(<UNK>)としました。作業完了には6時間を要し、ja.mecab-neologd.txt.gzは44GBになりました。

2023-10-05 14:34:21 @uaa@social.mikutter.hachune.net
icon

今日の日記(ボツ)
wc2010-libkkcは既に形態素解析が済みコーパス化されたデータに読み仮名を無理矢理付けて辞書化していますが、形態素解析の時点で読み仮名を付けることができる以上、オリジナル(libkkc-data)の辞書はこの方法で作っているのではないか…と前々から気になっていたので、試してみることにしました。

という訳で、手順をメモしながら辞書を作っていきます。今回作ったツールはconvert_yomiだけです。ソースはこちら。

2023-10-05 07:58:54 @uaa@social.mikutter.hachune.net
icon

ポイントは現金として取り返せない(お金を預けてるようなもんだ)から確かにポイント還元されても実際に安いかというとなんか違う気がする。別の物買えばお得なんだろうけど、「今そこで」別の物買うかどうかなんて分からないし、ポイントを預かっているお店が存続し続ける保証だって無いんだし…お店があってもポイント制度が消える/変わる(目減りする)可能性だってゼロじゃないよねえ?

2023-10-05 07:55:18 @uaa@social.mikutter.hachune.net
2023-10-05 07:50:02 hfpの投稿 hfp@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-05 07:31:57 @uaa@social.mikutter.hachune.net
icon

うへぇ、こりゃあports unlockしても慌ててupdateする訳にはいかないじゃないか…

2023-10-05 07:22:55 @uaa@social.mikutter.hachune.net
2023-10-05 01:39:27 Izumi Tsutsuiの投稿 tsutsuii@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-05 05:14:33 @uaa@social.mikutter.hachune.net
icon

6時間で終わってた。ファイルサイズは44GB(ja.txt.xzの3倍)。

2023-10-04 21:55:00 @uaa@social.mikutter.hachune.net
icon

mecab+neologd辞書で形態素解析+各要素にlibkkc仕様のよみがなを振って(変換対象にできないものは<UNK>化する)、これをコーパス化→辞書作成というのを試そうとしている。

今まで試していた形態素解析済・3-gram化した物に後付けで読みを付けるのは緊急的な手段であり、本来であれば形態素解析時に読みを付ける方が適切なんじゃない?って前々から思っていたので。

2023-10-04 21:19:16 @uaa@social.mikutter.hachune.net
icon

mecab辞書の特性なのかは分からないけど、カンマ区切りCSV使っているからか…単語に半角スペースが入るケースがあるみたい。なので、トークンの区切りに半角スペースを使うのではなく、タブかカンマで区切るのが良さそう(タブ使ってみた)。

2023-10-04 21:06:18 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~$ nwc-toolkit/build/nwc-toolkit-unicode-normalizer ja.txt.xz |nwc-toolkit/build/nwc-toolkit-text-filter |mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd |cc100-libkkc/src/convert_yomi |gzip -c > ja.mecab-neologd.txt.gz
こんな感じで一日くらい回してみるか

2023-10-04 20:28:06 @uaa@social.mikutter.hachune.net
icon

[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd
で使えるのかな?

2023-10-04 20:25:10 @uaa@social.mikutter.hachune.net
icon

./bin/install-mecab-ipadic-neologd -n -a 全部入りにする

2023-10-04 07:01:22 @uaa@social.mikutter.hachune.net
icon

逆順にして

mecab --node-format="%m %f[7] " --unk-format="<UNK> <UNK> " --eos-format="\n"

「語」「読み」順にするか…「語」に問題があれば「読み」の変換は不要だし。出力時に「読み/語」にしちゃえば良いんだから。

2023-10-04 06:51:38 @uaa@social.mikutter.hachune.net
icon

mecab --node-format="%f[7] %m " --unk-format="<UNK> <UNK> " --eos-format="\n"

の方が良いかなあ。トークンは2個単位で「読み」「語」の順。

2023-10-03 21:46:21 @uaa@social.mikutter.hachune.net
icon

流石に酔った頭ではコード書けないけど。

2023-10-03 21:45:26 @uaa@social.mikutter.hachune.net
icon

後付けの読み仮名も良いんだけど、形態素解析側で読み振ってくれて辞書も変えられるならそっちで処理してもらう方が良いよねえ。

2023-10-03 21:44:44 @uaa@social.mikutter.hachune.net
icon

mecab側の知らない単語は<unk>で出すとして、その後の読み仮名修正/候補として適切かチェック(基本的にかな/カナ/漢字を対象としそれ以外の文字…記号英数他は非対象とする)の際に不適切な物は<unk>で刎ねるようにするとかそんなフィルタを書けば良いのかな。

2023-10-03 21:39:49 @uaa@social.mikutter.hachune.net
icon

くっそくっそ…Fonts66のセール乗り遅れた…次こそは… uzurea.net/fonts66-completepac 日本語フォント109書体入りで2,980円(98%OFF) 『Fonts66』2023年9月28日までのセール デザイナー鈴木竹治が手掛ける (2023/9/16)

Web site image
日本語フォント109書体入りで2,980円(98%OFF) 『Fonts66』2023年9月28日までのセール デザイナー鈴木竹治が手掛ける
2023-10-03 21:27:17 @uaa@social.mikutter.hachune.net
icon

やっぱ<unk>の扱いをどうするかは頭が痛いな。<unk>の絡んだものはとりあえず<unk>突っ込んだまま流すか、全て切るか…単語レベルなら変換しようもないので切るんだけど、2-gram, 3-gramの場合は連なりとして考えないといけないから切ることが正しいのか不明(libkkc側が<unk>をどう扱うかって問題もある…<s></s>と同様っぽいけど)

2023-10-03 21:22:24 @uaa@social.mikutter.hachune.net
icon

ヴはそのままに、それ以外をカタカナ→ひらがな変換したところでソートの結果の関係は崩れない。これは押さえておく必要がある…?

2023-10-03 21:05:54 @uaa@social.mikutter.hachune.net
icon

やらない後悔よりやる後悔

という訳で、飲まない後悔より飲む後悔(飲みますってことでw)

2023-10-03 20:15:23 @uaa@social.mikutter.hachune.net
icon

やっぱmecab-ipadic-NEologdは必須だよなあ。というかipadic+NEologdの内容を言語資源を介してdata.arpaへ転写し、libkkcの辞書にしてるだけということで、形態素解析辞書(もしくは読み仮名を別途付与する場合はそのツールの辞書)の性能に依存するってのは…まあ分かり切ってる話ではあるんだけど。

2023-10-03 20:05:41 @uaa@social.mikutter.hachune.net
icon

mecab --node-format="%f[7]/%m " --unk-format="<UNK> " --eos-format="\n"
これで「ヨミ/読み カナ/仮名」形式な形態素解析結果は出るけど…それでも結果のクリーニングは必要だしそもそもlibkkcの必要とする「読み仮名は平仮名であるべし(ただしヴは除く)」をどうにかしないといけないんだよなあ。

2023-10-02 07:25:14 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~/nwc2010-libkkc$ head -n 5 data.arpa.{cc,nwc}*
==> data.arpa.cc.100 <==

\data\
ngram 1= 63525
ngram 2= 1175059
ngram 3= 6044823

==> data.arpa.cc.75 <==

\data\
ngram 1= 70444
ngram 2= 1419241
ngram 3= 7942800

==> data.arpa.nwc.750 <==

\data\
ngram 1= 80280
ngram 2= 1263366
ngram 3= 5042232
uaa@emeraude:~/nwc2010-libkkc$

CC100-ja、組み合わせの数(2-gram/3-gram)が多い割に語彙数(1-gram)が少ない感じ。こういう方向性が、取ってきた資源で出てくる「色」とか「味」とかそういう部分になるのかねえ。

2023-10-02 07:20:32 @uaa@social.mikutter.hachune.net
icon

CC100-ja/頻度75辞書を作ってみたけど、中二病ならぬ点2病は治ってないねえ…メモリ消費量も多めだし。頻度100辞書に戻すかどうかが悩ましい。

2023-10-02 06:46:29 @uaa@social.mikutter.hachune.net
icon

やっぱ「てんに/点2」なんてのは見つからないんだが…うーむ…?

2023-10-01 22:03:59 @uaa@social.mikutter.hachune.net
icon

あれー?数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。

2023-10-01 22:02:55 @uaa@social.mikutter.hachune.net
icon

自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。

(ここで「てんに」が「点2」しか変換できずむきーっとなっている)

2023-10-01 22:01:52 @uaa@social.mikutter.hachune.net
icon

(下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある)

2023-10-01 22:01:24 @uaa@social.mikutter.hachune.net
icon

悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。

2023-10-01 21:58:02 @uaa@social.mikutter.hachune.net
icon

ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。

2023-10-01 20:29:47 @uaa@social.mikutter.hachune.net
icon

@redbrick どうもツール側で圧縮して書きだすのでそのせいという気がします。無圧縮で出力する手段がありそうなので次はそれを試してみることにします(デフォルトだとgzipで固めるようです)。

2023-10-01 20:27:32 @uaa@social.mikutter.hachune.net
icon

今月のどっかで7.4来るんだよな…?

2023-10-01 20:26:50 @uaa@social.mikutter.hachune.net
2023-10-01 20:16:09 Solene % botの投稿 solenepercent@bsd.network
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-01 20:22:10 @uaa@social.mikutter.hachune.net
icon

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 -b ja.mecab.txt
input: ja.mecab.txt
sentences: 592537732, tokens: 14982701916 (x25.29) (8774sec)
output: ngms-20231001-171914.0000.gz

real 182m11.671s
user 178m31.048s
sys 0m41.345s
uaa@emeraude:~$

文書の処理がその秒数でも、ファイルの書き出しが遅い…

2023-10-01 20:19:49 @uaa@social.mikutter.hachune.net
icon

(見積もりを出すにも結局コード書かないと分からんってケースは結構ある…というのはあんまり安全じゃない考えなのかもだけど、実際そういうのは多かったからなあ。ヘンなところで足をすくわれる可能性っていうのが結構あるから基本的にはちょい多めに時間とらないと後で死ぬケースが多かったような…??)

2023-10-01 20:11:09 @uaa@social.mikutter.hachune.net
icon

@reasonset アドバイス感謝です!

2023-10-01 20:09:44 @uaa@social.mikutter.hachune.net
icon

@reasonset くっ、もっと早くに知っておけば…!

2023-10-01 20:08:22 @uaa@social.mikutter.hachune.net
icon

@reasonset 自分も一人暮らししてた時期は鍋とやかんは持ってました…

2023-10-01 19:23:26 @uaa@social.mikutter.hachune.net
icon

(過去の発言を読み直して、「…え。」ってなってる)

2023-10-01 19:22:42 @uaa@social.mikutter.hachune.net
icon

(やかんが無くても鍋で湯は沸かせる…)

2023-10-01 19:22:07 @uaa@social.mikutter.hachune.net
icon

…やかん or ちょっとした小鍋?

2023-10-01 19:20:59 @uaa@social.mikutter.hachune.net
icon

n-gram作成、どこまで時間かかるかなーと思ったけど前回8100secって数字が出てるからまあそのくらいはかかるか…メモ残しといてよかった。

2023-10-01 19:18:41 @uaa@social.mikutter.hachune.net
icon

(見つかるとジト目で怒られます…)

2023-10-01 19:18:09 @uaa@social.mikutter.hachune.net
icon

朝の4時くらいにむくりと起き出して、家族の目を逃れながらこっそり食べるカップラーメンが…見つかるかもしれないというスリルがちょっと楽しくて。

2023-10-01 19:15:47 @uaa@social.mikutter.hachune.net
icon

賞味期限間近のカップ麺って妙に膨らんでいたりするんですが、それって保存状態が悪かったが故にそうなるんでしょうか…

2023-10-01 19:15:22 @uaa@social.mikutter.hachune.net
2023-10-01 19:12:45 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

カップ麺の賞味期限は過ぎても保存状態がよければ問題なさそうな気がするけれどどうなんだろう

2023-10-01 19:08:37 @uaa@social.mikutter.hachune.net
icon

形態素解析が終わってn-gram作成をやってるけど、なんか1.5時間経過しても終わらないですね…一応どれだけの数を処理したかという表示はあるけど、どこまで処理したかは謎。そのうち終わるとは思うのですが。

2023-10-01 17:22:31 @uaa@social.mikutter.hachune.net
icon

やっぱ分かち書き(品詞情報なし)+xz圧縮無ければ形態素解析に4.5時間で済む…

2023-10-01 14:28:29 @uaa@social.mikutter.hachune.net
icon

機会があったらまたガラスレンズは使ってみたいんだけど…なかなか難しいよな、って。

2023-10-01 14:27:56 @uaa@social.mikutter.hachune.net
icon

ガラス調光レンズは使ってたことあるけど、クリアに見えるけど重いです。あと、割れる(割りました)。

2023-10-01 12:35:48 @uaa@social.mikutter.hachune.net
icon

…ジョブ止めよう。この方法では次へ進めない。

2023-10-01 11:36:06 @uaa@social.mikutter.hachune.net
icon

20時間経過しても終わんない…(ハングアップはしていない)

2023-10-01 10:01:18 @uaa@social.mikutter.hachune.net
icon

ここにも時空の狭間があったか…12月32日もしくは1月0日と同様な。

2023-10-01 10:00:49 @uaa@social.mikutter.hachune.net
2023-10-01 09:59:53 炎上妖精焼風の投稿 ahiru@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-01 10:00:48 @uaa@social.mikutter.hachune.net
2023-10-01 09:59:32 炎上妖精焼風の投稿 ahiru@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-01 09:33:33 @uaa@social.mikutter.hachune.net
icon

FISCHERがオーストラリア、LF SYSTEMがスコットランド、ALOKがブラジルか…

2023-10-01 05:50:43 @uaa@social.mikutter.hachune.net
icon

三隣亡、だっけ…三りんぼう(みりんぼう)と読んでた時期があります…みりんの味のする棒?

2023-10-01 05:50:01 @uaa@social.mikutter.hachune.net
2023-10-01 01:39:12 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

2023-10-01 05:49:21 @uaa@social.mikutter.hachune.net
icon

ジョブ終わんなーい♪