3-gramの出現頻度、自分でもそれを求めるコードを作って(意外と簡単にできるんですね…と驚いてる)、nwc-toolkitの出力結果と比較してみよう。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
3-gramの出現頻度、自分でもそれを求めるコードを作って(意外と簡単にできるんですね…と驚いてる)、nwc-toolkitの出力結果と比較してみよう。
<S>追加の処理をしてるのはnwc-toolkit-ngram-counterだから、nwc-toolkit-ngram-mergerが何してるかを理解しないと何してるかが分からないことになる…C++よく分かんないんだけど…
自分が使うDMRホットスポットのために社団局立てるにしても、人とカネが要るのでやりたくないし(移動しない局としては持っているけど、今回の改正で「自コール間通信は不可」が明確化されちゃった以上封印してる)…ボッチで電波使った実験をできるのが「ワイヤレス人材」育成のために必要なことだと自分は思うのだけど、どうも総務省はそう考えていないみたいなんですよね。「通信の相手(ヒト)が居てこそのアマチュア無線」だそーで。
無線従事者ですらない者が技適警察を名乗って叩きに来るのも鬱陶しいんですが、アマチュア無線の場合アマチュア無線家が「それって電波法違反では?」と電波法警察になって叩きに来るので本当に頭が痛いです。自局間(自コール間)通信不可の件も、自分で自分の首を絞めた結果…いちいちそんなこと言わなければグレーゾーンのまま今でも可能だったかもしれないのに。
このアカウントは、notestockで公開設定になっていません。
やっぱ技適警察は滅ぼさないといけない気がする。アマチュア無線に対する脅威にもなりかねないし。
RPi5買ったことに対して技適警察が動いてる、と曲解して良いのかな。RPi5(話題のデバイス)を手にできなかったやっかみを、技適の名の下に断罪して持ち主を叩くみたいな。
Googleですらそういう状況なら、日本においてはもう*検閲済み*としか言いようがないな…明日に期待するだけ、無駄なのかも。
※相変わらずだーくもーど。
このアカウントは、notestockで公開設定になっていません。
このアカウントは、notestockで公開設定になっていません。
Linuxの(OpenBSDにこれは無い)splitって、--filterで分割したファイルに処理掛けられるのか。これだよこれ… https://linuxcommand.net/split/#_--filter
このアカウントは、notestockで公開設定になっていません。
wcで行数数えて、split -lで適当に切る手がありますね…(圧縮解くとディスクの空き容量が心配になるんだけど、余裕はなんとかありそうだし…)
このアカウントは、notestockで公開設定になっていません。
MeCabのC++ライブラリを使ってみた(C++11のマルチスレッドに触ってみた) (2013/2/6) https://sucrose.hatenablog.com/entry/2013/02/06/201930 「一応強調しておきますが、たぶん単純に形態素解析の速度を速くしたいならファイルを分割して別々のプロセスとしてMeCabに投げたほうが速いと思われます。」 えぇ…
入力ファイルがja.txt.xzと固まったまま(ディスク容量を考えると展開したくない)というブツなので、xzcat ja.txt.xz | mecab-mtみたいな形でぶち込んだ際にmecabより速いぜとかそういうのが欲しいんだってばあああああああ
MeCabの分かち書きを並列処理で高速化する (2021/7/18) https://zenn.dev/hpp/articles/255de192c6d4c3
入力した文と出力した文の順序が多少狂っても、どうせN-gram作るのでその程度の用途ならめちゃくちゃ速くなるぜーといった感じでマルチスレッド化したMeCabというのがすごく欲しいんだけど…やっぱparallelで切るしかないのかなあ?
@sleeping_coelacanth となると、あとは言語系でもサポートしてほしいところではありますね…(情報感謝)
他のツールに頼るならその部分は標準的な手法で、で線を引くしかないか。マージが必要だと言ってるならマージはする、自分のツールにマージする機能があってもそれは使わない。言い方が悪いけど、線引きをしないと自分が悪いのか相手が悪いのか分からなくなってしまう。
uaa@emeraude:~/cc100-libkkc$ grep "ぁ/ァ いる/イル" 3gm.ngms
<S> ぁ/ァ いる/イル 13
ぁ/ァ いる/イル しか/しか 1
ぁ/ァ いる/イル で/で 4
ぁ/ァ いる/イル です/です 8
ぁ/ァ いる/イル と/と 1
ぁ/ァ いる/イル に/に 12
ぁ/ァ いる/イル めい/名 1
uaa@emeraude:~/cc100-libkkc$ grep "ぁ/ァ いる/イル" 3gm.ngms-temp
<S> ぁ/ァ いる/イル 7
ぁ/ァ いる/イル で/で 1
ぁ/ァ いる/イル と/と 1
ぁ/ァ いる/イル に/に 5
ぁ/ァ いる/イル めい/名 1
uaa@emeraude:~/cc100-libkkc$
うーん、分割されたコーパスから単に3-gramだけ切り出すだけではダメで、ngram-mergerを通さないといけないなんらかの理由がありそう。
AI対応って言うなら、GPUだけでなくCPU側(FPU/SSE/AVX)辺りもbfloat16対応を入れないんですかねー?とは思っているんだけど流石にやらないんですかね…?
3-gramだけ純粋に拾ってくるか、(おそらく)1-gram, 2-gramに<S>付けて3-gram化したのを作ってくるかの違いという気が、なんとなくする。とはいえ、ngram-mergerにそんな機能があるようには見えないんだけど…?(ngram-counterがちゃんと3-gramを作るはずなのでは?って思う)
Socket7の時代のベンチマークって、本当にそのスコア出たんですかっていう疑惑がなんとなーくあるんですが、どうだったんですかね…?(ベンチマーク取ったのと完全に同じ機材ならそのスコア出るんですかね…?)
少なくともOpenCLを使う上では、Intel(iGPUもArcも)はそんなに面倒でなかったというのは好感が持てるんだけど。AMDはちょっと面倒だった記憶が。NVIDIAはそこまで使い込んでないので不明(GT1030で何かをしようという気にはならなかったので)。
ん-む…
nwc-toolkit-ngram-mergerを通した方が「何か」の欠損はない
grepを通すと《何か》が欠損する
手順が確立できないぬぅ…
お酒足りませんね?と言いたいところですがこれ以上飲むと多分落ちます(落ちてる方が世界にとっては良いのかもしれませんけどw)
(あの時代にCyrixだのTseng Labsだのを使っていた身なのでね、性能が高ければ絶対正しいという思想は相容れないのですよ…)
まあゲハ厨はゲーム機でも大人しく買ってりゃいいんじゃないんですかね?あくまでも自分はPC自作派の目線なので、パフォーマンスが多少アレでも選択肢が増えることを善と考えていますから。
てーかさー、Arc程度で呪物扱いとか言ってるようじゃ、Socket5~7の時代のマイナーメーカーなVGAチップ(当時はGPUなんて呼称は無かったので)はどれも呪物扱いになっちゃうんだけど。RenditionとかSiSとか、PowerVRですら呪物だよ?
Pentium4の時代からHyper-Threadingは存在しているけど、あの時代にそこまでセキュリティについて考えていたかというと多分考えてなかったと思う。PCは一人に一台という前提であり、仮想化で複数のインスタンスをまとめるなんてことは想定してなかったんじゃ…
Arcってそんなに特級呪物とかdisられる出来なんすかね?(なんて書こうものなら信者扱い…これだからゲハ厨は)
Raptor Lake GPUもFP64は通っていたような気がする(のにArcは通らない…)
GUIを実現するtoolkitとかライブラリ(およびそれをアプリ作成者がきちんと扱えるか)の問題なので、Delphi自体の問題ではないって気はするけど…
某アプリ(詳細は伏せる)、Windows上のアプリの割にWindowsの作法に従っていない箇所が結構あって…マウスのホイールを回してもカーソルが上下するだけで項目がスクロールしないとか、ダブルクリックで決定するのが適当な箇所に対してシングルクリックで決定してしまうとか、shift+↓で範囲選択する場合は文末に改行が入っていないと文末まで選択できないとか…とにかく操作していると段々ストレスが溜まっていく代物だったんですよ💢
で、一体何の開発環境で作られたんだろうと思って調べてみたらどうもDelphiっぽいなって。でも、いくらなんでもDelphiだからってそんな阿呆な作りにはならないと思いたいんだけどねえ。
(かつてボーランドが出していた)Delphi使った有名どころのアプリって何があるんだろう
このアカウントは、notestockで公開設定になっていません。
当時の画像が残っている(そしてそれが今でも伝わっている)とは…ただただ驚くばかり。
これすごいな。こんなん実際に見たらめっちゃこわい。
https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%83%E3%82%AF%E3%82%B9%E3%83%BB%E3%83%98%E3%83%83%E3%83%89%E3%83%AB%E3%83%BC%E3%83%A0%E4%BA%8B%E4%BB%B6
ネオン管広告が廃れていく時代だからこそ、敢えてネオン管で(ネオン管風ではなく、ホンモノのネオン管を使って)広告を出すのが一番ヤバい気がする。
やっぱ特許っぽいな。10年くらい前だから…特許が切れた後はどうなるんだろう。他社もこういうLEDをケチる方向へ進むのか、逆にケチケチ路線は滅んでいくのか。 https://avix.co.jp/company/patent/
個人的な好みを書いちゃうけど(あくまでも個人的な好みの話ね)、ああいうLEDをケチった電光掲示板(表示器)って嫌い。表示内容をスクロールさせることで必要とするLEDの数と消費電力を減らし、安価に提供できることは評価するけど、でもそれだけ。単に文字情報を流すだけの用途で使うならともかく、看板(お客さんを呼ぶ用途)で使うものじゃないと思う。
店舗用LED看板、電光掲示板を14日間無料お試し!(2017/06/21) https://kai-gyou.com/dps150/ https://www.youtube.com/watch?v=1bhLk_bDZ3Q から、AVIX DPS-150 https://avix.co.jp/digitalsignage/lbb/ って…さっきのPole Visionと同じメーカーじゃん。LEDケチるのってこの会社の特許か何かなのかなあ。
Pole Visionって製品があるのか。 https://avix.co.jp/digitalsignage/ledvision/polevision/
「ポールビジョンは、LED(発光ダイオード)の光を移動させることにより、実際に光っていない部分も光っているような錯覚を与える、目の残像を利用した画期的な設計です。この技術により、LED数を既存表示機の約1/7にするなどコストパフォーマンスを実現しました。」
2m×8mで24本の表示ユニット…ジャパンニューアルファで使ってたのはこれなのかなあ。
こういうケチな(LED数を省いた)電光掲示板って、なんか総称あるのかなあ。名前が無いと不便だし検索しようもない。
そういえば、かつてのジャパンニューアルファ(相模原)みたいに、LED数をケチった電光掲示板って最近どの程度あるんでしょうかね?こんな感じに全面LEDじゃなく棒状のがいくつか並んでるタイプの奴(なので表示内容はスクロールする文字に限られる)
DSA2020 久光製薬 渋谷スクランブル交差点前LED看板
https://digital-signage.jp/openevent/award/dsa2020-hisa410/
フランス人はクロワッサンに保守的でイタリア人はスパゲティに保守的で、アメリカ人はハンバーガーの具の順番に保守的。
ある国民がもっとも保守的になる料理こそ、その国民のアイデンティティ料理である、という仮説を立てた。
この仮説に基づいて日本人のアイデンティティ料理は何かと考えてみたら、寿司ではなさそう。
日本人はわりとアレンジ寿司に寛容だから。
白ごはんに対してはけっこう保守的に思える。
でも、一番保守的なのは、私の主観だけど、サシミじゃないかと思う。
九州の甘い醤油のサシミさえ許さない人は許さないから。
トロにマヨネーズも結局、市民権を得ていない。
uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -e txt -n 3 24576 -bs ja.mecab.txt.gz
nwc-toolkit/build/nwc-toolkit-ngram-counter: invalid option -- 'e'
nwc-toolkit/build/nwc-toolkit-ngram-counter:/home/uaa/nwc-toolkit/tools/nwc-toolkit-ngram-counter.cc:152: invalid option
real 0m0.006s
user 0m0.006s
sys 0m0.001s
uaa@emeraude:~$
nwc-toolkit-ngram-counter、バグみっけ。getopt_long()の引数がこれなので"-e"オプションが使用不可…出力結果はどう頑張っても.gz圧縮から変更できない(ドキュメントでは他形式の圧縮 or 圧縮offができることになってる)。 https://github.com/xen/nwc-toolkit/blob/master/tools/nwc-toolkit-ngram-counter.cc#L85