21:11:41 21:12:30 @uaa@social.mikutter.hachune.net
icon

Nonchalant(Radio Edit)/Dack Sauce…Radio Editじゃないの( youtube.com/watch?v=xDbvqXmY-u )を聞くことが多いけど、Radio Editも良いっすね。

Attach YouTube
20:45:30 @uaa@social.mikutter.hachune.net
icon

@reasonset どうも自分の引いたblog記事が引用していた文献が古かったのでradeontopを紹介しちゃった感じですね…(確かに今はradeonドライバではなくamdgpuドライバなので)

Monitoring AMD, Intel and NVIDIA graphics card usage under Linux rk.edu.pl/en/monitoring-amd-in (12/May/2014)

Web site image
Monitoring AMD, Intel and NVIDIA graphics card usage under Linux
20:31:48 @uaa@social.mikutter.hachune.net
icon

リスキリングとかいうのって、リストラと同じく、首切りの言い換え語という理解をしている

20:31:00 @uaa@social.mikutter.hachune.net
2023-08-30 20:27:02 ふぇのまー(キタカミのすがた)の投稿 Phenomer@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

07:45:01 @uaa@social.mikutter.hachune.net
icon

おおおおおお

uaa@DESKTOP-251U0UF:~/LPCNet/build.opencl/src$ time cat ~/test.out | ./lpcnet_de
c -s > /dev/null
direct split VQ
dec: 3 pred: 0.00 num_stages: 4 mbest: 5 bits_per_frame: 52 frame: 30 ms bit_rate: 1733.33 bits/s
64 1 1 16 128 1152 160 160 160 160
ftest cols = 2002

real 44m18.963s
user 21m12.529s
sys 20m38.585s
uaa@DESKTOP-251U0UF:~/LPCNet/build.opencl/src$

07:30:33 @uaa@social.mikutter.hachune.net
icon

Windows上のタスクマネージャで見るにSVM化前→後を比較すると
Copy 21%→92%
Compute 9%→63%ということで、前よりはArcが仕事をしてくれるようにはなったんだと思う。とはいえCPU単体よりはるかにおっそいし、HD630よりも遅い結果になりそう(HD630ならもう終わっている時間)。LinuxでもCPUの仕事っぷりはtopで見られるとして、GPUに対する同様なツールを探してみる必要があるのかなあ…って良いもんあるじゃないですか
Linux で GPU 負荷を調べる dskjal.com/linux/check-gpu-loa

Linux で GPU 負荷を調べる
06:51:07 @uaa@social.mikutter.hachune.net
icon

あとはこれをArc上で動かせばいいのだけど…さて、何時間かかるのやら。

06:50:44 @uaa@social.mikutter.hachune.net
icon

最後に落ちる問題を解決+ちょっといじっても、変わらない(Linux/HD630)。

uaa@emeraude:~/LPCNet/build.opencl/src$ time cat ~/test.out | ./lpcnet_dec -s > /dev/null
direct split VQ
dec: 3 pred: 0.00 num_stages: 4 mbest: 5 bits_per_frame: 52 frame: 30 ms bit_rate: 1733.33 bits/s
64 1 1 16 128 1152 160 160 160 160
ftest cols = 2002

real 24m8.163s
user 12m36.059s
sys 12m26.866s
uaa@emeraude:~/LPCNet/build.opencl/src$

06:49:02 @uaa@social.mikutter.hachune.net
icon

CPUじゃないデバイスをいじって計算させるって面白いなということでしばらく遊んでみたけど…性能を出すには本当に難しい。CS学んでアルゴリズムとかデータ構造とかちゃんと分かってないと扱えないというのは言い過ぎかもしれないけど、なんかそんな気がする。

06:47:42 @uaa@social.mikutter.hachune.net
icon

多分SSE/AVX/NEONで書いたところだけOpenCLで書き直すというやり方じゃ全然だめで、もう少し大きい単位…ロジック丸ごとをOpenCL化するとかしないと速度出ないはず。データもCPU/GPUのどっちに寄せるかとかも考えないといけないし(極端な話入力と結果だけCPU、他全部GPUとかそうでもしないと)。あとは処理の粒度であまりにも細かいとやっぱりCPUの方が融通利くし速いとか、そういうのもありそう。でもどれくらいの大きさにしないと利点感じないのかなというのはある。RC5-72 crackingみたいに軽い(?)データでも計算数が多いのはGPU有利って話もあるし。

06:43:52 @uaa@social.mikutter.hachune.net
icon

OpenCL全っ然分からない…なにこの難しいの…使えば速くなるっていったじゃん(いってない)

06:42:30 @uaa@social.mikutter.hachune.net
icon

面倒だから分けたままにしちゃう

06:41:13 @uaa@social.mikutter.hachune.net
icon

ほんとに速度変わんない…24分かかってる(おい…)

06:40:47 @uaa@social.mikutter.hachune.net
icon

ん-む、重み付け用の定数を別のSVMにマップしてそっちはmap/unmap対象から外したけど速度への寄与はなさそうだな…面倒だから以前と同じくワークバッファと一絡げにしちまおうか