21:50:31 @uaa@social.mikutter.hachune.net
2023-08-11 21:44:18 たかなしの投稿 g_fukurowl_zenyasai@zenyasai.g-fukurowl.club
icon

このアカウントは、notestockで公開設定になっていません。

21:15:41 @uaa@social.mikutter.hachune.net
icon

既にあるコードが何らかのアクセラレータの仕様を前提としていない以上、一旦GPU側のメモリにコピー→処理→CPU側のメモリへコピーという手順は不可避な気がする。んでもって、そのオーバーヘッドも多分あまり無視できないレベルかも。

21:05:06 @uaa@social.mikutter.hachune.net
icon

うーん、あまり細かいデータばかりだとGPUとの受け渡しにかかわるオーバーヘッドが大きくなるから速度向上は狙えないような気がする。GPUがメインメモリ上のデータを直接触れるんなら話は変わるんだろうけど(できるの?)。

21:03:48 @uaa@social.mikutter.hachune.net
icon

vec_tanh
N 16
N 384
N 512
N 128

21:03:14 @uaa@social.mikutter.hachune.net
icon

vec_sigmoid
N 32
N 768

21:02:34 @uaa@social.mikutter.hachune.net
icon

sparse_sgemv_accum16
rows 1152

21:02:09 @uaa@social.mikutter.hachune.net
icon

softmax
N 256

21:01:45 @uaa@social.mikutter.hachune.net
icon

sgemv_accum16
rows 48 cols 512 col_stride 48
rows 48 cols 16 col_stride 48
rows 512 cols 16 col_stride 512
rows 128 cols 306 col_stride 128
rows 128 cols 384 col_stride 128
rows 128 cols 128 col_stride 128
rows 1152 cols 128 col_stride 1152

14:42:22 @uaa@social.mikutter.hachune.net
icon

Arc A770、動き出しました。
しかしOpenCL版のdistributed.net clientは動きません。

Attach image
09:57:59 @uaa@social.mikutter.hachune.net
icon

ちゃんと動いている物があるなら、エラーをわざわざ起こしておかしな状況を作り上げる必要も無いっちゃ無いんだがな…

09:57:17 @uaa@social.mikutter.hachune.net
icon

clCreateBuffer()で-6(CL_OUT_OF_HOST_MEMORY)が発生し戻り値がNULLになってる。その領域に対し何かをしようとしてN/Aになってるがこの時にどういうエラーが出てるか、かなあ。そしてひたすらNULLに対して書き込みを試みた場合に何が起こるか、も要確認か。

09:12:16 @uaa@social.mikutter.hachune.net
icon

そういえばUHD730でbwocl実行した場合、clEnqueueCopyBufferに失敗して測定結果がN/Aになるケースがありましたね…もしかして失敗するケースが重なるとおかしくなるというパターンなんでしょうか(今のところ問題なく動いちゃってますねえ)

07:18:05 @uaa@social.mikutter.hachune.net
icon

uaa@DESKTOP-251U0UF:~$ ./cltest 0 0
Fri Aug 11 06:50:44 2023 6460102770

とりあえずテスト開始のメモ

06:42:46 @uaa@social.mikutter.hachune.net
icon

bwoclそのものじゃないけど、簡略化したコード書いてちょっと試してるところ。タイムスタンプも表示させるようにして、何時間回すと落ちるかも分かるようにしてみたけど…大体この手のテストって、テストコード変えちゃうと問題が起こらなくなるとかそういうのがあるんだよなあ。

04:41:46 @uaa@social.mikutter.hachune.net
icon

WSLg上の環境だけ落ちますねえ。テストプログラムをもう少し簡略化するなりして要点を掴んだものを作って、追いかけてみたいところですが…それやってるといつまで経ってもArcを載せられなくなってしまう。