23:53:51
23:52:35

Qwen3.6-35B-A3B-UD-Q8_K_XL

cache_n: 0
prompt_n: 14
prompt_ms: 262.85
prompt_per_token_ms: 18.775000000000002
prompt_per_second: 53.262316910785614
predicted_n: 1704
predicted_ms: 119261.701
predicted_per_token_ms: 69.98926115023474
predicted_per_second: 14.287906223977135
input_tokens: 14
output_tokens: 1704
total_tokens: 1718

23:36:01

Qwen3.6-35B-A3B-UD-Q5_K_M

cache_n: 0
prompt_n: 14
prompt_ms: 228.782
prompt_per_token_ms: 16.34157142857143
prompt_per_second: 61.19362537262546
predicted_n: 1816
predicted_ms: 119116.155
predicted_per_token_ms: 65.59259636563877
predicted_per_second: 15.24562306431063
input_tokens: 14
output_tokens: 1816
total_tokens: 1830

23:01:00

センチュリーを調べていたらセンチュリーのネガキャン改造車がゴロゴロ出てきて、やはりカーとなるなどした

17:01:30

パスキーの利点って総当りに強いことくらいで、あとは別にパスワードマネージャーで代替できるし、パスキーは同期が面倒、ブラウザにロックインされる、環境がしこたまあると管理が大変だし、パスキーのサーバーが落ちると終わる単一障害点になるのも…。

KeePassXCならベンダーロックインを回避できるけど絶対運用だるいし…。毎回NASからpullしてpushだと、回線状況が死んでたりオフラインの時に死んでしまうからな…。

あとパスキーが標準になるとブラウザベンダがこのサービス気に食わないからパスキー使えないようにしたろ!とかが出来てしまうので、それは困る。悪意の有無ではなく金払ってるかどうかが判定ラインになったときにだるいよねーとか。そういうのは思う。

qiita.com/ktdatascience/items/

パスワードの時代が終わる理由 - パスキーの仕組みを図解でわかりやすく整理する - Qiita
15:50:30

てかこれまだメモリ余裕あるから高速化の余地ありそうよなぁ。いやむしろもっと上位のモデル行ける可能性

15:44:57

昨日の夜食べすぎたせいでまだ吐き気がひどい。今日絶食いけそう

15:44:10

@giraffe_beer デノミしよう!

15:43:31

遂に10万割ったかぁ〜〜〜???

>CFD W5U5600CS-32G [DDR5 PC5-44800 32GB 2枚組] 最安価格 ¥79,979

でもまだ高すんぎ!

s.kakaku.com/item/K0001529607/

LLMに限ればCPU推論でも全然いけそうなので安くなってほしいが、下がったら下がったで買い控え層の需要が爆発するだろうから、なかなか下がんないだろうな…。

今のマシン買うときに意味のないスペックアップをしておくべきだった。DDR5が出てからの高騰が終わってDDR5が底値付近になったときに買ったからな…

CFD W5U5600CS-32G [DDR5 PC5-44800 32GB 2枚組] 価格比較 - 価格.com
10:52:00

この前提が正しいなら政府はガソリンの補助金を辞めてナフサに流せば解決しそうだが、まぁやらんやろな。

仮に気づいてても見てみぬふりでしょう。道路族を敵に回せるはずがないので。

10:50:12

昨今のナフサ不足の話、記事の内容の前提が抜け放題でよくわからんけど、ガソリンとナフサの精製比率の話があることを踏まえると、政府は原油の総量から原油がこんだけあるのだからナフサはこんだけ作れるのでナフサは足りてると言うことを話してるんかしら?

更にナフサから作られる様々な物質についてもナフサがこんだけあるから足りるだろうという結論をつけてるのかしらね?

現実的にはナフサは儲からないのでガソリンが作られたり、ナフサが作られても有機溶剤には回らなかったりで必要量が確保されない、これのことを政府は目づまりと言っているのではないかという話らしい。

そんなの目づまりでもなんでないと思うのだが…。目づまりは既にあるものがどこかで詰まることではないのかね?これはナフサや有機溶剤を作っても儲からないから元から作ってなかったという話でしょ。要するに有機溶剤やナフサは輸入で回してたので、生産体制を作らない限り国内からはガソリンしか出てこないという話なのでは…?

かと言ってナフサの生産増やしたらガソリンが割を食うのだろうし、無理臭い気がしますな。ガソリンないと車使ってる人が生活できないし、溶剤どころの話ではなくなってしまうでしょ。

newsdig.tbs.co.jp/articles/-/2

現場の“ナフサ不足”なぜ? 全体量確保も業界により「必要な形」足りず…目詰まりのカラクリとは【サンデーモーニング】 | TBS NEWS DIG (1ページ)
07:22:40

放置してたら終わったわ。なんなんやろ…

07:21:53

llama.cpp
Qwen3.6-35B-A3B-UD-Q4_K_M

cache_n: 0
prompt_n: 14
prompt_ms: 203.404
prompt_per_token_ms: 14.528857142857143
prompt_per_second: 68.82853827849993
predicted_n: 1553
predicted_ms: 94147.172
predicted_per_token_ms: 60.622776561493886
predicted_per_second: 16.495450335990974
input_tokens: 14
output_tokens: 1553
total_tokens: 1567

相変わらず生成が終わってもCPU張り付きっぱなしやな…。OpenWebUIが怪しいエラーを吐いているので、ひょっとしたらキルシグナルが届いてないから続いているとかなのか?

でもllama.cpp上は一回終わってるように見えるが、まぁ連携が上手くいかないとこうなるのかしらね

05:17:01

結果。比較単位が異なるからどっちが破壊かわかりづらいがollamaのほうが遅いような気がした

input_tokens: 14
output_tokens: 1793
total_tokens: 1807
prompt_tokens: 14
completion_tokens: 1793
response_token/s: 11.16
prompt_token/s: 40.49
total_duration: 165714413800
load_duration: 4507430600
prompt_eval_count: 14
prompt_eval_duration: 345760500
eval_count: 1793
eval_duration: 160609784800
approximate_total: "0h2m45s"
completion_tokens_details: {
reasoning_tokens: 0
accepted_prediction_tokens: 0
rejected_prediction_tokens: 0
}

05:08:03

Ollamaのほうがそこいらの安定性はいいはずなのでOllamaでも試すか
ollama pull joe-speedboat/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M

05:06:49

llama.cppをOpenWebUIから叩くとセッションが切れないことが多々あって使いづらいな。

セッションが切れないと次回走行ができない(llama.cpp側がスタックして動かなくなってる

05:05:50

3.6速度メモ

cache_n: 0
prompt_n: 14
prompt_ms: 179.922
prompt_per_token_ms: 12.851571428571429
prompt_per_second: 77.81149609275131
predicted_n: 1440
predicted_ms: 73149.555
predicted_per_token_ms: 50.798302083333326
predicted_per_second: 19.685697336094528
input_tokens: 14
output_tokens: 1440
total_tokens: 1454

05:00:34

Poeから叩いた版(たぶんQwen3.6-35B-A3B-UD-Q8_K_XL.gguf)

かなりしっかりした回答で、変な検閲さえなければ十分実用的に思える

04:57:51

3.5 vs 3.6
どっちも微妙にハルシネーション起こすね。

04:53:28

まぁCPUゲーやね

04:42:53
04:41:11

よく見たら3.6と3.5でちゃいますな?

04:33:14

もっかい流し。ほぼCPUしか使ってないわね。

まぁllama.cppがCPU用だった気もするのでそんなもんか

04:28:40

Qwen3.6-35B-A3B-UD-Q4_K_M.ggufの無修正版、Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_Mの走行テスト。

このコマンドをベースにしているがGPUほぼ使わずCPU推論してそうであった

reddit.com/r/LocalLLaMA/commen

lama-server.exe ^
-m "Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
--fit on ^
--fit-ctx 128000 ^
--fit-target 256 ^
-np 1 ^
-fa on ^
--no-mmap ^
--mlock ^
-b 2048 ^
-ub 2048 ^
-ctk q8_0 ^
-ctv q8_0 ^
--temp 0.6 ^
--top-p 0.95 ^
--top-k 20 ^
--min-p 0.0 ^
--presence-penalty 0.0 ^
--repeat-penalty 1.0 ^
--reasoning-budget -1 ^
--chat-template-kwargs "{\"preserve_thinking\": true}" ^
--host 0.0.0.0 ^
--port 8033

reddit.com/r/LocalLLaMA/commen

適当に流した結果

cache_n: 0
prompt_n: 464
prompt_ms: 2749.014
prompt_per_token_ms: 5.924599137931034
prompt_per_second: 168.78779082245487
predicted_n: 3068
predicted_ms: 165590.868
predicted_per_token_ms: 53.973555410691
predicted_per_second: 18.527591751013713
input_tokens: 464
output_tokens: 3068
total_tokens: 3532

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
03:18:23 03:35:42

Qwen3.6 Plus、Poeから叩く分には壁打ちには悪くない性能に見える。ただNSFWフィルターが掛かってるようでJailは厳しそう(応答速度的に前段にレビュー用の門番があるか、或いは国産モデルの様に即拒否する何かがありそう