Qwen3.6 Plusはクラウド用で非公開
https://qwen.ai/blog?id=qwen3.6
Qwen3.6-35B-A3Bなら取れますよという話
https://qwen.ai/blog?spm=a2ty_o06.30285417.0.0.7973c921cSi15s&id=qwen3.6-35b-a3b
Qwen3.6 Plusはクラウド用で非公開
https://qwen.ai/blog?id=qwen3.6
Qwen3.6-35B-A3Bなら取れますよという話
https://qwen.ai/blog?spm=a2ty_o06.30285417.0.0.7973c921cSi15s&id=qwen3.6-35b-a3b
Qwen3.6-35B-A3B-UD-Q8_K_XL
cache_n: 0
prompt_n: 14
prompt_ms: 262.85
prompt_per_token_ms: 18.775000000000002
prompt_per_second: 53.262316910785614
predicted_n: 1704
predicted_ms: 119261.701
predicted_per_token_ms: 69.98926115023474
predicted_per_second: 14.287906223977135
input_tokens: 14
output_tokens: 1704
total_tokens: 1718
Qwen3.6-35B-A3B-UD-Q5_K_M
cache_n: 0
prompt_n: 14
prompt_ms: 228.782
prompt_per_token_ms: 16.34157142857143
prompt_per_second: 61.19362537262546
predicted_n: 1816
predicted_ms: 119116.155
predicted_per_token_ms: 65.59259636563877
predicted_per_second: 15.24562306431063
input_tokens: 14
output_tokens: 1816
total_tokens: 1830
パスキーの利点って総当りに強いことくらいで、あとは別にパスワードマネージャーで代替できるし、パスキーは同期が面倒、ブラウザにロックインされる、環境がしこたまあると管理が大変だし、パスキーのサーバーが落ちると終わる単一障害点になるのも…。
KeePassXCならベンダーロックインを回避できるけど絶対運用だるいし…。毎回NASからpullしてpushだと、回線状況が死んでたりオフラインの時に死んでしまうからな…。
あとパスキーが標準になるとブラウザベンダがこのサービス気に食わないからパスキー使えないようにしたろ!とかが出来てしまうので、それは困る。悪意の有無ではなく金払ってるかどうかが判定ラインになったときにだるいよねーとか。そういうのは思う。
遂に10万割ったかぁ〜〜〜???
>CFD W5U5600CS-32G [DDR5 PC5-44800 32GB 2枚組] 最安価格 ¥79,979
でもまだ高すんぎ!
https://s.kakaku.com/item/K0001529607/
LLMに限ればCPU推論でも全然いけそうなので安くなってほしいが、下がったら下がったで買い控え層の需要が爆発するだろうから、なかなか下がんないだろうな…。
今のマシン買うときに意味のないスペックアップをしておくべきだった。DDR5が出てからの高騰が終わってDDR5が底値付近になったときに買ったからな…
この前提が正しいなら政府はガソリンの補助金を辞めてナフサに流せば解決しそうだが、まぁやらんやろな。
仮に気づいてても見てみぬふりでしょう。道路族を敵に回せるはずがないので。
昨今のナフサ不足の話、記事の内容の前提が抜け放題でよくわからんけど、ガソリンとナフサの精製比率の話があることを踏まえると、政府は原油の総量から原油がこんだけあるのだからナフサはこんだけ作れるのでナフサは足りてると言うことを話してるんかしら?
更にナフサから作られる様々な物質についてもナフサがこんだけあるから足りるだろうという結論をつけてるのかしらね?
現実的にはナフサは儲からないのでガソリンが作られたり、ナフサが作られても有機溶剤には回らなかったりで必要量が確保されない、これのことを政府は目づまりと言っているのではないかという話らしい。
そんなの目づまりでもなんでないと思うのだが…。目づまりは既にあるものがどこかで詰まることではないのかね?これはナフサや有機溶剤を作っても儲からないから元から作ってなかったという話でしょ。要するに有機溶剤やナフサは輸入で回してたので、生産体制を作らない限り国内からはガソリンしか出てこないという話なのでは…?
かと言ってナフサの生産増やしたらガソリンが割を食うのだろうし、無理臭い気がしますな。ガソリンないと車使ってる人が生活できないし、溶剤どころの話ではなくなってしまうでしょ。
llama.cpp
Qwen3.6-35B-A3B-UD-Q4_K_M
cache_n: 0
prompt_n: 14
prompt_ms: 203.404
prompt_per_token_ms: 14.528857142857143
prompt_per_second: 68.82853827849993
predicted_n: 1553
predicted_ms: 94147.172
predicted_per_token_ms: 60.622776561493886
predicted_per_second: 16.495450335990974
input_tokens: 14
output_tokens: 1553
total_tokens: 1567
相変わらず生成が終わってもCPU張り付きっぱなしやな…。OpenWebUIが怪しいエラーを吐いているので、ひょっとしたらキルシグナルが届いてないから続いているとかなのか?
でもllama.cpp上は一回終わってるように見えるが、まぁ連携が上手くいかないとこうなるのかしらね
結果。比較単位が異なるからどっちが破壊かわかりづらいがollamaのほうが遅いような気がした
input_tokens: 14
output_tokens: 1793
total_tokens: 1807
prompt_tokens: 14
completion_tokens: 1793
response_token/s: 11.16
prompt_token/s: 40.49
total_duration: 165714413800
load_duration: 4507430600
prompt_eval_count: 14
prompt_eval_duration: 345760500
eval_count: 1793
eval_duration: 160609784800
approximate_total: "0h2m45s"
completion_tokens_details: {
reasoning_tokens: 0
accepted_prediction_tokens: 0
rejected_prediction_tokens: 0
}
Ollamaのほうがそこいらの安定性はいいはずなのでOllamaでも試すか
ollama pull joe-speedboat/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M
llama.cppをOpenWebUIから叩くとセッションが切れないことが多々あって使いづらいな。
セッションが切れないと次回走行ができない(llama.cpp側がスタックして動かなくなってる
3.6速度メモ
cache_n: 0
prompt_n: 14
prompt_ms: 179.922
prompt_per_token_ms: 12.851571428571429
prompt_per_second: 77.81149609275131
predicted_n: 1440
predicted_ms: 73149.555
predicted_per_token_ms: 50.798302083333326
predicted_per_second: 19.685697336094528
input_tokens: 14
output_tokens: 1440
total_tokens: 1454
Poeから叩いた版(たぶんQwen3.6-35B-A3B-UD-Q8_K_XL.gguf)
かなりしっかりした回答で、変な検閲さえなければ十分実用的に思える
Qwen3.6-35B-A3B-UD-Q4_K_M.ggufの無修正版、Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_Mの走行テスト。
このコマンドをベースにしているがGPUほぼ使わずCPU推論してそうであった
lama-server.exe ^
-m "Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
--fit on ^
--fit-ctx 128000 ^
--fit-target 256 ^
-np 1 ^
-fa on ^
--no-mmap ^
--mlock ^
-b 2048 ^
-ub 2048 ^
-ctk q8_0 ^
-ctv q8_0 ^
--temp 0.6 ^
--top-p 0.95 ^
--top-k 20 ^
--min-p 0.0 ^
--presence-penalty 0.0 ^
--repeat-penalty 1.0 ^
--reasoning-budget -1 ^
--chat-template-kwargs "{\"preserve_thinking\": true}" ^
--host 0.0.0.0 ^
--port 8033
適当に流した結果
cache_n: 0
prompt_n: 464
prompt_ms: 2749.014
prompt_per_token_ms: 5.924599137931034
prompt_per_second: 168.78779082245487
predicted_n: 3068
predicted_ms: 165590.868
predicted_per_token_ms: 53.973555410691
predicted_per_second: 18.527591751013713
input_tokens: 464
output_tokens: 3068
total_tokens: 3532