2025年2月19日 - @ponapalt@ukadon.shillest.netの投稿

14:50:00 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

へたにreasoningすると、どこかで「ハルシネーションを超増幅して発散する」ような現象も起きそうなもんだけど…どうなんだろうね。

14:48:12 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

reasoning系モデルの思考ログを人の思考にあてはめてはいけない。あれは単なる最終出力候補を狭めるためのランダムウォークであろう。

14:10:51 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

しかしGPT-4.5では！上回りました！
…っていう前振りにも見えなくもない…

※そしてさらに後に出るかもしれないClaude 4 Sonnetに抜かれるオチもセット

13:38:43 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

ウチのサブスク契約がClaude推しのままなのは、言語理解能力の違いを普段から肌で感じてるのと、Deep Researchとかはそのうちオープンソースなフレームワークでできるやろと推定してるからなんだけど…

ベンチマークに現れないそういう違いが、実世界寄りのタスクで現れてきたのかなあ。

13:34:43 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

OpenAI からSWE-Lancerっていう、割と実世界に近いと思われるフリーランスのプログラマーのタスクをこなすベンチマーク（ベンチマーク結果は何ドル稼いだか！）が公開されたんだけど…

結果：
GPT-4o＜o1＜Claude 3.5 Sonnet

正直でよろしい

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

07:30:25 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

うかどんの調整とわんこの起床がカブってエラーになってました

05:22:02 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

着陸直前のウインドシアを制御しきれなくなってハードランディングって流れかなぁ。

05:15:16 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

2025-02-18 23:18:06 orangeの投稿 orange_in_space@mstdn.nere9.help

映像追加されたけど、ポーポイズじゃなく単なるハードランディング・・・・＞＜；

Accident Bombardier CL-600-2D24 Regional Jet CRJ-900LR N932XJ, Monday 17 February 2025 https://asn.flightsafety.org/wikibase/478376

Accident Bombardier CRJ-900LR N932XJ, Monday 17 February 2025