2025年3月10日 - @ponapalt@ukadon.shillest.netの投稿

05:44:03 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi 汎化のおかげで英語やほかの言語のの会話データでも強化されるから、今のところ全然おっけーなんだろうけどね。
日本人、AIと話すのに抵抗ない人が多いと思うから、これからたくさん理想的なデータセットが溜まる…と思いたい…

05:42:14 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi 日本人シャイでエアリプとかが多いから、あんまり良い会話データセットがなくて、ナントカちゃんねるのような匿名掲示板のデータが多いせいで、トークナイザに「名無しさん」のバリエーションが多いってネタとかあるね。

05:28:45 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir 駅前って…山桜の類いか、ゆいレールの駅前とかでは…

05:26:13 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi 事前学習でできあがったものは、確かにただの「文章補完マシン」なんだけど、たぶん事後学習で会話できるように補正する過程で、なにかが起きているのかもね？

05:23:14 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi そう言うてる割に、実は人間の言語野相当の機能以外の部分もほんのり担ってるらしい、って最新の論文に書いてたよ。

05:20:08 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi 「今までの流れから、次にこの言葉がくるな…」っていうのを繰り返してたら、なんで知能になっちゃったんだろうね？

05:17:43 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi 長くなってもいいので、簡単な言葉でしっかり説明できる？

05:15:46 ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

@lacherir @zumimi LLMに限定した話で掘り下げてあげて