5000兆円
欲しい!
も読めるなぁ。
https://news.livedoor.com/article/detail/13386075/ の画像と"この画像を説明してください。"と与えると、
"この画像は、5000兆円を欲しいと書かれた日本語の文を含んでいます。文は金色の文字で書かれ、背景には光る金色の光が散り始めています。この文は、5000兆円という大額な金額を欲求する意図を表しています。"
5000兆円
欲しい!
も読めるなぁ。
https://news.livedoor.com/article/detail/13386075/ の画像と"この画像を説明してください。"と与えると、
"この画像は、5000兆円を欲しいと書かれた日本語の文を含んでいます。文は金色の文字で書かれ、背景には光る金色の光が散り始めています。この文は、5000兆円という大額な金額を欲求する意図を表しています。"
複数画像渡せるから、リファレンス用と判断用の画像を渡して「この2枚のキャラクターは同一キャラクターですか?」みたいなことやればキャラ判定なんかもできる。
ん、Qwen2-VL-7B-Instruct-AWQ動いた。画像がでかくなければ3060でもなんとかいけるね。2Bに落とせばでかくてもいける。