Googleの Vision Banana:統合型ビジョンモデルが、セグメンテーションと3Dジオメトリにおいてタスク特化モデルを上回る

ゲートニュースのメッセージ、4月23日 — Googleの研究者、He Kaiming と Xie Saining を含むが、Vision Banana を紹介する論文を発表した。Vision Banana は、同社の Nano Banana Pro (Gemini 3 Pro Image) の画像生成モデルを対象に、軽量な指示(インストラクション)のファインチューニングを行って作られた汎用の視覚理解モデル。主な革新は、すべての視覚タスクの出力をRGB画像として統一し、タスク固有のアーキテクチャや損失関数を使わずに画像生成によってセグメンテーション、奥行き推定、表面法線の予測を可能にする点にある。

意味セグメンテーションでは、Vision Banana は Cityscapes で専門モデル SAM 3 を 4.7 パーセントポイント上回った。指示表現セグメンテーションでは、SAM 3 Agent を上回った。だが、インスタンスセグメンテーションでは SAM 3 に遅れをとった。3D タスクでは、指標となる奥行き推定で、4つの標準データセット全体にわたり平均精度 0.929 を達成し、推論時に実際の奥行き情報やカメラパラメータを使わず、合成データのみで Depth Anything V3 の 0.918 を上回った。表面法線推定は、3つの屋内ベンチマークで最先端の結果を達成した。

ファインチューニングでは、元の画像生成学習に最小限の視覚タスクデータを混ぜるだけで、モデルの生成能力を維持した。生成品質テストでは、性能は元の Nano Banana Pro と一致した。論文は、視覚における画像生成の事前学習は、言語におけるテキスト生成の事前学習と並行していると提案する。つまり、モデルは生成中に画像理解に必要な内部表現を学び、指示のファインチューニングはその能力を解放するだけだという。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Sullivan & Cromwell、40件の誤った引用を含む裁判書類でのAIハルシネーションについて謝罪

ゲートニュース、4月23日 — ウォール街の大手法律事務所Sullivan & Cromwellは、AIのハルシネーションによって生じた約40件の誤った引用やその他の誤りを含む裁判書類を提出した後、連邦判事に謝罪した。同行のグローバル・リストラクチャリングチーム共同ヘッドのAndrew Dietderichは、

GateNews3分前

テンセントが295BパラメータのHunyuan Hy3プレビューをリリースし、オープンソース化

Gate Newsメッセージ、4月23日—テンセントは、ファストとスローの思考融合を特徴とするハイブリッドなMixture of Experts(混合専門家)言語モデル「Hunyuan Hy3」のプレビューを発表し、オープンソース化した。モデルは総パラメータ2950億、アクティブパラメータ210億を備え、最大コンテキスト長は256Kトークンに対応

GateNews17分前

韓国とベトナムがAI、エネルギー、データ・インフラに関する70件超のMOUsを締結

ゲートニュース速報(4月23日)— 大韓民国とベトナムは、4月23日に行われたイ・ジェミョン大統領のハノイ訪問中に、AI、エネルギー、インフラ、通信分野を対象として70件以上の了解覚書 (MOUs) に署名した。500人超の役員が参加したビジネスフォーラムでは、AIと電力業界のエコシステムについて議論が行われ、韓国の大手財閥にはSamsung、SK、LG、Hyundaiが代表として出席した

GateNews17分前

AI 課題回答エンジンの集団汚染:Gemini 3 の正解のうち 56% に出所の裏付けなし

この記事は、AIの解答エンジンがクエリを行う際に即時にWebページを引用し、情報源がAI生成である、または裏付けとなる証拠が欠けている場合は結果を汚染してしまうことを指摘しています。もはや再トレーニングは不要で、すぐに有効化されるものとして、検索汚染(retrieval contamination)と呼ばれます。Gemini3は正確率が高いものの、56%の回答には検証可能な出典がありません。Lily Ray、Grokipediaなどの事例が示すように、AIは自作コンテンツに騙されやすいのです。結論としては、引用の層と信頼できる著者が切り離され、自ら強化される汚染の循環が形成されるため、ユーザーは依然として元の出典にさかのぼって確認する必要があり、回答を事実確認の最終地点として扱ってはいけません。

ChainNewsAbmedia25分前

Anthropic、配備済みのペンタゴンAIモデルには「キルスイッチ」がないと裁判所に伝える

ゲートニュース 4月23日 — Anthropic(アンソピック)は、AIモデルがペンタゴンの環境に配備されると、同社には可視性も技術的手段もなく、モデルを制御したり停止したりできないとして、米国のD.C.巡回区控訴裁判所に提出した書類で「キルスイッチ」も存在しないと述べた

GateNews27分前

Anthropic が Claude Code 向けに /ultrareview を発表:マルチエージェントのクラウドベースコードレビュー

Gate News のお知らせ、4月23日—Anthropic は /ultrareview (research preview) を導入しました。Claude Code 向けのクラウドベースのマルチエージェントによるコードレビュー機能です。ユーザーは CLI で /ultrareview と入力して、リモートのサンドボックス内でレビューエージェントのグループを起動し、現在のブランチとデフォルトブランチの差分を調べます 未コミットの変更も含む。または、PR 番号を指定して GitHub の PR を直接レビューできます。プロセス全体にローカルリソースは不要で、通常 5〜10 分かかり、結果は通知としてセッションに返されます。

GateNews35分前
コメント
0/400
コメントなし