2026年に入り、フィジカルAIの世界では
動画モデルを基盤とする VAM(Video-Action Model) が急速に台頭しています。
その影響で、ここ数年の中心的存在であった
VLA(Vision-Language-Action)モデルよりフィジカルAIの構図が変わり始めています。
本記事では、
- VLAとは何か?(ここ数年の中心モデル)
- VAMとは何か?(2026年に入り台頭したモデル)
- VLA・VAM両者の本質的な違い
- なぜ今VAMが注目されているのか?
を、分かりやすく解説いたします。
目次[]
VLAとは何か?
VLAとは Vision-Language-Action の略です。
構造イメージ
ベースは大規模言語モデル(LLM)やVLM(Vision-Language Model)。
VLAの代表例としては下記のモデルがあります。
- Physical Intelligence「π0.5」「π*0.6」
- Google「Gemini Robotics」
特徴(強みと弱み)
VLAの強み
- 言語理解が強い
- 指示ベースのタスクに強い
- 模倣学習+強化学習で性能向上可能
VLAの 弱み
- ダイナミクス(物理的な動き)の事前知識が弱い
- long-horizonタスクでは大量の遠隔操作データが必要
- データ効率があまり良くない
VLAは「理解力」は高いが、
物理世界の直感はあまり持っていません。
VAMとは何か?
VAMは Video-Action Model の略です。
構造イメージ
ベースは動画生成モデル(拡散モデルなど)。
代表例:
- NVIDIA「Cosmos Policy(CP)」
- 中国Robbyant「LingBot-VA」
特徴(強みと弱み)
VAMの強み
- ダイナミクス理解が強い
- 時間推移に強い
- 少量の遠隔操作データで適応可能
- 世界モデルとしてシミュレータ化できる
VAMの弱み
- 推論負荷が重い
- リアルタイム性に課題
- 言語理解はVLAほど強くない
VLAとVAMの本質的な違い
| 項目 | VLA | VAM |
|---|---|---|
| Vの意味 | Vision | Video |
| 事前学習 | 静止画+テキスト | 大量動画 |
| ダイナミクス理解 | 弱い | 強い |
| データ効率 | 低め | 高い |
| long-horizon適性 | 課題あり | 強い |
| シミュレータ活用 | 難しい | 可能 |
| 推論速度 | 比較的速い | 重い |
なぜVAMが注目されているのか?
① 世界モデルを持つ
動画とは、
「△に動くと、〇の結果になる」
という物理因果の集合です。
ロボットに必要なのは、
知識よりも因果関係のある未来予測能力になります。
VAMはその基盤を事前学習で持っています。
② シミュレータとして使える
VAMは:状態 + 行動 → 次状態を予測できます。
これにより:
- 危険動作の検証
- MPC(モデル予測制御)
- 方策の事前評価
が可能になります。
シュミレーター例:
- Googleは動画モデル「Veo」でVLAを評価
- Wayve TechnologiesはGAIAで自動運転AIを検証
性能比較:VLAに肉薄
NVIDIAのCosmos Policyは、
- シャツ折り畳み:π0.5と同等
- ジッパー閉め:π0.5を上回る(85.4% vs 61.5%)
遠隔操作データはわずか数十件。
これはデータ効率の高さを示しています。
では、どちらが勝つのか?
結論としては「どちらかが消える」構図ではない。
VLAの用途
- 言語理解
- 指示ベースタスク
- 高速推論
VAMの用途
- 物理推論
- 長時間タスク
- シミュレーション評価
という分業構造になる可能性が高い。
今後のフィジカルAIはどうなる?
将来的には、VLA,VAMの用途でも記述したような役割をそれぞれが担うことが予想されます。
言語理解 → VLA
物理推論 → VAM
フィジカルAIはVLA,VLMどちらか一方だけでなく、これらを統合したハイブリッド構造が主流になると考えられます。
まとめ
一言でまとめると、
VLAは「理解型フィジカルAI」、
VAMは「物理直感型フィジカルAI」
であると言えます。
2026年は、
フィジカルAIが“言語中心”から“物理中心”へ進化し始めた年
と言えるかもしれません。



