近年、AI技術の進化によりロボットの能力は大きく変化しつつあります。
近年の製造業や物流業では、多品種少量生産の拡大や人手不足の深刻化しています。それにより、ロボットにもより柔軟な対応力が求められるようになりました。環境の変化と、未知の状況でも判断できることが重要になってきています。
こうした背景の中で注目されているのが、ロボット向けの新しいAIモデルです。視覚と言語を組み合わせたVLM、そこから発展したVLA、そして最近研究が急速に進んでいるVAMと呼ばれる技術が登場しています。
目次[]
VAM(Video Action Model)とは
VAMとは「Video Action Model」の略です。動画データからロボットの行動を生成するAIモデルです。
従来のロボットAIは、画像データやテキスト、あるいはロボットの操作ログなどを中心に学習してきました。一方でVAMは、インターネット上に存在する膨大な動画を学習することで、物体の動きや時間の変化を理解することを目指しています。
動画には、人や物体がどのように動くのか、どのような順序で作業が行われるのかといった情報が自然に含まれています。こうした時間的な変化、いわゆるダイナミクスの知識を学習できることが、VAMの大きな特徴です。
なぜVAMが注目されているのか
ロボットが現実世界で作業を行うためには、画像情報だけでは十分ではありません。物体の動きや力のかかり方、作業の順序といった時間的な変化を理解することが重要になります。
従来のロボットAIでは、このような知識を獲得するために、大量のロボット操作データを収集する必要がありました。例えば、ロボットに特定の作業を覚えさせるためには、人間が遠隔操作で同じ動作を何百回も繰り返し、そのデータを学習させる必要があります。
一方でVAMは、動画データから物体の動きや作業の流れを学習できるため、ロボット専用の学習データが比較的少なくても行動生成が可能になると期待されています。動画にはすでに世界の動きに関する情報が豊富に含まれているためです。
このような特徴から、VAMはロボットが未知の環境でも柔軟に行動できる可能性を持つ技術として注目されています。
VAMとVLAの違いとは?

VLAは視覚情報とテキスト指示を組み合わせてロボットの行動を生成するモデルです。それにより、人間の言語による指示を理解できる点が大きな特徴です。
| 項目 | VLA | VAM |
|---|---|---|
| 学習データ | テキスト + 画像 | 動画 |
| 特徴 | 言語理解が強い | 物理・動きの理解が強い |
| 必要データ | 大量のロボット操作データ | 少量でも学習可能 |
| 強み | 指示理解 | 行動生成 |
VLAは言語理解には強いですが、物体の動きや物理世界の理解は弱いとされています。
一方VAMは動画を学習しているため、
- 物体の動き
- 力のかかり方
- 時間変化
などを自然に理解できると考えられています。
VAMのメリット・デメリット
VAMには次のような利点があります。
① ロボット学習データが少なくて済む
VAMは動画からダイナミクスを学習しているため、ロボット専用データが少なくても学習できます。
② 未知の環境でも動作できる
動画から一般的な物理世界を学習しているため、未学習環境でもタスクを実行できる可能性があります。
③ 多様なタスクへの対応
VAMはタスク特化ではなく、汎用的な行動生成AIとして研究されています。
デメリット
一方で課題もあります。
- 推論計算が重い
- ミリ精度作業にはまだ弱い
- 実環境データ不足
特に精密組立など、産業用途ではまだ改良の余地があります。
NVIDIAが進めるVAM研究「DreamZero」

こうしたVAM研究の中でも、最近特に注目を集めているのがNVIDIAの取り組みです。
NVIDIAは動画モデルを基盤としたロボット行動生成AIとして DreamZero を発表しました。このモデルは約140億パラメータの動画モデルをベースに構築されており、動画情報とロボット行動を同時に生成することができます。
従来のVAMは計算量が大きく、ロボット制御に利用するには処理速度が遅いという課題がありました。実際、初期のモデルでは1回の行動生成に約1秒かかることもあり、ロボットが動作のたびに停止してしまう状況でした。
DreamZeroではモデル構造やGPU最適化を徹底的に行うことで、この問題を大きく改善しています。その結果、動画ベースのVAMでもロボット制御に必要なリアルタイム実行が可能になり、約7Hzの周期で行動生成を行えることが示されました。
これは動画モデルを利用したロボットAIが、研究段階から実用段階へ近づいていることを示す重要な成果といえます。

VAMに関するよくある質問(Q&A)
Q1. VAMとは何ですか?
VAMとは Video Action Model(ビデオ・アクション・モデル) の略で、動画データをもとにロボットの行動を生成するAIモデルです。
従来のロボットAIは画像やロボット操作データを中心に学習していました。しかし、VAMではインターネット上の動画を大量に学習することで、物体の動きや作業の流れといった時間的な変化を理解できるようになります。
これにより、ロボットが環境の変化を理解しながら行動することが可能になると期待されています。
Q2. VAMは従来のロボットAIと何が違うのですか?
従来のロボットAIでは、人間がロボットを遠隔操作して大量のデータを収集し、それを学習させる方法が一般的でした。
例えば物を掴む動作を学習させる場合でも、同じ作業を何百回も繰り返してデータを集める必要があります。
一方、VAMは動画データを学習することで、物体の動きや作業の順序を理解することができます。そのため、ロボット専用の学習データを大量に用意しなくても、さまざまな作業に応用できる可能性があります。
Q3. VAMとVLAの違いは何ですか?
VLA(Vision Language Action)は、画像情報と言語指示をもとにロボットの行動を生成するAIモデルです。人間が自然言語でロボットに指示できる点が特徴です。
一方、VAMは動画データを基盤としたモデルであり、物体の動きや環境の変化といった「時間的な情報」を理解できる点が大きな違いです。
簡単に言えば、
- VLA:言語理解に強いロボットAI
- VAM:動きや物理世界の理解に強いロボットAI
という違いがあります。
Q4. VAMはどのような分野で活用される可能性がありますか?
VAMは、環境が変化する作業や柔軟な判断が求められる作業での活用が期待されています。
例えば次のような分野です。
- 物流ロボット
- 家庭用ロボット
- サービスロボット
- ヒューマノイドロボット
従来の産業ロボットが苦手としていた柔軟な作業に対応できる可能性があります。
Q5. VAMはすでに実用化されているのですか?
VAMは現在も研究が進んでいる段階の技術ですが、近年は大手企業による研究が急速に進んでいます。
NVIDIAは動画モデルを基盤としたロボット行動生成AI「DreamZero」を発表しています。動画モデルを利用したロボット行動生成をリアルタイムに近い速度で実行できることが示されています。それは、VAMが実用化に近づいていることを示す重要な研究成果とされています。
Q6. VAMは将来ロボット技術をどのように変えると考えられていますか?
VAMは、ロボットが現実世界の変化を理解しながら行動するための重要な技術になると考えられています。
動画データから物体の動きや作業の流れを学習します。それにより、未知の環境でも柔軟に対応できるロボットの実現につながる可能性があります。
今後、動画モデルとロボット技術が融合することで、より高度な自律ロボットが登場することが期待されています。
iCOM技研による自動化のご提案|まずはシミュレーションから

「自社の荷物で本当に自動化できるのか?」
そんな不安をお持ちの方も、iCOM技研なら安心です。
箱のサイズ・重量・品種情報をお送りいただければ、実機を用いたシミュレーションが可能です。
- 実データに基づいた検証で、導入効果を事前に確認
- 単なる装置提案ではなく、現場に即した自動化プランをご提案
- 協働ロボットの操作指導・立ち上げ支援までワンストップで対応
iCOM技研では、ユニバーサルロボットをはじめとする各種ロボットメーカー製品を取り扱っています。そのため、用途や作業環境に応じた最適なシステムをご提案します。
まずはお気軽にお問い合わせください。
お客様の現場に即した自動化の第一歩をお手伝いします。

