2024年、GoogleのロボットAI研究を支えた30人の精鋭が独立して創業したスタートアップ「Physical Intelligence(PI)」。PIは設立直後に約100億円の資金を調達し、π0の発表に合わせてさらに600億円を調達しました。創業からわずか8カ月でユニコーン企業に成長し、時価総額は約3600億円に達しています。彼らが発表したロボットAI基盤モデル「π0」は、これまでのロボット技術を一変させる可能性を秘めています。
本ブログでは、日経ロボティクスで紹介されたロボットAIの未来を変える「π0(パイゼロ)」について紹介していきます。
目次[]
ロボットAI基盤モデル「π0」の技術的特徴
マルチモーダル型大規模言語モデルと拡散モデルの融合
π0は、言語モデルと拡散モデルの長所を組み合わせた初のロボットAI基盤モデルです。言語モデルは膨大な知識を活用してタスクの文脈を理解し、拡散モデルは滑らかで精密な動きを可能にします。
LMM(大規模マルチモーダルモデル)とは、「テキストや画像、動画など、複数種類の情報を処理できるAIモデル」を指します。
似たような言葉でLLM(大規模言語モデル)というものがありますが、こちらのモデルはテキストの処理・生成しかできません。
例えば、無料版ChatGPTに搭載されているGPT-3.5は、テキスト処理しかできないのでLLMに分類されますね。
また、GPT-4はテキストtoイメージ、テキストtoビデオなど、さまざまなモードに対応できるのでLMM(大規模マルチモーダルモデル)に分類されます。
一方、「Diffusion model(拡散モデル)」とは、画像データを生成するAIサービスを中心に利用されている生成AIモデルの1つです。
特に、Meta Platformsの技術「Transfusion」を応用し、2つの異なる技術を単一のモデルで統合することに成功しました。
高速処理の実現
π0は「Mixture of Experts(MoE)」という構造を採用。用途ごとに最適なモジュールを使用することで、計算コストを大幅に削減しています。この仕組みにより、ロボットはリアルタイムで複雑な動作を実行できます。
π0の場合、計算負荷を減らして高速化したいのは、ロボット行動を生成する部分である。そこでPhysical Intelligenceは、ロボット行動を生成する部分、つまり拡散モデル部については、Transformer全体を費やして処理するのではなく、拡散モデル部専用のexpertである「action expert」を設けるようにした。π0は全体では33億パラメータの規模があるが、このaction expert部分は高速に動作するよう、より軽量な3億パラメータに絞った。
Flow Matchingの導入
Flow Matchingは拡散モデルの発展版で、動作生成の過程をより連続的かつスムーズにします。この技術により、ロボットが従来よりも複雑なタスクを効率的にこなせるようになりました。
π0が実現した高度なタスク
Physical Intelligenceが公開した動画では、次のようなタスクをスムーズに実行するロボットの姿が確認されています。
- 乾燥機から衣類を取り出し、畳んで整理
- 卵を割らずにケースに収め、蓋を閉じる
- 平面から箱を組み立てる
特に、服を畳むタスクは柔軟な物体を扱う高度な技術が求められます。π0は、これを5分間連続で成功させることで、その精密さと安定性を証明しました。
実験では68種類のタスクでπ0の性能を評価。多くのタスクで100%近い成功率を達成し、既存のロボットAIモデルを大きく上回る結果を見せています。
今後の技術展開
次世代モデル「π1」「π2」の登場
Physical Intelligenceの共同創業者であるLevine氏は、π0を「GPT-1」に例え、次のステップで大きな飛躍を見せると語っています。次世代モデル「π1」「π2」では、さらに多くのタスクに対応できる能力が加わると予想されます。特に、以下の技術が導入される可能性があります:
- 強化学習:ロボットが自律的に学習し、未知のタスクにも柔軟に対応できるようになる。
- さらなるデータ活用:PIは既に1万時間分の遠隔操作データを使用していますが、今後はパートナー企業との連携でデータ規模を拡大すると考えられます。
ロボットAIのエコシステム構築
PIは、AIソフトウェアに特化し、ハードウェアは外部のパートナー企業に任せる方針です。すでに中国のロボット企業Astribotと提携しており、同社のヒューマノイドロボットにπ0を搭載して動作させるデモを公開しました。
このように、PIはハードウェアを持たない代わりに、AIプラットフォーマーとしてエコシステムを形成する戦略を取っています。今後、このエコシステムが拡大することで、物流、家庭用ロボット、サービスロボットなど、さまざまな市場への展開が期待されます。
自動運転など他領域への応用可能性
PIは現段階で「π0を自動運転車に適用するかは未定」としていますが、技術的なポテンシャルは十分にあります。特に、ロボットAIの基盤技術は他の分野にも応用できるため、自動運転や医療分野での活用が進む可能性があります。
ロボットAIの未来を見据えて
Physical Intelligenceが開発した「π0」は、ロボットAIの歴史における大きな転換点となる可能性を秘めています。PIが次世代モデルや新たな技術を取り入れることで、より広範な市場と応用領域に進出することは間違いありません。
日本もこの動向に敏感に対応し、国際競争力を強化するための戦略を再構築すべきです。これには、資金調達手法の改革や、研究機関と産業界の連携強化が不可欠です。
AIがロボットの可能性をさらに広げ、私たちの生活をどのように変えていくのか、今後もその動向を注視していきましょう。