
Google DeepMindの「Genie 3」、プロンプトからリアルタイム生成されるインタラクティブな3D世界へ一歩前進
Google傘下のAI研究機関DeepMindは2025年8月5日(現地時間)、テキストプロンプトから即座に探索可能な3D世界を生成する新たなワールドモデル「Genie 3」を発表しました。研究プレビュー段階ながら、ゲーム開発や教育、AIエージェントの訓練など幅広い分野での活用が期待されています。
テキストから“動く世界”を構築
Genie 3は、ユーザーが入力した文章をもとに720p・24fpsの映像として仮想空間を生成し、その場で自由に移動・操作できるのが特徴です。生成された世界は数分間の一貫性を保持し、壁に描いた模様や配置した物体が視界から外れても消えることなく残ります。
また、「promptable world events」と呼ばれる機能により、ユーザーは天候の変化や新しいキャラクターの追加などをリアルタイムに指示可能です。水や光の反射、生態系や地形なども自然に描写され、火山地帯や日本庭園といった多様な環境を再現できます。
応用分野と技術的意義
DeepMindは、Genie 3の技術を汎用人工知能(AGI)への重要なステップと位置付けています。仮想世界での無制限かつ多様なシミュレーションは、AIエージェントの学習環境として理想的であり、同社の汎用操作エージェント「SIMA」も本モデル上で訓練されているといいます。
応用可能な分野は、ゲーム開発、教育コンテンツ制作、ロボット制御の訓練、さらには創造的プロトタイピングまで多岐にわたります。
現時点での制約
一方で、現段階のGenie 3にはいくつかの制約があります。
- 実在する地理や建物の精密な再現は困難
- 複数エージェント間の複雑な相互作用は未対応
- 世界内でのテキスト表示は明示的な指示がないと不鮮明
- 一貫性の持続時間は数分程度に限られる
また、提供は限られた研究者やクリエイター向けに限定されており、一般公開の時期は未定です。
今後の展望
Genie 3は、AIが単なる文章や画像生成を超え、「リアルタイムで動く世界」を構築する時代の到来を告げるものです。制約はあるものの、将来的には誰もが長時間にわたる自由な仮想世界を創造できる環境が実現する可能性があります。DeepMindは、今後の改良によって一層の精度向上と応用範囲拡大を目指すとしています。