世界最高水準の動画生成AI『Veo3』による動画
Summary
Googleが開発した最新の動画生成AI『Veo3』
昨年の12月にリリースされた前モデルの『Veo2』はMetaが提供するベンチマークテスト「MovieGenBench」において総合評価で1位を獲得し、”最高峰の動画生成AI”と世界中のユーザーから評価されました。
その最新モデル『Veo3』が日本国内でもGeminiで使えるようになっていたので、実際に動画を生成して、そのクオリティを見てみました。
1.Veo3について
まず『Veo3』について簡単に説明します。
Veo3は、2025年5月20日にGoogle I/O 2025イベントで発表/リリースされたGoogle発の最新動画生成AIです。
日本を含む71の国と地域では、2025年5月25日から提供が開始され、最近SNSやYouTubeでもVeo3で生成されたであろう動画をよく見るようになりました。(YouTuberが現実にはあり得ない企画をしている動画など)
Text to Video(テキストから動画)・Image to Video(画像から動画)といった基本機能に加えて、動画にマッチした声や効果音/BGMが自動生成される音声機能が搭載されています。Veo2よりもさらに高いプロンプト適応力を誇り、世界最高水準の動画を生成できるモデルとして、最注目の動画生成AIです。
2.Veo3で動画を生成してみた
Veo3は、Googleの「Gemini Advanced」に統合されており、Geminiの有料プランに加入しているユーザーは、すぐにVeo3を利用することができます。
*詳しい料金体系などは公式サイトをご覧ください
Gemini(PROプラン)にて、動画をいろいろ生成してみました。(Text to Video)
①静的な動画
Prompt:
Camera fix: A middle-aged man sits quietly on a wooden chair in a dimly lit, minimalist room.
He is calm, still, and gazing downward, lost in thought. The room is sparsely furnished, with soft shadows cast across the floor and walls.
Camera style: Close up
Lighting style: Diffused lighting
Motion speed: Static
Style: Cinematic
②動物
Prompt:
Dolly in shot: A white puppy is joyfully running through a sunlit meadow filled with swaying wildflowers and tall grass. The camera steadily moves forward to follow the pup’s energetic movement, capturing the puppy's floppy ears bouncing and tongue lolling out in delight. Puffy white clouds drift across a bright blue sky in the background.
Camera style: Tracking
Lighting style: Diffused lighting
Motion speed: Dynamic motion
Aesthetic: Cinematic
③街並み
Prompt:
Dolly in shot: A cinematic low angle view of Manhattan's towering skyscrapers at dusk. The camera glides forward through a narrow canyon of steel and glass, with reflections of golden sunset hues bouncing off mirrored surfaces. Steam rises from street vents, taxis rush by below, and city lights begin to flicker on. The buildings appear majestic and infinite, stretching endlessly into the violet sky. A warm, diffused backlight silhouettes the skyline while subtle lens flares dance across the screen.
Camera Work: Dolly in
Camera Style: Low angle, Cinematic
Lighting Style: Diffused lighting with warm backlight and lens flare
Motion Speed: Slow motion
Aesthetic Style: Moody and cinematic
④車
Prompt:
A close-up front view of a vintage race car with a weathered and rustic appearance, painted in faded blue with a bold orange stripe and the number '35' on the hood. The car is speeding on a wet forest road surrounded by tall pine trees. The scene is misty and atmospheric, with motion blur capturing the car's speed and a cinematic perspective. The lighting is soft, with a moody, overcast sky enhancing the dramatic ambiance.
⑤大人数
Prompt:
Dolly in with camera circling: A massive army of samurai warriors charges across a fog-covered battlefield at dawn. The scene is set during Japan's Sengoku period, with armored warriors clashing swords, banners flapping, and war cries echoing through the air. Mount Fuji looms faintly in the background beneath a crimson sky. Horses trample through the mud while ashigaru foot soldiers storm forward with yari spears. Lighting: Back lit with subtle lens flare to emphasize silhouettes and dust. Camera style: Wide angle, cinematic with a slight handheld shake for realism. Motion speed: Dynamic motion to enhance the chaos of battle. Style and Aesthetic: Moody and cinematic with a hint of iridescent metallic gleam on samurai armor. Text overlay: No text. Focus solely on the epic scale and emotion of ancient warfare.
⑥激しい動き
Prompt:
Dolly in, Low angle tracking shot: A muscular male boxer is practicing intense shadowboxing alone in a dimly lit underground gym. Sweat glistens on his skin as he unleashes rapid, powerful punches into the air with explosive energy, each movement sharp and focused. The background is filled with gritty textures — cracked walls, hanging punching bags, and dust particles floating in the warm spotlight. Lighting style: Side lit with dramatic chiaroscuro contrast to emphasize the motion and muscle definition. Camera style: Tracking with wide angle lens to capture dynamic body movement and environment. Motion speed: Dynamic motion, emphasizing speed and intensity. Visual style: Cinematic and moody, with slow camera push-in for dramatic effect.
⑦複雑な動き
Prompt:
Dolly in + camera circling + Low angle shot: A professional skateboarder in an urban skatepark executes a complex trick sequence under a glowing sunset sky. He begins with a switch hardflip over a stair set, seamlessly transitions into a nollie laser flip down a ramp, and lands directly into a caballerial backside lipslide on a rail. The camera dynamically circles him as he lands in a fakie stance and pushes into a final trick: a late flip off a curved ledge. The environment features colorful graffiti, dramatic shadows, and excited onlookers frozen in awe.
Lighting style: +Back lit with +Lens flare
Camera style: +Low angle +camera circling
Motion speed: +Dynamic motion
Style: +Cinematic +Moody
Vibe: Urban, adrenaline-charged, stylish and hyper-technical
3.Veo3で動画を生成してみた感想
実写レベルのグラフィックもさることながら、AI動画にありがちな不自然な動きが見られず、自然な動き(人間らしい・物理法則に基づいた動作)を完璧に再現していて驚きました。
従来の動画生成AIでは、特にシャドーボクシングといった”激しい動き”やスケートボードといった”複雑な動き”が伴う場合、人物の造形などが崩れがちなのですが、Veo3で生成された動画は、そういった崩壊がなく極めて高いクオリティです。本当に凄い…
また、プロンプトの忠実度も非常に高く、カメラワーク・モーション・スタイルなどをしっかり動画の中でアウトプットしています。
今回は英語のプロンプトでしたが、日本語のプロンプトでもしっかり対応しています。さらに、ここまで具体的なプロンプトで指示をしなくても、映画レベルの映像が数分で生成されます。しかも、自動で動画に合わせた音声も生成してくれます!(今までは音楽生成AIなどの他ツールの併用が必要でした)
総じて、想像以上のレベルを見せつけられました。
4.まとめ
今回Veo3で動画を生成してみましたが、世界最高水準の動画生成AIと称されるのも納得のクオリティでした。
SoraやPika,Ray2など。。。群雄割拠の動画生成AIですが、その中でもクオリティ面・プロンプト忠実度の面から見ても特出しているように感じます。
その手軽さに見合わないレベルの映像を瞬時に制作できる点でも、今後の動画生成AIのスタンダードになっていくのではないでしょうか。
今後も世界最高水準の動画生成AI『Veo3』について発信していきます。