世界最高水準の動画生成AI『Veo3.1』による動画
Summary
Googleが開発した最新の動画生成AI『Veo3.1』。2025年5月にリリースされた前モデルの『Veo3』は、2024年12月にリリースされた前々モデルVeo2の性能をさらに向上させ、高品質な動画生成能力で注目を集めました。Veo2はMetaが提供するベンチマークテスト「MovieGenBench」において総合評価で1位を獲得し、"最高峰の動画生成AI"と世界中のユーザーから評価されていました。
その最新モデル『Veo3.1』が、2025年の10月より日本国内でもGeminiで使えるようになっていたので、実際に動画を生成して、そのクオリティを見てみました。
1.Veo3.1について
まず『Veo3.1』について簡単に説明します。Veo3.1は、2025年10月15日にGoogleが発表/リリースしたGoogle発の最新動画生成AI。
前モデルのVeo3は2025年5月20日のGoogle I/O 2025イベントで発表され、その後5月下旬から段階的に71の国と地域、最終的には159以上の国と地域に展開されました。日本でもVeo3は利用可能となり、最近SNSやYouTubeでもVeo3で生成されたであろう動画を見たことがある方も多いと思います。
Veo3.1は、Text to Video(テキストから動画)・Image to Video(画像から動画)といった基本機能に加えて、動画にマッチした声や効果音/BGMが自動生成されるネイティブ音声生成機能が搭載されており、Veo3からさらに強化されています。Veo3よりもさらに高いプロンプト適応力と映像のリアリティを誇り、世界最高水準の動画を生成できるモデルとして、最注目の動画生成AIです。
2.Veo3.1で動画を生成してみた
Veo3.1は、Googleの「Gemini Advanced」に統合されており、Geminiの有料プランに加入しているユーザーは、すぐにVeo3.1を利用することができます。
*詳しい料金体系などは公式サイトをご覧ください
Gemini(PROプラン)にて、動画をいろいろ生成してみました。(Text to Video)
①静的な動画 ※クリックで再生
Prompt:
Close up static shot: A young white woman rests her chin on her hand, gazing softly into the distance while sitting quietly at a wooden table near a sunlit window. Her expression is calm and introspective, with gentle natural light illuminating one side of her face. Diffused lighting enhances the serene atmosphere, capturing delicate details of her skin and hair. Cinematic and moody tone, filmed with a 50mm lens for a realistic depth of field, slow motion.
②動物
Prompt:
Dolly in tracking shot: A close-up view of a cheetah sprinting across the golden savanna, dust kicking up from its powerful strides. The camera follows smoothly beside the cheetah as its muscles ripple with speed and precision. Sunlight glows through the tall grass, capturing the dynamic motion and intensity of the chase.
Style: Cinematic, realistic wildlife documentary
Camera style: Tracking close-up, 50mm lens
Lighting style: Back lit with warm sunset tones
Motion speed: Dynamic motion
Mood: Intense and awe-inspiring
③街並み
Prompt:
Aerial wide shot: The camera flies smoothly above a modern cityscape, capturing streets, cars, and buildings from a bird’s-eye view. The rooftops glisten under the sunlight as long shadows stretch across the urban grid. The scene reveals parks, intersections, and rivers winding through the city, with people and vehicles moving below.
Lighting style: Diffused lighting with a warm afternoon tone.
Motion speed: Slow motion to emphasize graceful movement and detail.
Style: Cinematic, realistic, and detailed with natural color grading and depth.
④車
Prompt:
Truck right shot: The camera smoothly moves alongside a speeding car on an urban highway at midnight. Neon lights from skyscrapers and billboards reflect off the glossy black surface of the car as it races through the empty lanes. Occasional light trails streak past, emphasizing the motion.
Style: Cinematic, moody, realistic documentary
Camera style: Wide angle lens, low angle tracking shot
Lighting: Side lit with blue and magenta neon reflections
Motion speed: Dynamic motion
Mood: Gritty, atmospheric, modern
⑤大人数
Prompt:
Camera movement: Crane down with slow pan across the crowd
Scene setup: A massive audience at a live concert, people jumping, waving glow sticks, clapping and cheering under bright stage lights. The camera moves smoothly above the crowd and then lowers to capture faces full of excitement and energy.
Additional details: Wide-angle cinematic shot with dynamic motion. Vibrant lighting from the stage—red, blue, and white beams sweeping across the audience. Lens flare from the lights, diffused smoke in the air, and confetti floating around. The atmosphere feels electric, filled with sound and movement.
Lighting style: Back lit and side lit with colored gel lighting.
Aesthetic style: Cinematic, moody, high energy concert vibe.
Motion type: Undulates and ripples through the crowd as they move together rhythmically.
⑥激しい動き
Prompt:
Steadicam follow, low angle dynamic motion: The camera follows a passionate rapper performing on stage under flashing neon lights, his gestures sharp and energetic as he spits rapid-fire lyrics into the microphone. Sweat glistens on his face under intense red and blue side lighting, with the crowd cheering in the blurred background. The atmosphere is cinematic and moody, filled with rhythmic energy and expressive motion.
⑦複雑な動き
Prompt:
Dolly in: A clown dressed in colorful vintage circus attire performs skillful juggling with bright red, blue, and yellow balls under a big circus tent. The audience is faintly visible in the background, blurred to emphasize the clown’s concentration. The camera slowly moves forward, capturing the rhythm and precision of the act.
Lighting is diffused with a warm golden hue, enhancing the nostalgic circus atmosphere.
Style: Cinematic, moody yet joyful, with subtle lens flare from the overhead lights.
Motion speed: Slow motion, emphasizing the arcs of the balls as they rise and fall gracefully through the air.
3.Veo3.1で動画を生成してみた感想
グラフィックがさらに実写レベルのリアルさに近づいたように感じますし、イメージしていた通りの動画がしっかり生成され、プロンプトの再現度もレベルアップしたように思いました。
相変わらずAI動画特有の造形の崩れや奇怪な動きも無く、自然さをキープしている点も凄いです。
自動で生成される音声もプロンプト無しとは思えないほど高クオリティ。
最後に生成したボールのみ不自然な現象が起きていますが、従来の動画生成AIであれば、ジャグリングという複雑な動きさえ自然な再現が難しかったので、AIの進化の速さに驚くばかりです。
4.まとめ
今回Veo3.1で動画を生成してみましたが、全モデルに引き続いて世界最高水準の動画生成AIと称されるのも納得のクオリティでした。
数多くの動画生成AIが存在していますが、少なくとも生成される動画のクオリティの高さ、生成スピードは特出しているように感じます。
CMなどの短編動画であれば、全編Veo3.1のみで生成されたものも近々出現してきそうです。
動画編集機能を持ったAIも最近出てきたので、ますますAI動画に衝撃を受ける機会が増えていきそうですね。
次回は実際に『Veo3』と『Veo3.1』の動画のクオリティ比較検証をしていこうと思います。