プロンプトだけで“音声付き動画”が完成!Googleの動画生成AI「Veo 3」の全機能・使い方・料金まとめ

Adbrand Team Adbrand Team

Google DeepMindの動画生成AI「Veo 3」は、テキスト(必要に応じて画像)から8秒の高品質動画(720p/1080p)と音声を一体で生成できるモデルです。2025年9月にはAPI料金の大幅値下げと縦長(9:16)・1080p対応の拡充、およびVeo 3 Fastの安定提供が公表され、個人利用から業務活用までのハードルが下がりました。

本記事では、Veo 3の基本、注目機能、最新の料金・プラン、Veo 3 Fastの位置づけ、操作の流れ、プロンプト設計、実例、商用利用の注意点までを、最新情報に基づき整理します。

目次

Veo 3 とは?

Veo 3は、自然文(必要に応じて画像)から 8秒の動画と音声(効果音・環境音・セリフ)をモデル内で同時生成 します。 物理挙動・カメラ表現・プロンプト忠実度 に優れ、短い説明から映像とセリフ音声が整合する自然な結果(リップシンク含む)を狙って出力できます。短尺ながら完成度の高いカットを迅速に生成できるため、広告のバリエーション出しや企画段階のビジュアル化、社内資料の差し替え素材作成などに適しています。

引用: https://deepmind.google/models/veo/


注目ポイント

先に結論を言うと、Veo 3 の真価は「映像・音声・操作性」の三拍子そろった総合力にあります。

  • 音声同時生成 口パク合わせの手間ゼロで短尺動画が即完成。日本語で書いても正しく解釈され、ナレーションも日本語に対応。

  • 映画的演出にも対応 “cinematic” “shallow depth‑of‑field” など映画用語を追加すると水面反射や被写界深度なども再現。

  • 高度なカメラ制御 パン・ズーム・回転まで数値で指定し映画のような演出を実現。

  • オブジェクト追加/削除 撮影後の写り込みもワンクリックで修正。

  • Flow 連携 脚本→クリップ→シーン編集までを一つの画面で完結。

  • 生成速度とコスト効率(Veo 3 Fast) 標準モデルよりも短時間・低コストで動画を生成できる「Veo 3 Fast」にも対応。SNS向けのバリエーション作成やアイデア段階の試作に適しており、まずはFastで方向性を固め、最終的な仕上げをVeo 3で行うと効率的です。なお、FastはImage-to-Videoに非対応(テキストから動画のみ)という仕様上の違いが明示されています。

これら を押さえておくだけで、初めてでも “使える動画” を量産できます。


料金と “無料で使う” 3 ステップ

料金

Veo 3 を利用するには Google AI Pro または Google AI Ultra いずれかの有料プランへの加入が必須です。これらのプランに加入すると、Gemini アプリ内の「Veo 3 β」タブと Flow のタイムライン編集の両方で Veo 3 を利用できるようになります。

プランVeoへのアクセス月間AIクレジット参考価格・主な特典
Google AI ProVeo 3 Fast に「限定アクセス」。Gemini から動画生成が可能(「動画」ボタン)。1,000$19.99/月、2TBストレージ。
Veo 3 Fast 最大3本/日(プレビュー)
Google AI UltraVeo 3 の「最高アクセス」。Flowの上位機能(1080p、カメラ制御など)も利用可。25,000$249.99/月(初回3か月50%OFFの告知あり)、30TB、YouTube Premium など。
Veo 3 最大5本/日(プレビュー)

クレジット関連の注意点

  • 消費クレジット Fast: 20 クレジット / 本 Quality: 100 クレジット / 本

  • クレジットは月初に自動でリセットされます。

“無料で使う” 3 ステップ

まずは無料枠からGoogle AIを試してみましょう。

【ステップ 1】Google AI Pro を初月無料で申し込む

1,000クレジット付きで、高速・標準の動画生成が可能。

【ステップ 2】Fastモードでクレジットを節約して使う

1本あたり 20クレジット で動画生成可能(Fastモード)。

月内に 最大50本相当 を無料で試せます。

【ステップ 3】必要ならUltraにアップグレード

高画質・大量生成を行いたいならUltraも選択肢に。

月12,500クレジットが付与されます。

【2025年9月更新】(API料金)Veo 3の価格改定

2025年9月、Googleは 開発者向けAPI料金を値下げ し、 縦長9:16と1080p の構成を拡充、Gemini APIでの 安定運用 に移行しました。

API(Vertex AI/Gemini API)の現行料金

Veoの秒課金は下表の通りです(動画+音声/動画のみの2軸)。

モデル出力価格(USD)主な仕様
Veo 3動画+音声$0.40/秒720p/1080p、 16:9/9:16 対応
動画のみ$0.20/秒720p/1080p、16:9/9:16対応
Veo 3 Fast動画+音声$0.15/秒720p/1080p、16:9/9:16対応・高速
動画のみ$0.10/秒720p/1080p、16:9/9:16対応・高速

旧価格はVeo 3($0.75/秒)、Veo 3 Fast($0.40/秒)で、現行は約50%の値下げです。


はじめての Veo 3 操作手順(Gemini)

プロンプトを書き、「動画」を選択する。

「要素を列挙 → 映像トーン → 音声のイメージ」の順で 1 行にまとめると失敗しにくい。

例:「A serene lakeside at dawn, soft pastel colors, gentle ripples; a narrator whispers ‘good morning’ with birds chirping in the background.」

プレビュー → ダウンロード

生成後は MP4 形式でそのまま保存。SynthID 透かしが自動付与されるため著作権表示の心配なし。

写真1枚からの操作にも対応(2025年7月追加)

Gemini アプリや Flow では、 テキストだけでなく静止画1枚を起点に動画を生成する機能 も追加されました(Photo-to-Video / Frames to Video)。画像をアップロードし、動き・音声・演出を自然文で指定するだけで、 最長8秒の音声付き動画 を生成できます。

【手順】

「Videos」タブを開き、 Add Photo を選んで画像をアップロードします。プロンプトの書き方は上記と同じ手順です。 引用: https://blog.google/products/gemini/photo-to-video/


より効果的なプロンプト構造(Google Cloud公式推奨)

プロンプトの構造を工夫することで、生成される映像や演出の 精度と表現力が大きく向上 します。

高品質な映像・演出を引き出す9つのプロンプト構成要素

Google Cloud の Medium 記事(著:Dr. Wafae Bakkali)では、Veo 3に適したプロンプト設計の9要素が提示されています。

以下の構造を意識することで、より正確な演出・映像・音声の生成が可能になります。

要素
① 主体(subject)a seasoned detective, a glowing orb, a miniature dragon
② 動作(action)walks slowly, laughs nervously, stares upward
③ シーン(scene)in a neon-lit alley, at dawn, surrounded by fog
④ カメラアングル(angle)low-angle shot, close-up, bird’s-eye view
⑤ カメラ動き(motion)slow pan, zoom-in, handheld shake
⑥ レンズ効果(lens)shallow depth-of-field, anamorphic, fisheye
⑦ 映像スタイル(style)cinematic, anime-style, vintage sepia
⑧ 時間表現(tempo)slow motion, timelapse, pulsing rhythm
⑨ 音声(audio)wind rustling, soft narration, distant sirens

テンプレ例:

A woman in a trench coat walks briskly through a rain-soaked street at night (scene), shot in handheld (motion), cinematic (style), with neon reflections (visual), and footsteps echoing around her (audio).

プロンプト設計の実践テクニック

画像から動画を生成する際や、精度の高いプロンプトを設計する際に押さえておきたい9つの実践的ベストプラクティスを紹介します。

  1. 高度な映画用語を活用する 例:jump cut, split diopter effect, match cut などをプロンプトに含めることで演出精度が向上。

    Prompt: A person sits in the same position but with different outfits; sharp jump cuts switch outfits instantly while lighting and framing stay consistent.

  2. 曖昧な表現を避け、明確に書く 良い例: “I want kind of a dark vibe with like… some dude” 悪い例: “Low-angle close-up of a man with a somber expression in dim lighting”

  3. セリフは引用符で囲まない(字幕化を避ける) 良い例: A girl says: Hello 悪い例 :A girl says: "Hello" ← セリフが画面に表示される恐れあり

  4. 複数のアスペクト比で出力する 16:9 → YouTubeやプレゼン資料向け 9:16 → TikTok, Instagram Reels 1:1 → SNS投稿や広告向け

  5. 1プロンプト = 1シーンに絞る 複数の場面展開を一文に詰め込むと失敗しやすい。

    以下のように分割:

    Clip 1: A detective discovers a hidden symbol inside an old book Clip 2: A car speeds through neon-lit city streets in the rain Clip 3: The detective enters a shadowy warehouse, facing a figure in silhouette

  6. Geminiを活用する 生成前:プロンプト補佐役として使う (例:この画像をもとに動きだけを指定するプロンプトを作って) 生成後:ブランドチェック・改善提案の“セカンドオピニオン”として使う

  7. 高解像度の画像を使う(画像to動画) ぼやけた画像では、描写が不明瞭になり動画品質が低下。鮮明で構図の良い素材を推奨。

  8. 動きのみにフォーカスしたプロンプトを書く(画像to動画) 被写体・背景・色彩などは画像に任せ、プロンプトでは“動き”だけを指定する。

    良い例: The subject turns slowly to the left as fog creeps in 悪い例: A woman in a red dress standing in a foggy street at night

  9. 3つの動き方を組み合わせる(画像to動画) カメラの動き → slow zoom in on the subject キャラクターの動き → her hair sways gently in the breeze 環境の動き → rain starts falling softly

避けるべき書き方(非推奨)

  • 箇条書きのような断片的プロンプト(例:girl / alley / neon / wind

  • 同じ意味を冗長に繰り返す(例:a woman in a red dress, wearing a red dress, walking in a red dress

  • キャラやシーンの描写を 画像とテキスト両方で重複 させる(特に画像-to-動画時)


公式 X 投稿やYouTubeで見る Veo 3 の実力

これらの投稿を視聴すると、 環境音とセリフがプロンプト通りに合成されている 様子が分かります。「映像+音」の完成度をまず体感してみてください。

以下のアニメーションは全編Veo3で制作されました。


まとめ

Veo 3 は「テキスト → 動画 → 音声」までワンストップで生成できる初の Google モデルです。さらに2025年7月には画像1枚からの動画生成にも対応し、表現の幅が大きく広がりました。

Pro プランの無料トライアルを利用すれば、クレジットの範囲内で 50 本前後の動画を無償体験できます。まずは Gemini アプリで気軽に試し、手応えを感じたら Flow に切り替えてシーン編集まで一気通貫で行う、これが 2025 年時点で最短の動画生成ワークフローです。