このガイドのゴール
読み終えると、Google Veo 3.1で音声つきの短尺動画(SNS用・商品紹介用)を1本、自分の手で生成してダウンロードできます。所要時間の目安:30〜60分(初回登録込み)。コード不要、動画編集の経験も不要です。情報は2026年6月時点のものです。
前提・準備:Googleアカウント(無料)。本格的に使う場合はGoogle AI Pro/Ultraプランまたは有料APIアクセスが必要です(後述)。題材は架空カフェ「陽だまり珈琲」の15秒SNS動画を例に使います。
目次
- Veo 3.1とは(結論:誰向け・何ができる・いくら)
- 料金プラン(Fast / Standard / Flow の違い)
- STEP 1|アカウント登録・アクセス方法
- STEP 2|日本語でコンセプトを固める
- STEP 3|英語プロンプトに変換する(ChatGPT活用)
- STEP 4|Veo 3.1で生成する(実プロンプト付き)
- STEP 5|反復で品質を上げる(Draft→Review→Tweak)
- STEP 6|ダウンロード・共有
- 音声生成を活かす(Veo 3.1の最大の武器)
- 稼ぎ方:SNS運用代行・広告クリップ・受注へ
- つまずきと注意点
- 完成チェックリスト
- FAQ
- まとめ:次の一歩
Veo 3.1とは(結論:誰向け・何ができる・いくら)
Google Veo 3.1は、Google DeepMindが開発した動画生成AIです。2026年時点で最も注目される特徴はネイティブ音声生成——環境音・話し声・BGMをプロンプト一本で映像と同時に生成できる唯一級のモデルです。Soraが2026年4月に提供終了した今、AI動画の総合本命として位置づけられています。
- 誰向け:SNS動画・広告クリップ・商品紹介動画を作りたい人。コスト効率より品質・音声を優先したい人。
- 何ができる:最大4K動画の生成、環境音・ナレーション・BGMの同時生成、高いプロンプト準拠性(指示どおりに動く)。
- いくら:API経由でFast $0.09/秒・Standard $0.18/秒(音声込み)。Google AI Pro/UltraプランまたはVeo 3.1ツール詳細を参照。
ライバルとの住み分け:Kling 3.0はコスパ最強(約$0.03/秒〜)、Runwayはカメラ移動などプロ向け制御が強み。Veo 3.1は音声込みの高品質一発生成が必要な案件に向きます。詳しい比較はAI動画ツール比較へ。
料金プラン(Fast / Standard / Flow の違い)
Veo 3.1へのアクセス経路は主に3つ。金額・クレジット量・機能境界は改定が早いので、必ず公式で最新を確認してください(下表は2026年6月時点の概算)。
| アクセス方法 | 料金目安 | 特徴 | 向き |
|---|---|---|---|
| Google AI Pro | 月額$19.99前後(要公式確認) | Flow UIから利用可。生成枠に上限あり | 個人・月数本の試用 |
| Google AI Ultra | 月額$249.99前後(要公式確認) | より高い生成枠・優先アクセス | 頻繁に使う個人・小規模受託 |
| API Fast | $0.09/秒(音声込み) | 高速生成。自動化・量産向き | 受託・ワークフロー組み込み |
| API Standard | $0.18/秒(音声込み) | 最高品質。重要案件に | 高単価納品・広告素材 |
例:15秒の動画をAPI Standardで生成すると約$2.70。月に20本生成すれば約$54。受注単価と比較して原価を把握しておきましょう。
STEP 1|アカウント登録・アクセス方法
- Google DeepMind公式(Veo)にアクセスし、Googleアカウントでサインイン。
- UI利用ならGoogle AI Studio(aistudio.google.com)またはFlowから「Veo」を選択。APIならGoogle Cloud / Vertex AI経由でアクセスキーを取得。
- プランを確認し、必要ならPro/UltraにアップグレードまたはAPIの請求を有効化する。
- 最初はAI Studioの無料枠(生成数・秒数に制限あり)で操作感を試すのがおすすめです。
準備のコツ:生成したい動画のイメージ(シーン・雰囲気・使用目的)を日本語でメモしておくと次のSTEPがスムーズです。
STEP 2|日本語でコンセプトを固める
いきなり英語プロンプトを書こうとすると詰まります。まず日本語で「何を見せたいか」を箇条書きにしましょう。陽だまり珈琲の例:
- シーン:カフェのカウンターに置かれたラテアート入りカップ。朝の柔らかい光が差し込む
- 動き:湯気がゆっくり立ち上り、カップ横にクロワッサンが置かれる
- 音:カフェの環境音(食器の音、遠くのBGM)、ゆったりしたジャズ
- 尺・用途:15秒、Instagramリール用
- 雰囲気:温かみ・上品・ゆったり
この5項目を埋めれば英語プロンプトの材料が揃います。「動き」と「音」を具体的に書くのがVeo 3.1の性能を引き出すコツです。
STEP 3|英語プロンプトに変換する(ChatGPT活用)
Veo 3.1は英語プロンプトの方が精度が高い傾向があります。ChatGPT(または任意のLLM)に翻訳・整形を任せましょう。
ChatGPTへ渡すプロンプト(コピペ用):
次の動画コンセプトを、Veo 3.1向けの英語プロンプトに変換してください。映像描写・カメラワーク・音声・雰囲気を具体的に含め、150語以内にまとめてください。コンセプト:[上記の箇条書きを貼り付ける]
出てくる英語プロンプトの例:
A close-up shot of a latte art cup placed on a wooden cafe counter. Soft morning light streams through a window, casting warm golden rays. Gentle steam rises slowly from the cup. A fresh croissant is placed beside it with a quiet clink. Ambient cafe sounds: distant jazz piano, soft clinking of dishes. Camera holds still, slight rack focus from cup to croissant. Warm, intimate, unhurried. 15 seconds.
生成されたプロンプトを確認し、意図と違う箇所があれば修正してからVeoに渡します。
STEP 4|Veo 3.1で生成する(実プロンプト付き)
- AI Studio / Flow の動画生成画面を開き、テキストボックスに英語プロンプトを貼り付ける。
- 生成設定を確認:尺(秒数)、アスペクト比(16:9 / 9:16)、品質モード(Fast / Standard)。SNS縦型ならアスペクト比9:16。
- 「Generate」を実行。生成時間はFast設定で数十秒〜1分程度(要公式確認)。
- 生成されたプレビューを確認。複数のバリエーションが出る場合は好みのものを選ぶ。
音声確認が重要:Veo 3.1は映像と音声を同時生成します。必ずスピーカー/ヘッドフォンで音声もチェックしてください。プロンプトに音声の指示が無いと環境音が自動生成されます。
STEP 5|反復で品質を上げる(Draft→Review→Tweak)
一発で完璧を狙わない。Draft→Review→Tweak→Re-generateのサイクルで仕上げます。
- 映像が意図と違う:プロンプトに「camera stays static」「no quick cuts」など制約を追加。
- 音が合わない:
soft jazz background, no vocals, cafe ambience with quiet dish soundsのように音声描写を詳細化。 - 動きが速すぎる:
slow and gentle movement, unhurried paceを明示。 - 光量・色味:
warm golden hour lighting, soft shadowsなど撮影条件を英語で追記。
コツ:1回のプロンプト修正は1〜2要素まで。変えた要素とその効果を手元にメモしておくと、次の案件でも使い回せる「自分のプロンプト資産」になります。
STEP 6|ダウンロード・共有
- 気に入った動画のダウンロードボタン(UI上のDLアイコン)をクリック。MP4形式で保存。
- API利用の場合は生成後のレスポンスURLからMP4を取得、またはGCSバケットに保存。
- SNS直接投稿の場合はプラットフォームの推奨仕様(Instagram Reels: 最大60秒、MP4 H.264推奨等)に合わせてリサイズ・圧縮。
- クライアント納品の場合は商用利用の確認(次章)を済ませてから渡す。
音声生成を活かす(Veo 3.1の最大の武器)
他のAI動画ツールとVeo 3.1を分けるのがネイティブ音声生成です。環境音・声・BGMをプロンプト単体で生成するため、別途DAWや音源を用意する手間がないのが強みです。
- 環境音の指定例:
busy coffee shop background noise, espresso machine sounds, light chatter - ナレーション(英語)の指定例:
warm female voiceover saying "Start your morning right."(日本語ナレーションの精度は要確認) - BGMの指定例:
gentle acoustic guitar melody, no drums, relaxed tempo - 無音にしたい場合:
no audio, silentを明示しないと環境音が入ることがあります。
音声の商用利用・権利についてはVeo 3.1の利用規約を必ず確認してください(AI生成音声の扱いは変動が早い分野です)。
稼ぎ方:SNS運用代行・広告クリップ・受注へ
Veo 3.1で作った動画をどう収益につなげるかを整理します。「動画を作れる」は価値ですが、受注方法・単価の決め方は別スキルです。
- SNS運用代行:飲食店・美容室・小売などに月額で動画を納品。月3〜8本の短尺動画を提供するパッケージが組みやすい。単価は規模による——詳細は受注ガイドへ。
- 広告クリップ制作:EC事業者・スタートアップ向けに商品紹介動画を単発受注。1本あたりの単価は内容・修正回数・納期による(目安は断定しません)。
- 自社コンテンツへの活用:自分のXやInstagramで発信し、問い合わせを獲得するルートも。
受注フロー全体(ヒアリング→台本→生成→編集→納品)はAI動画受注ワークフローでまとめています。動画AIのプランページも参考に。
つまずきと注意点
- プロンプト準拠性のズレ:細かい動きの指示は英語で具体的に書く。「ゆっくり」「静かに」は
slowly・gently・at a relaxed paceと英語で明示。 - 生成枠の消費が予想外に早い:Pro/Ultraプランには月間の生成数上限があります(要公式確認)。API課金の場合は使用量アラートを設定しましょう。
- 商用利用の確認は必須:有料プランでも商用利用可否・追加条件はVeo利用規約で確認してください。クライアントへの納品前に確認する習慣を。
- 日本語ナレーションの品質:英語音声は高精度ですが、日本語ナレーションは現時点では精度が変動します。要確認・要テスト。
- 4K生成のファイルサイズ:4K出力は容量が大きくなります。SNS用途なら1080pで十分な場合が多い。
完成チェックリスト(納品・投稿前)
- ☐ 映像がプロンプトの意図どおりに動いている
- ☐ 音声(環境音・BGM)が映像と合っている、不自然な切れ目がない
- ☐ 尺・アスペクト比がプラットフォーム仕様に合っている
- ☐ 不要な透かし・ウォーターマークがない(プランによる)
- ☐ 商用利用の規約確認済み(有料プランかつ規約OK)
- ☐ クライアント案件なら修正回数・権利範囲を事前合意済み
- ☐ ファイル形式・画質がクライアントの要件を満たしている
FAQ
無料で試せる?
Google AI Studioに無料枠がありますが、生成数・秒数に制限があります。まず無料で操作感をつかみ、継続利用するならProプランの費用対効果を試算しましょう。
日本語プロンプトでも動く?
日本語でも動作しますが、英語プロンプトの方が精度が安定する傾向があります。STEPで紹介した「日本語でコンセプト→LLMで英語化」のフローが現時点では再現性が高いです。
Kling 3.0やRunwayとどう使い分ける?
音声込みの高品質動画が必要な場合はVeo 3.1、とにかくコスパ重視で量産するならKling 3.0、カメラ移動など細かい制御が必要ならRunwayが向きます。詳しくはツール比較へ。
生成した動画の著作権は?
現時点ではVeo利用規約に従います。商用利用・二次利用の条件は規約で確認し、クライアントにも説明できる状態にしておいてください。
情報はいつのもの?
2026年6月時点です。料金・機能・規約は変わるので、重要な判断は常に公式で最新情報を確認してください。
まとめ:次の一歩
Veo 3.1は音声つき高品質動画を一発生成できる現時点の最有力ツールです。プロンプトの型(日本語コンセプト→英語化→生成→反復)を一度手になじませれば、再現性のある動画制作ができます。コスパ優先で量産したい場合はKling 3.0の使い方、受注から納品までの全体フローはAI動画受注ワークフローへ。AI動画プランでは受注テンプレ・プロンプト集もまとめています。出典:Google DeepMind Veo公式。情報は2026年6月時点のものです。