Gemini Omniが本当に「使える」のは、ここだった

― 生成より“編集”で化ける、Googleの新しい動画AI

5月 21, 2026

先日開催されたGoogle I/O 2026で、Googleの新しい動画生成モデル Gemini Omni が発表されました！第一弾が「Gemini Omni Flash」で、Geminiアプリ・Google Flowなどに順次入ってきています。

SNSではまず「動画の中に文字がきれいに出るようになった！」という話題が先行しました。既存の動画にテロップを入れるなどの編集作業ができるようになりました！

この記事では「文字」「動画編集（Video to Video）」「弱点」「料金」の順に、話していきます！

最後に、ぼくなりの「じゃあどう使うのがいいの？」もまとめます。

そもそもGemini Omniってなんなの？

Googleはこれを単なる動画生成ツールではなく「ワールドモデル（世界モデル）」と呼んでいます。

テキスト・画像・音声・動画をまとめて入力として受け取り、それらを“つなぎ合わせる”のではなく“理解して”ひとつの動画として出力する、という発想です。

ポイントになるのが 会話で編集できる（conversational editing） という設計。

タイムラインやレイヤーをいじるのではなく、

「背景の人を消して」

「ライティングを暖かくして」

「ナレーションを女性の声に変えて」

みたいに、言葉で指示して直していけます。

しかもキャラクターや物理挙動、前の編集内容が、何ターン編集してもある程度キープされる、というのが売りです。

入力できる素材は縦・横どちらもOK、長さは最大10秒まで（Flashの場合）

まずは「動画」から始まり、今後は画像や音声の出力にも広がっていく予定とのことです。

進化ポイント① 動画に「文字」がきれいに乗る

一番わかりやすい進化がこれです。

日本語のテキストが、動画の中にかなりきれいに収まるようになりました。

こんな感じで漢字などもしっかり表記されています。

得意なパターン／苦手なパターンがハッキリ分かれているので、ここを押さえておくとハズレを引きにくくなります。

得意なこと

1〜2行くらいの固定テキストを動画に乗せる（テロップなどはかなり安定）
解説アニメ＋日本語字幕。たとえば「コーヒーの効果」みたいな10分解説系の素材は、字幕付きでかなり実用レベルのものが出てくる
インフォグラフィック動画。「○○の仕組みをステップで解説するインフォグラフィックを動画で」みたいな指示で、文字付きの説明動画をいい感じに組んでくれます

苦手なこと

リアルタイムに文字を書いていく動き（鉛筆で書く、タイプライターで打つ系）は、まだ途中でおかしくなりがち
画面に文字をギチギチに詰め込むと、文字化け・つぶれが多発する。細かい文字はまだダメ

要するに「動いて生成される文字」より「置いてある文字」が得意。

1〜2行・固定、を意識して作ると成功率が上がります。

とはいえガチャ要素は残っているので、うまくいくまで何回か回す前提でいきましょう。

なお音声はまだ個人的に微妙です。

字幕と映像はいいので、ナレーションだけ後から差し替える運用が現実的です。

進化ポイント② 本命は「Video to Video」=編集

ここが本題です。実は単体の動画生成（テキストから0→1で作る力）は、正直「普通」というのが正直な意見です。

速い動きの描写はまだ苦手、アニメの描写も得意とは言えず、純粋な生成力ならSeedance 2.0のほうができることが多いです。

ところがVideo to Video＝アップロードした動画をAIがさらに編集してくれる能力、これが頭ひとつ抜けています。

わかりやすく言うと「Nano Bananaの動画版」

画像を自在に編集できたあの感覚が、そのまま動画に来た、というイメージです。

例えばこの動画が

こんな感じのVlog風動画にも変わります。

テロップや他の部分も編集されて大きく変わっています。

つまりGemini Omniの真価は、0→1で何かを生み出すより、あらかじめ用意した素材をうまく編集できることにあります。

ここから見えてくる相性のいい使い方：

顔出ししたくないけど発信したい人が、自分でVlogを撮っておいて、後から人物の“ガワ”だけ変える
VTuberさんやVlogクリエイターが、実写素材をベースに世界観を変える
実際にカメラで撮っている映像制作者が、CG・VFX的な加工レイヤーとして使う

「生成AIっぽさ」を抑えつつ、自分のオリジナル素材が起点になるので、まるっとAI生成の動画より一段自分のものにしやすいのも良いところです。

正直な弱点・注意点

期待しすぎて「微妙……」とならないために、ここは正直に。

単体生成は普通。速い動き・アニメ表現は苦手寄り。ここを狙うなら他モデルのほうが強い場面も多い
Video to Videoの再現性はまだ不安定。きれいに化ける時とそうでない時がある
シーン・カメラがガラッと変わってしまうことがある（写真＋手書き文字を動かしたら、文字以外の世界が別物になった、など）
人物の表現はSeedance系などと比べるとやや劣る。
全体的にガチャ要素は健在。プロンプト依存も強いので、何回か回す前提

おおまかに「編集ツールとして使うなら研究する価値あり／単体生成器として期待すると肩透かし」という温度感です。

料金とどこで使えるか

使える場所：Geminiアプリ／Google Flow／YouTube Shorts・YouTube Create
対象：Google AI Plus・Pro・Ultraの加入者
国によってはVideotoVideoなど一部機能に制限がある場合あり
Proプラン（月2,900円前後）だと3回ほど生成すると一旦ストップ、1〜2時間ほどで回復
Google AI Ultra（月14,500円前後）にすると6〜7回程度まで生成でき、見える透かしも消える

リリース直後で混んでいる影響もありそうなので、回数まわりは今後ゆるむ可能性があります。

ちなみに、Geminiに課金していれば同じアカウントでFlowも使えます。

動画づくりがメインなら、UIがわかりやすいFlow側で使うほうが良い、という声も多いです。

おまけ：地味に増えた周辺機能

音楽生成：歌詞を入れると曲にしてくれる。日本語はかなり自然。ただし長さは30秒程度まで、クオリティは「絶妙にダサい」との辛口評価も（笑）。要研究
AIアバター：自分の声と見た目の“デジタル分身”を作って動画化できる
NotebookLM連携：そのままチャットできるように
エージェント機能（Gemini Spark）：Nanobanana＋Omniなどを使って一貫した生成をまとめてやってくれる方向性

まとめ

Gemini Omniは「すごい動画を一発で生み出す」というものではありません。

そこに期待すると、たぶん肩透かしを食らいます。(個人的にSeedance2.0の方がいい…)

Gemini Omniは編集が得意！という認識で問題ないと思います！

自分で撮った素材、自分で用意した動画を起点に、「ここをこう変えて」と会話しながら仕上げていく。そう捉えた瞬間に、めちゃくちゃクリエイティブな道具になります。

顔出ししたくない発信者、Vlogやショートを作っている人、実写を撮っている人ほど刺さるはず。

0→1で完璧を狙うより、自分の素材を持ち込んで“編集”する。

これが今いちばん使える使い方だと思います。

ぼく自身もキャラクターの一貫性を保った動画づくりをずっと研究してきましたが、「自分の素材×AI編集」という流れは、まさにこれから伸びる方向。

一緒に試しながら、いい使い方を見つけていきましょう。

【期間限定】RAML（らむる）が今だけ募集中です

この記事で書いた「自分の素材×AI編集」って、ひとりで黙々とやると正直しんどいんですよね。

うまくいかない時にすぐ聞ける相手がいるかどうかで、続くか・楽しめるかが全然変わってきます。

ぼくが主宰しているRAML（らむる）は、まさに AIで画像・動画をゼロから作って、SNSで一緒に育てていくコミュニティです。

「一緒に手を動かして、一緒に伸ばしていく場所」。

Gemini Omniみたいな新しいツールも、出るたびにみんなで触って・検証して、使えるワークフローに落とし込んでいきます。

そんなRAMLが、いま期間限定で新規メンバーを募集中です。

気になっている方はこのタイミングでぜひのぞいてみてください。

▼詳細・参加はこちら

[https://grand-monstera-bcbb9f.netlify.app/]

募集は 【5月23日まで】の期間限定 です。

「AI気になるけど、自分にできるかな……」という人にこそ来てほしい場所です。

一緒にやりましょう！

それではまた！れんとんでした！

このポストについてのディスカッション

もっと続けますか？