Googleは2025年8月、画像生成・編集モデル「Gemini 2.5 Flash Image」をリリースしました。Gemini 2.5 Flash Imageは「Nano Banana」というコードネーム(モデル名)でLMArena(※1)に突如現れ、その高性能ぶりからコミュニティで大きな話題となっていたモデルです(名称がちょっと長いので以降「Nano Banana」表記で統一します)。
Image generation with Gemini just got a bananas upgrade and is the new state-of-the-art image generation and editing model. 🤯
From photorealistic masterpieces to mind-bending fantasy worlds, you can now natively produce, edit and refine visuals with new levels of reasoning,… pic.twitter.com/hYwA6l4QyY
— Google DeepMind (@GoogleDeepMind) 2025年8月26日
筆者も実際に触れてみて、これまでのFLUX Kontextなどと比べても頭一つ抜けた、という印象を受けました。
2025年5月に登場し、同じく昨今注目を集めるGoogleの動画生成モデル「Veo3」もまた、現時点でSOTA(State Of The Artの略。ある分野における最新かつ最高の技術水準を指す)と言ってよい性能を持ち、その出力動画のクオリティで一歩抜きんでた存在となっています。
From capturing real-world physics – like the noise and movement of water, or the look and sound of walking in snow – to lip syncing, Veo 3 is great at understanding what you want.
You can tell a short story in your prompt, and the model gives you back a clip that brings it to… pic.twitter.com/ePh3mnOQZt
— Google DeepMind (@GoogleDeepMind) 2025年5月20日
併せて単に映像を生成するだけでなく、音声統合機能をネイティブでサポートしている点もまた、革新的な部分です。
会話、BGM、効果音、そしてリップシンク(口の動きと音声の同期)といった要素を、プロンプトひとつで映像と同期させて生成できる能力は、これまでのサイレント映画の時代とでも言うべき動画生成AIのフェーズを終わらせ、没入感の高いリッチなコンテンツ制作を可能にするものだと感じさせます。
これらの最新モデルが広告・映像制作業界にもたらす影響は計り知れません。キャラクターの一貫性や精密な編集、音声付き動画の高速生成といった機能は、企画から制作、デリバリーに至るまでのワークフローを効率化し、クリエイターがより本質的な創造活動に集中できる環境を提供します。
これらの技術は単なる効率化ツールに留まらず、クリエイティブ表現そのものの可能性を拡張する、まさにゲームチェンジャーとなり得ると感じさせられます。
※1 LMArena(https://lmarena.ai)
各種生成AIについて、ブラインドテストで性能を比較・評価するプラットフォーム。将棋やチェスのランキングでも使われる、Eloレーティングという方式を採用しており、ユーザーが生成したプロンプトに対する各モデルの出力を匿名で評価し、ランキングを算出している。
従来の画像生成AIの「別人問題」を解決
「Nano Banana」のデモンストレーションから。同一キャラクターの多角的展開が容易になった。
Nano Bananaの最大のブレイクスルーは、従来の画像生成AIが抱えていた「別人問題」、すなわち複数枚の画像で同一キャラクターやオブジェクトの一貫性を保つことの困難さを克服した点にあるでしょう。
これまでのモデルでは、同じキャラクターで異なるポーズや背景の画像を生成しようとすると、顔立ち、髪型、服装の細部が微妙に変化し、統一感のあるシリーズ制作が困難でした。
これは特にブランドキャンペーンやIPキャラクター展開において深刻なペインポイントであり、手作業による修正や再生成の繰り返しがクリエイティブのボトルネックとなっていたのです。
これまでにもFLUX KontextやGPT-4o-Image-generation(現GPT-image-1)など、同一キャラクターの一貫性をある程度保つことができるモデルは存在しましたが、いくつかの制約がありました。どちらのモデルも生成速度が遅いこと、そして細部のディテールや表現力については、まだ改善の余地があることがネックでした。
Nano Bananaは、この「一貫性の欠如」という課題を、独自の「局部概念遮罩(Local Concept Masking)」と呼ばれる技術と先進の埋め込み(embedding)技術によって、極めて高い精度で克服しました。
デモンストレーション事例として、チェスの駒を持つ女性がカーレーサーの衣装を着たり、アーチェリーをする姿が、顔立ちや特徴を保ったまま再現されています。これにより、宇宙飛行士の猫が月面を歩く姿や、プロフィール写真の人物の髪型や服装だけを変えるといった、同一キャラクターの多角的な展開が容易になる、というわけです。
これは、ストーリーテリングやブランディングにおいて、これまで時間を要していたプロセスを劇的に簡略化する可能性を秘めていると言えます。
自然言語による精密な部分編集も、Nano Bananaの強力な機能のひとつです。プロンプトで「背景を暗く」「服の色を赤に」といった具体的な指示を与えるだけで、マスク指定なしで直感的に画像を修正できます。さらに、複数の入力画像を結合する「マルチイメージフュージョン」機能も備えており、例えばベッドルームの画像にスタンドライトの画像を追加し、自然に配置するといった操作も可能です。
また、カメラアングルに対する高度な制御も実現しており、同じシーンを異なる視点から描写することができます。これにより、クリエイターは一つのコンセプトから多様なビジュアルバリエーションを迅速に生成できるようになります。
公式のデモンストレーションから。
生成画像のクオリティだけでなく、競合と比較して大幅に短い時間で編集結果を生成し、テキストのみからの画像生成も平均3~5秒という処理速度の向上は、実務において試行錯誤のサイクルを劇的に短縮し、クリエイターがより多くのアイデアを具現化できるという、計り知れないインパクトを与えることでしょう。まさに「ポストPhotoshop」の世界に一歩近づいた、と言えるかもしれません。

