Googleは2025年8月、画像生成・編集モデル「Gemini 2.5 Flash Image」をリリースしました。Gemini 2.5 Flash Imageは「Nano Banana」というコードネーム(モデル名)でLMArena(※1)に突如現れ、その高性能ぶりからコミュニティで大きな話題となっていたモデルです(名称がちょっと長いので以降「Nano Banana」表記で統一します)。
Image generation with Gemini just got a bananas upgrade and is the new state-of-the-art image generation and editing model. 勞
From photorealistic masterpieces to mind-bending fantasy worlds, you can now natively produce, edit and refine visuals with new levels of reasoning,… pic.twitter.com/hYwA6l4QyY
— Google DeepMind (@GoogleDeepMind) 2025年8月26日
筆者も実際に触れてみて、これまでのFLUX Kontextなどと比べても頭一つ抜けた、という印象を受けました。
2025年5月に登場し、同じく昨今注目を集めるGoogleの動画生成モデル「Veo3」もまた、現時点でSOTA(State Of The Artの略。ある分野における最新かつ最高の技術水準を指す)と言ってよい性能を持ち、その出力動画のクオリティで一歩抜きんでた存在となっています。
From capturing real-world physics – like the noise and movement of water, or the look and sound of walking in snow – to lip syncing, Veo 3 is great at understanding what you want.
You can tell a short story in your prompt, and the model gives you back a clip that brings it to… pic.twitter.com/ePh3mnOQZt
— Google DeepMind (@GoogleDeepMind) 2025年5月20日
併せて単に映像を生成するだけでなく、音声統合機能をネイティブでサポートしている点もまた、革新的な部分です。
会話、BGM、効果音、そしてリップシンク(口の動きと音声の同期)といった要素を、プロンプトひとつで映像と同期させて生成できる能力は、これまでのサイレント映画の時代とでも言うべき動画生成AIのフェーズを終わらせ、没入感の高いリッチなコンテンツ制作を可能にするものだと感じさせます。