Google DeepMind, Gemini 2.5 Flash 이미지 생성 기능 업그레이드 발표

Google DeepMind가 Gemini 모델의 이미지 생성 기능을 대폭 업그레이드. 이는 새로운 최첨단 이미지 생성 및 편집 모델로, 사진 같은 사실적 이미지부터 환상적인 세계까지 생성, 편집, 정제할 수 있게 되었다. 이번 업데이트는 Gemini 2.5 Flash 버전에 적용되며, 추론 능력, 제어, 창의성이 강조 되었다.

주요 기능 개요

Gemini 2.5 Flash는 이미지 생성에서 다음과 같은 향상된 기능을 제공한다.

1. 캐릭터 일관성 (Character Consistency)

•

설명: 참조 이미지를 제공하면, 모델이 캐릭터, 주제, 또는 객체의 유사성을 유지하면서 다양한 포즈, 조명, 환경, 스타일로 새로운 이미지를 생성한다.

•

용도: 서사 중심의 작업(예: 스토리보드, 만화)에 유용하며, 더 설득력 있는 콘텐츠 제작을 지원한다.

•

예시: 동일한 캐릭터를 다른 배경에서 일관되게 재현.

2. 디자인 적용 (Design Application)

•

설명: 특정 예술 스타일, 디자인, 또는 텍스처를 한 이미지에서 다른 이미지로 쉽게 전이한다. 이전 주제의 형태와 세부 사항을 보존한다.

•

용도: 아트웍 재해석이나 브랜딩 작업에 적합.

•

예시: 한 이미지의 스타일을 다른 주제에 적용한 결과물, 예를 들어 텍스처 전이.

3. 창의적 구성 (Creative Composition)

•

설명: 단일 프롬프트로 여러 이미지의 창의적 요소를 결합한다. 최대 3개의 입력 이미지를 블렌딩하여 독창적이고 통합된 구성을 만든다.

•

용도: 복잡한 장면 생성, 예를 들어 여러 요소를 섞은 판타지 이미지.

•

예시: 여러 입력에서 요소를 추출해 새로운 장면을 합성한 이미지.

4. 실세계 추론 (Real-World Reasoning)

•

설명: 이미지에 나타난 순간의 전후 상황을 추론한다. Gemini의 논리적 기반 덕분에 가능한 기능이다.

•

용도: 시퀀스 이미지 생성, 예를 들어 사건의 연속성을 예측.

•

예시: 풍선이 선인장 쪽으로 떠가는 이미지를 기반으로 다음 시나리오(풍선 터짐)를 생성.

레퍼런스

Google DeepMind on Twitter / X

💡 Real-world reasoningThanks to Gemini’s underlying logic, 2.5 Flash can infer what happens before or after a moment shown in an image.After generating the first visual of a balloon floating towards a cactus, we asked it to imagine the next possible scenario ↓ pic.twitter.com/aS7ItOYsKX— Google DeepMind (@GoogleDeepMind) August 26, 2025

https://x.com/GoogleDeepMind/status/1960342349785022775

Image editing in Gemini just got a major upgrade

Transform images in amazing new ways with updated native image editing in the Gemini app.

https://blog.google/products/gemini/updated-image-editing-model/?utm_source=x&utm_medium=&utm_campaign=&utm_content=

기술적 성능 및 벤치마크

•

이 모델은 이미지 편집 벤치마크에서 171 ELO 포인트 앞서는 성과를 보이며, 이미지 편집 분야의 획기적 발전으로 평가된다.

ELO 시스템이란?

•

개요: ELO는 원래 체스 등 게임에서 선수들의 상대적 실력을 측정하는 rating 시스템이다. AI 벤치마크, 특히 LMArena(구 LMSYS Chatbot Arena)에서 모델 간 비교에 사용된다. 이미지 편집 분야에서는 사용자 투표를 기반으로 모델의 성능을 순위화한다.

•

적용 분야: LMArena의 Image Edit Arena는 텍스트-이미지 생성 모델(예: DALL-E, Flux 등)을 대상으로 한다. 사용자 프롬프트에 따라 모델이 이미지를 생성/편집하고, 이를 비교한다.

•

왜 ELO를 사용하나?: 페어와이즈 비교(두 모델의 결과를 익명으로 보여주고 투표)에 적합하며, 실시간 사용자 선호도를 반영해 모델 점수를 업데이트합니다. 더 많은 투표가 쌓일수록 정확도가 높아진다.

LMArena Image Edit Arena의 작동 방식

•

배틀(Battle) 과정:

사용자가 프롬프트를 입력한다. (예: "이미지에서 배경을 변경해.")

두 모델이 익명으로 결과를 생성한다. (A 모델 vs B 모델)

사용자가 더 나은 결과(품질, 정확성, 창의성 등)를 투표하거나 동점으로 처리한다.

투표 결과로 ELO 점수가 조정됩니다. 승리 시 점수 상승, 패배 시 하락한다.

•

평가 기준: 이미지의 사실성, 프롬프트 준수도, 편집 정교함 등을 주관적 사용자 판단으로 측정. 이는 "wild" 벤치마크로, 실제 사용 시나리오를 반영한다.

•

리더보드 예시 (2025년 8월 26일 기준 스크린샷 기반):

◦

1위: Gemini-2.5-Flash-Image-Preview (nano-banana) - ELO 1362 (±2)

◦

2위: Flux-1-Kontext-Max - ELO 1191 (±3)

◦

차이: 1362 - 1191 = 171 ELO 포인트

lmarena.ai

https://lmarena.ai/leaderboard/image-edit

사용 방법

•

접근: Gemini 앱(@GeminiApp) 또는 Google AI Studio에서 바로 시도할 수 있다.

•

링크: 공식 블로그에서 자세한 가이드 확인.

•

주의: 현재는 미리보기 버전으로, 지속적인 업데이트가 예상된다.

테스트

스타일 변경

Change it to an ID picture.

의상 변경

Change it to a white blouse.

정면에서 반 측면 모습으로 전환

Change it to a half-sided appearance.

원본 반측면 이미지와 생성된 반 측면 이미지의 비교

완전 측면으로 의 변환

Change the direction of the woman's face in the picture to the complete side.

조명의 변환(역광)

Turn the light in the picture into a backlight

작은 디테일의 변환(시선 방향)

Change the direction of the woman's gaze in the picture.

작은 디테일의 변환(헤어 스타일)

Change the woman's hairstyle in the picture to a short bob.

두 인물의 합성

Change it to a picture of two characters together.