Search

Google DeepMind, Gemini 2.5 Flash 이미지 생성 기능 업그레이드 발표

Google DeepMind가 Gemini 모델의 이미지 생성 기능을 대폭 업그레이드. 이는 새로운 최첨단 이미지 생성 및 편집 모델로, 사진 같은 사실적 이미지부터 환상적인 세계까지 생성, 편집, 정제할 수 있게 되었다. 이번 업데이트는 Gemini 2.5 Flash 버전에 적용되며, 추론 능력, 제어, 창의성이 강조 되었다.

주요 기능 개요

Gemini 2.5 Flash는 이미지 생성에서 다음과 같은 향상된 기능을 제공한다.

1. 캐릭터 일관성 (Character Consistency)

설명: 참조 이미지를 제공하면, 모델이 캐릭터, 주제, 또는 객체의 유사성을 유지하면서 다양한 포즈, 조명, 환경, 스타일로 새로운 이미지를 생성한다.
용도: 서사 중심의 작업(예: 스토리보드, 만화)에 유용하며, 더 설득력 있는 콘텐츠 제작을 지원한다.
예시: 동일한 캐릭터를 다른 배경에서 일관되게 재현.

2. 디자인 적용 (Design Application)

설명: 특정 예술 스타일, 디자인, 또는 텍스처를 한 이미지에서 다른 이미지로 쉽게 전이한다. 이전 주제의 형태와 세부 사항을 보존한다.
용도: 아트웍 재해석이나 브랜딩 작업에 적합.
예시: 한 이미지의 스타일을 다른 주제에 적용한 결과물, 예를 들어 텍스처 전이.

3. 창의적 구성 (Creative Composition)

설명: 단일 프롬프트로 여러 이미지의 창의적 요소를 결합한다. 최대 3개의 입력 이미지를 블렌딩하여 독창적이고 통합된 구성을 만든다.
용도: 복잡한 장면 생성, 예를 들어 여러 요소를 섞은 판타지 이미지.
예시: 여러 입력에서 요소를 추출해 새로운 장면을 합성한 이미지.

4. 실세계 추론 (Real-World Reasoning)

설명: 이미지에 나타난 순간의 전후 상황을 추론한다. Gemini의 논리적 기반 덕분에 가능한 기능이다.
용도: 시퀀스 이미지 생성, 예를 들어 사건의 연속성을 예측.
예시: 풍선이 선인장 쪽으로 떠가는 이미지를 기반으로 다음 시나리오(풍선 터짐)를 생성.

레퍼런스

기술적 성능 및 벤치마크

이 모델은 이미지 편집 벤치마크에서 171 ELO 포인트 앞서는 성과를 보이며, 이미지 편집 분야의 획기적 발전으로 평가된다.

ELO 시스템이란?

개요: ELO는 원래 체스 등 게임에서 선수들의 상대적 실력을 측정하는 rating 시스템이다. AI 벤치마크, 특히 LMArena(구 LMSYS Chatbot Arena)에서 모델 간 비교에 사용된다. 이미지 편집 분야에서는 사용자 투표를 기반으로 모델의 성능을 순위화한다.
적용 분야: LMArena의 Image Edit Arena는 텍스트-이미지 생성 모델(예: DALL-E, Flux 등)을 대상으로 한다. 사용자 프롬프트에 따라 모델이 이미지를 생성/편집하고, 이를 비교한다.
왜 ELO를 사용하나?: 페어와이즈 비교(두 모델의 결과를 익명으로 보여주고 투표)에 적합하며, 실시간 사용자 선호도를 반영해 모델 점수를 업데이트합니다. 더 많은 투표가 쌓일수록 정확도가 높아진다.

LMArena Image Edit Arena의 작동 방식

배틀(Battle) 과정:
1.
사용자가 프롬프트를 입력한다. (예: "이미지에서 배경을 변경해.")
2.
두 모델이 익명으로 결과를 생성한다. (A 모델 vs B 모델)
3.
사용자가 더 나은 결과(품질, 정확성, 창의성 등)를 투표하거나 동점으로 처리한다.
4.
투표 결과로 ELO 점수가 조정됩니다. 승리 시 점수 상승, 패배 시 하락한다.
평가 기준: 이미지의 사실성, 프롬프트 준수도, 편집 정교함 등을 주관적 사용자 판단으로 측정. 이는 "wild" 벤치마크로, 실제 사용 시나리오를 반영한다.
리더보드 예시 (2025년 8월 26일 기준 스크린샷 기반):
1위: Gemini-2.5-Flash-Image-Preview (nano-banana) - ELO 1362 (±2)
2위: Flux-1-Kontext-Max - ELO 1191 (±3)
차이: 1362 - 1191 = 171 ELO 포인트

사용 방법

접근: Gemini 앱(@GeminiApp) 또는 Google AI Studio에서 바로 시도할 수 있다.
링크: 공식 블로그에서 자세한 가이드 확인.
주의: 현재는 미리보기 버전으로, 지속적인 업데이트가 예상된다.

테스트

스타일 변경

Change it to an ID picture.

의상 변경

Change it to a white blouse.

정면에서 반 측면 모습으로 전환

Change it to a half-sided appearance.

원본 반측면 이미지와 생성된 반 측면 이미지의 비교

완전 측면으로 의 변환

Change the direction of the woman's face in the picture to the complete side.

조명의 변환(역광)

Turn the light in the picture into a backlight

작은 디테일의 변환(시선 방향)

Change the direction of the woman's gaze in the picture.

작은 디테일의 변환(헤어 스타일)

Change the woman's hairstyle in the picture to a short bob.

두 인물의 합성

Change it to a picture of two characters together.