nano-banana

Grok Imagene

Google Nano-banana

nano-banana는 LMArena 플랫폼에서 발견된 출처 미상의 이미지 생성 및 편집 AI 모델로, 레딧과 X(트위터) 등 SNS를 통해 화제가 됨. 공식 발표나 개발사 정보는 없으며, 커뮤니티 추측에 따르면 Google(Imagen/Gemini)에서 개발한 비공개 모델로 추측하고 있다.

구글이 8월 20일에 열리는 "Made by Google" Pixel 이벤트를 앞두고 다양한 AI 업데이트를 준비하고 있는데 GEMPIX (제미니 픽셀?) 이미지 생성 업그레이드가 제미니 출시를 위해 준비 중이라고 한다. 이는 LM Arean의 nano-banana 모델과 관련이 있을 수 있다.

주요 특징:

• 성능: 뛰어난 프롬프트 충실도와 공간 이해 능력, 텍스트 기반 이미지 편집 가능. Imagen 4나 GPT-Image-1 같은 최상위 모델과 비교되며, 자연스러운 이미지 생성에 강점을 보임.

• 약점: 작은 글자나 세부 텍스트의 왜곡 문제 존재.

• LMArena: LMSYS 운영의 공개 벤치마크 플랫폼으로, 사용자가 두 모델의 결과를 비교·투표하며 순위를 매긴다. ‘나노 바나나’는 https://lmarena.ai/ 에서 무작위로 테스트 가능하다.

LMArena란

LMArena는 대규모 언어 모델(LLM)을 평가하고 비교하는 오픈 플랫폼으로, UC 버클리 연구자들에 의해 개발되었다. 사용자는 두 개의 익명화된 AI 모델에 프롬프트를 입력하고, 더 나은 응답을 제공한 모델에 투표하여 공개 리더보드를 형성한다. 이 과정은 투명하고 커뮤니티 주도의 AI 평가를 목표로 하며, 현재까지 350만 이상의 투표가 이루어졌다.

주요 특징:

익명화된 쌍대 비교: 사용자는 두 AI 모델의 응답을 비교하고 선호하는 응답에 투표합니다. 투표 후 모델의 정체가 공개된다.

다양한 평가 영역: 텍스트 생성( Text Arena), 텍스트-이미지 생성(Text-to-Image Arena), 텍스트-비디오 생성(Text-to-Video Arena), 검색 강화 모델(Search Arena) 등 다양한 벤치마크를 제공한다.

공개 데이터셋: LMArena는 세계 최대의 생성 모델에 대한 인간 선호도 데이터셋을 오픈소스로 제공하며, 연구자들이 이를 활용해 AI 성능을 분석할 수 있도록 돕는다.

리더보드: 사용자 투표를 바탕으로 모델 순위를 매기며, GPT-4o, Claude, Gemini 등 주요 모델과 프리릴리스 모델의 성능을 비교한다.

커뮤니티 중심: 전 세계 사용자의 피드백을 통해 AI 모델 개발에 기여하며, 투명성과 공정성을 강조한다.

한계 및 논란:

•

일부 학술 분석에서 LMArena의 평가 방법론의 한계가 지적되었으며, 투표 조작 가능성 등 개선 필요성이 제기되었다. 이에 따라 플랫폼은 지속적으로 방법론을 업데이트하고 있다.

영향:

LMArena는 AI 모델의 실세계 성능을 인간의 판단을 통해 평가함으로써, 학술 테스트가 아닌 실제 대화에서의 성능을 이해하는 데 기여한다. 주요 기업들이 자사 모델(예: DeepSeek의 R1 프로토타입)을 테스트하고 홍보하는 데 활용하며, AI 연구의 투명성과 재현성을 높이는 데 중요한 역할을 한다.

추가 정보:

•

설립: 2023년 5월 3일(구 Chatbot Arena)

•

창립자: Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica

•

연구: ICML 2024, NeurIPS 2023 등에서 발표된 논문 및 HuggingFace 데이터셋 제공

•

커뮤니티: Discord, X/Twitter를 통해 사용자 피드백 수집

LMArena

An open platform for evaluating AI through human preference

https://lmarena.ai/

테스트 방법:

1 LMArena(lmarena.ai)에 접속한다.

2 중앙의 메뉴에서 ‘Generate Images’ 선택한다.

3 테스트할 이미지를 업로드 한다.

지시할 프롬트를 입력한다.

5. ‘Model A’ 또는 ‘Model B’ 중 ‘nano-banana’로 테스트된다. 모델 가용성은 수시로 변경될 수 있다. Flux-kontext-dev/pro nano-banana, gpt4-image 등으로 수시로 변한다.

인물 반 측면 테스트:

인물 묘사에서 정면의 힌트가 일부밖에 없는 반측면에서 정면을 얼마나 원본과 유사하게 복원할 수 있는지 테스트

레퍼런스 이미지

반 측면 이미지에서 어느 정도 정면 얼굴을 구현할 수 있는지 확인하기 위해서 반 측면 이미지만을 선정했다.

LMArena

Input Image

nano-banana

Input Image

nano-banana

Input Image

nano-banana

테스트 결과

반 측면 만으로는 아무리 nano-banana라도 정면의 원본 인물을 유추하기는 어렵다. 하지만 Flux 계열의 과도한 피부 광택과 해부학적으로 울퉁불퉁한 인상에 비해서 부드러운 피부 묘사와 적당한 동양인 묘사가 두드러진다.

준 정면 테스트:

최대한 정면에 대한 힌트를 주었을 때 어느정도 복원할 수 있는지 테스트

레퍼런스 이미지

얼굴은 준 정면 또는 약 측면, 상체는 준 측면 상체 였을 경우를 테스트하기 위해서 선택한 레퍼런스 이미지

LMArena

Her face and body in the image are facing the viewer.

커뮤니티의 예제처럼 한글로 “증명사진으로 만들어줘라”라고 할 수 있지만. 정말 증명사진으로 만들어 버리면서 원본과 거리가 멀어진다. 좀 더 명확하게 제어하기 위해서 영어로 프롬프팅함.

증명사진으로 만들어줘 테스트

테스트 결과

인물에 대한 힌트가 많은 준 정면의 이미지를 정면으로 변환할 때는 꽤 훌륭하다. 거의 원본 인물을 거의 유사하게 재현하는 것으로 보인다.

영상 테스트

각 비디오 생성 AI 플랫폼에서의 영상 추론 테스트.

Midjourney Video

start/end frame.

no prompt.

5s.

Kling : 1.6

start/end frame.

no prompt.

10s.

Higgsfield : Higgsfield Standard

start/end frame.

prompt:

The scene opens with a woman in profile, the dim light catching the curve of her cheek, and a fleeting glance suggesting contemplative depth. The Steadicam glides behind her, capturing the elegance of her movement as the mood subtly shifts. It seamlessly floats to a frontal view, revealing her steady eyes and poised expression in luminous detail. The environment around her fades into a soft blur, sharpening the focus on her introspective resolve. She stands still, emanating calm confidence, allowing the moment to resonate with quiet intensity. The camera gently settles, capturing a silent acknowledgment of inner strength and serene clarity.

5s.

LumaAI DreamMachine : Ray2

start/end frame.

no prompt.

1080p.

5s.

Pika : 2.2

start/end frame.

no prompt.

5s.

RunwayML : Gen-3 Turbo

start/end frame.

prompt : look at the viewer

5s.

요약:

•

정의: LMArena 플랫폼에서 발견된 출처 미상의 AI 이미지 생성/편집 모델. Google(Imagen/Gemini) 비공개 모델로 추측됨.

•

특징:

◦

장점: 높은 프롬프트 충실도, 공간 이해, 자연스러운 이미지 생성/편집.

◦

약점: 작은 글자 및 세부 텍스트 왜곡.

•

LMArena: UC 버클리 연구진이 개발한 AI 평가 플랫폼. 익명화된 쌍대 비교, 텍스트/이미지/비디오 생성 평가, 공개 리더보드 제공.

•

테스트:

◦

반측면 테스트: 정면 복원 어려움, 부드러운 피부 묘사와 동양인 표현 강점.

◦

준정면 테스트: 원본 유사성 높게 재현.

•

영상 테스트: Midjourney, Kling, Higgsfield, LumaAI, Pika, RunwayML 등과 비교. 프롬프트 여부에 따라 5~10초 영상 생성.

•

개발사: 미확인, Google의 GEMPIX 업데이트와 연관 가능성.

•

사용: lmarena.ai에서 무작위 테스트 가능, Imagen 4, GPT-Image-1과 비교 권장.

nano-banana

Google Nano-banana

관련 커뮤니티 테스트

주요 특징:

LMArena란

주요 특징:

한계 및 논란:

영향:

추가 정보:

테스트 방법:

인물 반 측면 테스트:

레퍼런스 이미지

LMArena

테스트 결과

준 정면 테스트:

레퍼런스 이미지

LMArena

테스트 결과

영상 테스트

Midjourney Video

Kling : 1.6

Higgsfield : Higgsfield Standard

LumaAI DreamMachine : Ray2

Pika : 2.2

RunwayML : Gen-3 Turbo

요약: