오픈AI의 달리 2, 텍스트를 이미지로 전환하는 인공지능

트렌드

HOME > 트렌드 > 기술 트렌드

기술 트렌드

분야 시각/정보디자인,디지털미디어/콘텐츠디자인,테크트렌드,트렌드전망 등록일2022.04.22 작성자 김정희(giotto) 조회수10028

Astronaut riding a horse by DALL-E 2

인공지능 개발기업 OpenAI가 개발한 DALL-E 2는 단순한 텍스트 지시어를 고품질의 이미지로 전환해주는 인공지능 프로그램이다. 단순한 사물 명칭 뿐 아니라, 동작이나 미적 스타일, 다양한 주제어 등을 복합적으로 입력해 넣으면 그에 걸맞는 사실적인 이미지나 예술작품을 만들어 낸다.

오픈AI 블로그에 게시된 사례들을 보면 대충 이렇다. “우주 속 열대 휴양지에서 베이퍼웨이브 스타일로 노니는 우주비행사(an astronaut lounging in a tropical resort in space in a vaporwave style),” 또는 “1990년대 기술로 수중에서 새로운 AI 연구를 수행하고 있는 곰돌이들(eddy bears working on new AI research underwater with 1990s technology)”

DALL-E 2 image of teddy bears mixing sparkling chemicals as mad scientists in a steampunk style

“미치광이 과학자처럼 스팀펑크 스타일로 불꽃튀는 화학물질들을 섞고 있는 곰돌이들(teddy bears mixing sparkling chemicals as mad scientists in a steampunk style)이라는 텍스트를 가지고 달리 2가 만들어낸 이미지

달리 2는 해상도와 텍스트 이해능력, 처리속도 면에서 2021년 1월에 나온 달리(DALL-E)를 한 단계 발전시킨 것이다. 여기에 몇 가지 새로운 기능을 첨가해 한층 놀라운 결과물을 내놓는다.

Pixar 로봇 WALL-E와 화가 Salvador Dalí의 이름을 합성한 DALL-E는 인간 두뇌의 생물학적 신경망을 모방한 컴퓨터 시스템의 일종인 뉴럴 네트워크로, 이미지와 그에 해당하는 텍스트 묘사를 학습해 사물 간의 관계를 이해한다.

DALL·E 2 image of a bowl of soup that looks like a monster, knitted out of wool

"울로 짠 몬스터 모양의 스프 한 그릇(a bowl of soup that looks like a monster knitted out of wool)"이라는 텍스트로 생성된 이미지

오픈AI의 설명에 따르면, 코알라나 오토바이와 같은 개별 사물을 이해할 뿐 아니라 사물 간의 관계를 학습한다. 따라서 달리에게 오토바이를 타고 있는 코알라의 이미지를 요청하면, 그에 상응하는 이미지나, 다른 사물이나 동작과 관련된 어떤 것이라도 이미지화할 수 있다.

달리 2는 단일 텍스트 프롬프트에 대해 여러 개의 이미지 안을 제시한다. 또, 동일한 자연어 텍스트를 사용해 기존의 사진을 편집하고 수정(retouch)하는 기능이 달리 2에 새롭게 추가되었다.

오픈AI가 “인페인팅(in-painting)”이라고 부르는 이 기능은 포토샵의 내용인식채우기(content-aware fill) 기능과 유사하지만, 한층 정교하게 작동한다. 이미지의 선택영역에 있는 요소들을 감쪽같이 지우거나 추가할 수 있으며, 그림자와 반사, 텍스처 등도 반영된다.

DALL·E 2 image of a photo of a quaint flower shop storefront with a pastel green and clean white facade

“파스텔 그린과 클린 화이트 외벽을 가진 정취있는 꽃 가게 입구 사진(a photo of a quaint flower shop storefront with a pastel green and clean white façade)”이라는 프롬프트로 만들어낸 이미지

달리 프로젝트는 일반인들에게 자신을 시각적으로 표현할 수단을 제공할 뿐 아니라, AI가 인간 세상을 바라보고 이해하는 방식을 파악할 수 있다는 점에서 연구개발자들에게도 의미가 있다고 오픈AI는 말한다. 유용하면서도 안전한 AI를 개발하기 위해서는 이 점이 반드시 필요하다는 게 오픈AI의 설명이다.

당초, 일론 머스크 등 IT계의 큰손들이 참여해 비영리기관으로 설립되었던 오픈AI는 장기적으로 인간에게 긍정적인 영향을 미치는 AI를 개발하고 혹시라도 있을 위험 요소들을 막는 일에 전념하고 있다.

달리 2를 일반에 공개하고 있지 않은 것도 이런 맥락에서다. 아직은 이 프로그램 역시 “딥페이크”와 같은 가짜 콘텐츠 제작에 사용될 위험이 존재하고 있다고 파악하기 때문이다.

DALL-E 2 image of a Shiba Inu dog wearing a beret and black turtleneck

“베레모와 까만 터틀넥을 입고 있는 시바 이누 개” 이미지

학습과정에서 편견을 내재함으로써 사회적 전형성을 강화하는 결과를 낳게 될 수 있다는 점도 AI에 대한 우려 중 하나다.

오픈AI 내에서 자체적인 안전 조치들을 마무리 짓는 동안, 달리는 일부 선택적 유저들을 대상으로 테스트 버전으로만 운영된다. 폭력적이거나 혐오를 조장하는 이미지, 전체연령 등급이 아니거나 정치적 메시지를 담고 있는 이미지 제작은 콘텐츠 정책 상 이미 금지되어 있긴 하다.

여기 더해 필터에 의해 다시 걸러지고, 자동시템과 사람에 의한 감시시스템이 동시에 가동된다.

노골적이거나 폭력적인 내용은 달리의 학습데이터에서 모두 제거되었기 때문에, 1차적으로 그러한 이미지를 생성하는 능력 자체가 달리에서는 제한적이다.

오픈AI는 머스크와 Y Combinator의 Sam Altman 등의 지원으로 2015년 말에 출범했고, 2019년 영리기업으로 전환했다. 모기업은 여전히 비영리로 남아있긴 하다.

오픈AI의 다른 프로젝트 중에는 머신러닝이 탑재되어 자연스러운 움직임을 구사하는 로봇 팔 Dactyl이 있다.

원문 기사 보기: OpenAI's DALL-E 2 generates illustrations from written descriptions (dezeen.com)

링크주소복사

관련 사이트