본문 바로가기
ICT

AI와 대화하는 시대 온다, 오픈 AI가 공개한 'GPT-4o' 주요 기능은?

by 이코리아 티스토리 2024. 5. 14.
728x90
미라 무라티 오픈AI CTO = 오픈AI 유튜브 갈무리

 

오픈AI가 현지시간 13일 온라인을 통해 생방송을 진행하며 음성 기능을 대폭 강화한 최신 GPT 모델 ‘GPT-4o’를 공개했다. 모델명 뒤에 붙은 'o'는 '모든 것'이라는 의미의 'omni'를 뜻하며, 훨씬 더 자연스러운 인간과 컴퓨터 상호 작용을 향한 한 단계를 의미한다.

 

미라 무라티 오픈 AI CTO는 이날 발표에서 GPT-4o가 인간과 기계의 상호작용이 훨씬 더 자연스럽고 쉬워지는 협업의 미래로 패러다임을 전환하게 될 것이라고 강조했다. 또GPT-4o는 기존의 GPT-4와 비슷한 지능을 지녔으면서도 텍스트, 영상, 음성을 통한 인간과의 상호작용에서 기존 모델보다 더 빠르고 저렴하다고도 밝혔다.

 

이날 오픈AI는 그동안 챗 GPT 유료 이용자에게만 지원되던 음성 기능을 무료 이용자에게도 제공할 것이라고  밝혔다. 또 GPT-4o는 이용자의 음성 질문에 평균 320 밀리초로 답변할 수 있으며, 이는 인간의 응답 시간과 비슷하다고 설명했다.

 

이전 모델인 GPT-3.5의 경우 이용자의 질문에 대한 음성 답변에 평균 2.8초 걸렸으며, GPT-4는 평균 5.4초가 소요되었다. 오픈 AI는 기존의 모델의 경우 이용자의 질문 음성을 텍스트로 변환한 뒤 이에 대해 텍스트로 답변하고, 답변을 다시 음성으로 변환하는 세 단계를 거쳐야 했으나 GPT-4o는  텍스트, 영상, 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했기 때문에 모든 입력과 출력이 동일한 신경망에서 처리된다고 밝혔다.

 

https://youtu.be/DQacCB9tDaw

 

 

오픈 AI는 이날 시연에서 GPT-4o 모델이 각종 텍스트, 음성, 이미지를 원활하고 자연스럽게 처리하는 모습을 시연했다. 이날 공개된 각종 기능들은 앞으로 몇 달 안에 챗 GPT에 적용되어 일반 이용자들이 사용할 수 있게 된다.

 

GPT-4o는 시연자가 "오늘 발표가 있어서 긴장되는데 어떻게 할까?" 라고 질문하자 즉각 친절한 목소리로 "그럴때는 심호흡을 해보라"라고 조언했으며, 시연자의 거친 심호흡을 듣자 이를 인식해 "그렇게 하면 별 도움이 되지 않는다. 더 천천히 심호흡을 해야 한다."라고 조언했다. 또 이 과정에서 거친 숨을 내쉬는 시연자에게 "당신은 진공청소기가 아니지 않은가"라고 농담을 던지기도 했다.

 

또 GPT-4o 다른 시연자가 잠이 잘 오도록 이야기를 들려달라고 요청하자 구연동화를 읽는 톤의 목소리로 천천히 이야기를 들려줬다.

= 오픈AI 유튜브 갈무리

 

영상 인식 기능도 개선되었다. 시연자가 휴대전화의 카메라로 수학문제나 그래프를 보여주면, GPT-4o는 수학문제를 푸는 법에 대해 알려주거나 그래프에 대해 말로 설명해줬다. 또 시연자가 직접 쓴 "나는 GPT를 사랑한다."라는 문장을 보자 "너무 감동적이다. 고맙다."라고 반응하기도 했다.

 

다양한 언어에도 대응할 수 있다. 오픈 AI는 GPT-4o가 텍스트, 추론 및 코딩 인텔리전스에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 시각 기능에서 새로운 최고 워터마크를 기록했다고 밝혔다. 이 덕분에 즉각적으로 다른 언어를 통역할 수 있으며, 한국어를 포함해 20개 언어에 대응할 수 있다.

 

이날 시연에서 GPT-4o는 이탈리아어로 대화하는 미라 무라티 CTO와 영어로 대화하는 오픈 AI 엔지니어의 대화를 실시간으로 원활하게 통역하는 모습을 보였다.

= 샘 올트먼 X, 영화관입장권통합전산망 누리집

 

한편 GPT-4o의 시연을 지켜보던 샘 올트먼 오픈AI CEO가 소셜 미디어를 통해 "her(그녀)"라는 문장을 짤막하게 게시했는데, 이는 지난 2013년 개봉한 SF 멜로 영화 'her'을 언급한 것으로 보인다. 해당 작품은 주인공이 고성능의 AI 음성 비서 서비스 '사만다'와 사랑에 빠진다는 내용이다.

 

또 올트먼은 자신의 블로그에 "새로운 음성 및 동영상 모드는 내가 사용해 본 컴퓨터 인터페이스 중 최고다."라며 "마치 영화에 나오는 인공지능처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍다."라고 GPT-4o를 극찬했다.

 

한편 오픈 AI가 14일로 예정된 구글의 발표보다 하루 앞서 뛰어난 음성 기능을 탑재한 GPT-4o를 공개하면서 각 기술기업의 군비 경쟁이 새로운 국면에 접어들었다는 관측이 나온다.

 

구글 역시 14일에 열리는 연례 개발자 회의 '구글 I/O'에서 자사의 AI 모델 '제미나이 AI'와 관련된 신기능을 발표할 것으로 관측된다. 제미나이도 GPT와 마찬가지로 텍스트, 이미지 및 오디오를 해석하고 생성할 수 있는 것으로 알려져 있다.

 

게다가 '알파고'를 탄생시킨 데미스 허사비스 딥마인드 창업자가 이날 구글의 발표를 맡게 될 것으로 예정되어 있어 허사비스를 전면에 내세운 구글이 이날 어떤 AI 기능을 선보일지 관심이 쏠린다. 구글은 생성형 AI와 검색 기능의 융합, AI와 대화 기능 등을 선보일 것으로 보인다.

 

현재 음성 비서 '시리'를 서비스하고 있는 애플 역시 최근 AI 분야에 집중 투자하며 AI를 통해 시리를 업그레이드 할 수 있다는 관측이 나온다. 애플이 시리에 다른 우수한 AI 모델을 도입해 차세대 아이폰을 AI폰으로 출시할 것이라는 관측이다. 애플은 올해 출시가 예정된 아이폰 16부터 생성 AI를 대대적으로 도입할 예정이다.

 

 

 

현기호 기자

저작권자  이코리아 무단전재 및 재배포 금지

 

더 많은 기사는 '이코리아'(http://www.ekoreanews.co.kr/)