AI가 생성한 빅데이터처리 상상도. 출처=픽사베이
[이코리아] 지난 달 22일 서울 코엑스 컨퍼런스룸 E에서는 제3회 "빅데이터 산업트랜드 콘퍼런스" 행사가 개최되었다. 일반에 공개된 행사에는 한국의 제일기획, LG유플러스, 뮤직카우의 근무자가 발표를 진행했고, 해외기업으로는 AWS, 구글과 팔란티어의 담당자가 빅데이터 산업에서 진행되는 최신 트랜드를 소개했다.
2025년 전세계의 데이터총량은 175ZB(제타바이트)에 달한다. 이 용량은 175조개의 1TB 하드디스크가 있어야 저장이 가능하다. 하지만, 인공지능이 학습에 사용될 고품질의 언어데이터는 고갈되고 있으며 2030년이면 저품질의 데이터와 비전데이터마저 고갈될지도 모른다.
널리 알려진 빅데이트 플랫폼은 데이터를 수집한 후 데이터레이크라고 불리는 큰 저장소에 데이터를 적재하고 다양한 솔루션을 활용해 관리 및 분석하는 플랫폼이다. 빅데이터 업계에서는 100TB 이상을 마운팅하는 것도 이제는 흔한 것이 되었다.
현재까지 가장 큰 주목을 받는 빅데이터 플랫폼은 하둡이라고 할 수 있다. 구글은 과거 자신들의 방대한 스토리지와 검색엔진 효율화를 위해 분산저장처리 기술을 개발했고 이를 오픈소스로 공개했다. 그런데, 아파치는 이를 보고 GFS와 유사한 HDFS(하둡 분산형 파일 시스템)을 개발했다. 하둡은 저장을 담당하는 HDFS와 분산된 클러스터를 관리하는 얀(YARN), 분산데이터를 배치처리하는 맵리듀스 (MapReduce) 등의 하위 프레임워크로 구성된다.
서울대 빅데이터 혁신융합대학 단장인 김홍기 교수는 개회사에서 빅데이터 기술의 발전과 “인공지능전환(AX)의 시대에 공부를 잘하는 것이 중요한 것이 아니라 인공지능에게 효과적으로 질문을 잘하는 기법이 중요함”을 설명했다. 그는 이제 대학교를 다니는 이유는 급우간의 좋은 네트워크를 구축하는 것으로 전략하는 경향을 설명했다.
빅데이터 혁신융합대학은 4차산업혁명 시대의 핵심자원인 빅데이터 분야의 인재를 양성하기 위한 교육기관으로 대학 간 경계를 허물고 학과 간의 벽을 넘어 다양한 교육기회를 제공하는 것을 목표로 설정하고 있다. 발표장 옆에 설치된 성과공유 전시장에서는 빅데이터와 관련된 교과 성과물이 전시되었다. 데이터 시각화, 데이터 활용 디자인, 머신러닝과 같은 첨단 빅데이터 기술은 분자생물학, 역사학, 세무학, 윤리학 등 다양한 분야에서 활용됨을 알 수 있었다.
빅데이터 산업트렌드 콘트런스 발표장.자료=여정현 필자 제공.
LG유플러스의 발표자는 글로벌 빅데이터 트랜드를 간략히 설명했다. 2021년이 메타버스의 활성화의 원년이라면, 2022년은 NFT와 디지털자산, 생성형AI가 보급되기 시작한 해로 설명했다. 2023년이 클라우드 네이티브가 주목받았던 해라면 작년은 생성형 AI의 대중화가 이루어진 해로 꼽았다. 2010년대 중반부터 각광을 받았던, 프로세스자동화나 효율성 향상에 중점을 둔 디지털전환(DX)은 2020년대 초부터 인공지능전환(AX)에게 그 스포트라이트를 넘겨주었다고 한다.
담당자는 과거 디지털전환에 사용되었던 핵심기술로 데봅스(DevOps)와 마이크로서비스, 클라우드네이티브를 꼽았다. 데봅스는 개발과 운영이 결합된 용어로 소프트웨어의 개발의 자동화와 관련된 개념이다. 데봅스는 개발팀과 운영팀간의 협업으로 서비스의 안정성이 유지되면서도 빠르게 새로운 기능이 소프트웨어에 통합되는 개발기법이다.
LG유플러스에서 진행했던 효과적인 디지털전환 사례는 소비자가 인식하지 못한 스트리밍 서비스의 교체였다. 이 회사가 중단 없는 서비스를 위하여 도입한 기법은 ‘데이터싱크 파이프라인’ 기술과 ‘무화과나무 교살자’란 기법이었다. 데이터 파이프라인 기법은 다양한 데이터 원본에서 데이터를 추출하여 원하는 시스템으로 전송하는 과정을 자동화하는 시스템이다. 무화과나무 교살자 기법은 무화과가 다른 나무를 휘감아 올라 죽음에 이르게 하는 것처럼 고객들이 인식하지 못하는 사이에 IPTV시스템 등은 서서히 새로운 시스템으로 완전히 대체한 것임을 설명했다.
소프트웨어 개발의 ‘마이크로서비스’는 애플리케이션을 기능 단위로 분리하여 개발자가 퇴사하여도 안정성을 유지하면서 유연하게 새로운 기능을 추가하는 기법이다. 널리 알려진 ‘클라우드네이티브’는 클라우드 환경을 활용하여 애플리케이션을 신속히 개발하고 운영하는 방식을 의미한다. 우리들이 과거에 새로운 프로젝트를 위해서는 PC나 서버를 새롭게 구매하고 OS를 설치하였으나 이제는 OS가 이미 설치된 컴퓨터를 원격으로 구독하면서 빠르게 작업을 시작할 수 있다.
한편 2023년 생성형 인공지능의 도입이 본격화되면서 머신러닝은 새롭게 주목을 받고 있다. 머신러닝은 명시적 프로그래밍이 없어도 컴퓨터가 데이터를 자동으로 학습하고 경험을 누적하여 성능을 향상시키는 기법이다. 머신러닝의 가동을 위하여 방대한 데이터에 정답을 부여하는 데이터라벨링 기법이 사용되기도 한다.
AWS의 발표자는 인공지능업계의 시장점유율을 소개했고, 구글의 발표자는 인공지능 제미나이 2.0의 등장과 향상된 성능을 소개했다. 그는 구글에 성공적으로 취업하는 방법에 대한 간단한 설명을 곁들였다.
올해 콘프런스에서 부각된 점은 “빅데이터 시장에서 AI경쟁이 가속화되었다는 것이다.” LG유플러스가 엑사원(EXAONE)이란 초거대 AI모델을 운영하고, 구글이 새로운 제미나이 시리즈를 출시하지만 업계에서 정작 주목을 받는 것은 중국기업 딥시크(DeepSeek)와 알리바바이다. 딥시크가 작년 12월 공개한 V3는 이미 높은 GPU효율성으로 세계적인 주목을 받고 있다.
미국이 2022년 고성능 AI칩인 H100과 A100의 수출을 중단시켰고 2023년에는 저사양의 H800과 A800의 중국 수출을 마저 제한시켰다. 그러나 결과적으로 이는 ‘중국에서의 저비용 고성능 LLM’ 탄생을 야기했다. 딥시크가 V3를 API로 활용하는 타사 개발자들에게 청구하는 추정액은 입력 백만개당 약400원 수준으로 입력 만개당 1원에 지나지 않는다.
인공지능 기술에서 매개변수는 보통 입력데이터와 출력데이터의 관계를 나타내는데 중국의 V3모델은 약6,000억개의 매개변수를 가지고 있다. 이 수치는 오픈AI GPT4의 매개변수 1조7,000억개를 넘지는 못하며, 구글 제미나이의 매개변수 추정치 1조개보다 낮은 수치이다.
하지만, V3는 탁월한 효율성으로 언어능력, 수학능력, 코딩능력에서 다른 모델들을 능가한다는 분석이 있다. 필자가 실험해보니 한국어에서 제미나이보다 보다 철학적인 개념으로 대상을 정리하는 경우도 있었다. 또한 응답에서 영어가 나오는 경우는 있었지만 힌디어가 나오는 사례는 아직 찾지 못했다.
한국에서의 딥시크 열풍을 잠재울 새로운 주자는 알리바바의 큐웬(Qwen) 2.5-Max이다. 지난 29일 공개된 이 제품의 주요 성능은 이미 딥시크의 성능을 대부분의 벤치마크에서 뛰어넘는 것으로 알려졌다.
딥시크와 알리바바가 짧은 시간에 고성능 AI를 개발한 것은 결국 오픈소스의 힘과 클라우드 컴퓨팅의 경제성을 무시할 수 없다. 딥시크의 훈련비용은 약70억원 수준으로 GPT4 개발팀의 3개월 동안 개발 및 훈련비용 추정액 약1,400억원의 5%에 불가하다. 다만 이에는 중국인들의 인건비가 제외되어 있을 것이라는 분석이 있지만 대략 100억원이 넘지 않을 것으로 추정된다.
또한 V3는 엔비디아의 GPU인 H800 2,048개로 구성되어 있다고 하는데, 만약 이 카드의 중국내 가격을 20만위안으로 볼 경우 장비가격은 800억원 정도에 지나지 않는다. 이마저 시간당 2달러 정도의 GPU임대를 사용한다면 가격을 더 낮출 수도 있다. 다만, V3나 R1의 개발에 2,000억대의 A100 10,000개가 몰래 사용되었을 가능성이 있다는 보도도 있고, 세미어낼러시스는 7,000억원 이상이 투입되었을 수도 있다는 의혹을 제기하기도 했다.
반면에 GPT4에 약25,000개의 엔비디아 A100이 사용되었다고 추정할 수 있는데 이 경우 하드웨어 가격은 약4,000억원으로 추정할 수 있다. 결국 V3의 본체가격은 GPT4의 2%에 불과하다고 추정할 수도 있다. 지난달 딥시크가 새로운 버전 R1을 출시한 후 지난 27일 엔비디아의 주가는 하루에 16.97%나 급락하기도 했다.
딥시크와 오픈AI의 성능비교 추정치. 자료=여정현 필자 제공.
딥시크의 고효율에는 MLA(멀티헤드 잠재 어텐션)이란 기술이 사용되었다. 이 방식은 중요한 사항을 반복적으로 추출함으로 중요한 정보를 놓칠 가능성을 줄이고 압축하는 방법이다. 이는 반복적인 작업으로 결과 값의 정확성을 유지하며 적은 메모리로 빅데이터를 처리하는 방법이다. 한편 딥시크가 사용한 MOE(전문가 혼합) 기술은 논리적 추론에 가장 적합한 신경망을 찾는 기술로딥시크는 6,000억개의 매개변수 중 단지 0.5%인 300억개만 활성화함으로 추론비용을 크게 줄이면서도 뛰어난 성능을 보여준다.
한편 콘퍼런스에 참가한 팔란티어는 2008년 미국에서 설립되었는데 복잡하고 방대한 빅데이터를 분석하여 실질적인 문제해결에 기여하고 있다. 이 회사의 기술은 영화 ‘마이노러티 리포터’처럼 테러 및 범죄예측, 금융사기 탐지, 환자에 대한 치료법제시와 공급망관리 등에 이미 효과적으로 활용되고 있다.
제일기획의 최대주주는 삼성전자로 알려져 있는데 제일기획은 인공지능에게 자사가 이미 제작했던 콘텐츠를 AI에게 학습시키고 이를 디지털마케팅의 성과분석, 카피라이팅과 콘텐츠검수에 활용하고 있다. 삼성전자가 S25에 자체개발한 온디바이스 AI가 애완견 동반이 가능한 이탈리아 레스토랑을 찾아준다는 광고를 활발히 중이지만 경쟁사인 화웨이도 자체 AI칩으로 카메라 성능을 개선하고 있으며 샤오미도 AI성능 경쟁에 뛰어들고 있다.
빅데이터와 관련된 꾸준한 산업트랜드는 빅데이터를 수요예측이나 제품설계에 적극 반영하는 것이다. 물론 기존에 보급된 사물인터넷(IOT)기술은 이미 생산계획이나 공정관리, 설비관리, 품질검사에서 광범위하게 활용되고 있다.
2025년 빅데이터 산업은 갑자기 성능이 뛰어난 중국계 AI의 등장으로 급변하고 있다. 우리가 관련 기술 동향을 적절히 분석한다면, 빅데이터 기술은 다양한 산업분야에서 꾸준히 새로운 혁신을 이끌 것이다.
여정현
서울대학교 법과대학을 졸업하고 대우그룹 회장비서실에서 근무했으며,
안양대 평생교육원 강사, 국회사무처 비서관 등을 지냈다.
저작권자 © 이코리아 무단전재 및 재배포 금지
더 많은 기사는 '이코리아'(http://www.ekoreanews.co.kr/)
'ICT' 카테고리의 다른 글
자서전 펴낸 빌 게이츠, 암호화폐 등 각종 현안에 대한 생각은? (0) | 2025.02.03 |
---|---|
삼성전자, 갤럭시 S25 공개...주요 AI 기능은? (0) | 2025.01.24 |
미국과 유럽 온라인 혐오 표현 대응 왜 다를까 (0) | 2025.01.24 |
AI 의료 혁명 다가온다, 도전 과제는? (0) | 2025.01.24 |
트럼프발 AI 프로젝트 '스타게이트'에 쏟아지는 기대와 우려 (0) | 2025.01.23 |