= 일론 머스크 X 갈무리
[이코리아] 이전부터 지적되던 AI 학습데이터 부족 문제가 점차 현실화되고 있다. AI 기업 xAI를 보유한 일론 머스크 테슬라 CEO는 현지시간 8일 자신의 소셜 미디어를 통해 글로벌 마케팅 기업 '스태그웰'의 마크 펜 회장과 대담을 진행하며 인류는 이미 지난 해 AI 훈련 과정에서 누적된 인류 지식의 총합을 고갈시켰다고 주장했다.
또 머스크는 이러한 데이터 고갈의 유일한 해결책으로는 AI가 만든 합성 데이터를 통해 AI를 훈련시키는 방법 뿐이라고도 주장했다. 합성데이터란 실제 데이터의 특성을 모방해 인위적으로 합성된 데이터로, 실제 환경에서 수집되거나 측정되는 것이 아닌 디지털 환경에서 생성된 데이터를 의미한다.
다른 전문가와 업계 관계자들 역시 데이터 고갈 문제를 지적하고 있다. 영국 앨런 튜링 연구소의 앤드류 던컨 박사는 "공개적으로 접근 가능한 AI 데이터가 2026년까지 고갈될 수 있다"고 가디언지와의 인터뷰에서 밝혔다. 다만 머스크의 발언대로 합성 데이터에 지나치게 의존할 경우 데이터의 품질이 저하되고 AI의 성능이 하락하는 '모델 붕괴' 현상이 나타날 수 있다고 지적했다.
오픈 AI의 공동 창립자 일리야 수츠케버 역시 지난달 유사한 주장을 제시했다. 그는 AI 학습 데이터를 'AI의 화석 연료'로 비유하며, 인류는 AI에 학습되는 데이터의 최고 수준을 달성했고, 더 이상은 없을 것이라고 우려했다.
미국의 AI 리서치 기업 에포크 AI는 지금까지 인간이 생성해 공개된 텍스트 데이터의 재고를 약 300조 토큰 규모로 추정했으며, 이에 따라 AI 언어모델에 공급되는 텍스트 데이터의 양이 매년 2.5배씩 증가하는 현 추세에 따르면 2026년부터 2032년 사이에 데이터의 재고가 모두 소진되어 AI가 새로 학습할 데이터가 없어질 것으로 예측했다.
= 픽사베이
메타, 마이크로소프트 등 다양한 빅테크 기업들은 이미 데이터 고갈에 대응하기 위해 합성 데이터를 활발하게 사용하고 있다. 메타는 합성 데이터를 활용해 자사의 언어모델 '라마'를 개선했으며, 마이크로소프트는 Phi-4 모델의 훈련에 AI 생성 콘텐츠를 활용했다.
구글 딥마인드는 AI 모델의 '추론 시간 연산' 기능을 활용해 데이터를 효율적으로 사용할 수 있는 방안을 제시했다. 이는 AI 모델이 질문에 대한 답변을 생성하기 전 다양한 시나리오를 추론하고 검증하며 학습할 수 있는 방식을 의미한다.
국내의 경우 개인정보보호위원회가 지난해 5월 민간 연구자와 기업이 인공지능(AI) 학습에 합성데이터를 활용할 수 있도록 '합성데이터 생성 참조모델' 5종을 마련해 공개하기도 했다. 또 지난달에는 '합성데이터(Synthetic data) 안내서'를 발간했다.
개보위는 해당 안내서가 합성데이터 생성절차와 관련 법령 준수사항을 수록했으며, 최근 수요가 증가하는 비정형 합성데이터(이미지)에 대해서도 절차와 유의사항들을 안내하고 있다고 밝혔다. 이에 따라 산업현장, 연구소 등에서는 합성데이터 관련 절차나 서식, 방법론, 법령 준수사항 등을 참고하고자 할 때 안내서를 활용할 수 있다고 강조했다.
현기호 기자
저작권자 이코리아 무단전재 및 재배포 금지
더 많은 기사는 '이코리아'(http://www.ekoreanews.co.kr/)
'ICT' 카테고리의 다른 글
[체험기] 대한민국 교육박람회에서 살펴본 'AI 교과서' (0) | 2025.01.15 |
---|---|
하노버 산업박람회 2025 4월 개최...주목할 포인트는? (0) | 2025.01.14 |
"젠슨 황 예측 틀렸다. 양자컴퓨터 올해 산업현장에 투입" 근거는? (0) | 2025.01.09 |
CES 2025로 달려간 통신 3사 CEO와 기술진들 (1) | 2025.01.08 |
CES에서 AI로 맞붙은 삼성전자와 LG전자...각각의 특징은? (0) | 2025.01.07 |