본문 바로가기
ICT

AI 연구 개발 속도 높이는 합성데이터, 위험성은?

by 이코리아 티스토리 2024. 6. 26.
728x90

 

= 픽사베이

 AI 학습에 필수적인 데이터가 부족해지면서 합성데이터 산업이 주목받고 있다. 

 

합성데이터란 실제 데이터의 특성을 모방해 인위적으로 합성된 데이터로, 실제 환경에서 수집되거나 측정되는 것이 아닌 디지털 환경에서 생성된 데이터를 의미한다. 합성데이터는 수학적으로나 통계적으로 현실의 데이터를 반영해 만들어졌으면서도 개인정보 등 민감한 정보를 포함하지 않는것이 장점이다. 현재 의료, 금융, 제조업 등 다양한 분야에서 합성데이터는 개인정보 보호, 작업 효율화 등 다양한 용도로 사용되고 있다.

 

합성데이터는 실제 데이터보다 적은 비용으로 안전하면서도 효율적으로 확보할 수 있다는 장점이 있어 각종 AI 기업에서 주목하고 있다. 시장조사기관 브레이니 인사이트는 합성데이터 생성 시장 규모가 2023년 3억 1,611만 달러에서 10년 내 62억 6,227만 달러로 성장할 것으로 예측하기도 했다.

 

합성데이터가 부상하는 이유 중 하나로는 최근 AI에 학습시킬 데이터가 부족해지고 있다는 점이다. 최근 AI 산업이 급속도로 성장하며 AI가 학습할 실제 데이터가 고갈될 것이라는 예측이 나오고 있다. 미국의 AI 리서치 기업 에포크 AI에 따르면 인간이 생성해 공개된 텍스트 데이터의 재고는 약 300조 토큰 규모로, AI 언어모델에 공급되는 텍스트 데이터의 양이 매년 2.5배씩 증가하는 현 추세에 따르면 2026년부터 2032년 사이에 데이터의 재고가 모두 소진되어 AI가 새로 학습할 데이터가 없어질 것으로 예측했다.

 

점차 AI 기업이 적절한 데이터를 얻기 힘들어진다는 점도 있다. 레딧 등 온라인 커뮤니티나 X (구 트위터)와 같은 소셜 미디어 등 장시간 누적된 방대한 데이터를 보유한 플랫폼들은 AI 기업의 데이터 스크래핑에 반발해 자사의 데이터에 다른 AI 기업이 접근하지 못하도록 문을 걸어 잠그고 있다. 

 

또 대형 언론사나 창작자들이 자신들의 저작물을 AI가 대가 없이 학습하고 있다며 반발하는 사례 역시 최근 잇따르고 있다. ‘챗 GPT’의 개발사 오픈 AI는 챗 GPT의 출시 이후 1년여 만에 20건이 넘는 소송과 조사에 휘말렸는데, 이 중 대부분은 작가나 언론사로부터 제기된 저작권 소송일 정도다.

 

규제 환경의 변화도 영향을 미친다. 유럽연합의 경우 지난 3월 통과된 인공지능 법안에서 대형언어모델 학습에 사용한 데이터의 저작권 출처를 밝히도록 했으며, 최근 메타의 경우 유럽 규제당국이 유럽 이용자의 개인정보를 AI에 학습시키는 것에 반발하자 메타 AI의 유럽 출시를 보류한 사례도 있다. 전 세계의 규제 법제에 영향을 끼치는 유럽이 AI 규제를 강화하며 학습용 데이터 부족 현상이 더욱 심각해질 것이라는 관측도 나온다.

= 엔비디아 누리집

이에 따라 최근 AI 기업들은 합성데이터에 주목하고 있다. 엔비디아의 경우 지난 14일 고품질의 합성 데이터를 생성하는 3,400억 매개변수의 모델 ‘네모트론-4’를 공개했으며, 이를 통해 LLM 훈련용 합성데이터 생성 분야에 혁신을 가져올 것이라는 자신감을 드러냈다.

 

오픈 AI의 대항마 중 하나로 꼽히는 AI 스타트업 앤트로픽 역시 AI 안전성을 위한 '헌법적 AI(Constitutional AI)'의 구현에 합성데이터를 적극 도입하고 있다. 합성데이터를 통해 기존 인간이 만들어 낸 데이터에 포함된 편향이 발생하지 않도록 하는 것이다.

 

개인정보보호위원회 역시 합성데이터의 개인정보보호 측면에 주목하고 있다. 개인정보보호위원회는 지난달 민간 연구자와 기업이 인공지능(AI) 학습에 합성데이터를 활용할 수 있도록 '합성데이터 생성 참조모델' 5종을 마련해 공개했다.

 

또 고학수 위원장이 지난 20일 열린 제61차 아시아태평양 개인정보보호감독기구 협의체(APPA 포럼)에 참석해  ‘한국의 합성데이터 참조 모델’을 공유하고, 개인정보 강화 기술로 주목받고 있는 ‘합성데이터’ 발전 방안에 대해 논의하기도 했다. 

 

다만 합성데이터의 사용에도 위험성은 존재한다. 합성데이터 역시 결국 인간이 정한 규칙에 따라 합성되었기 때문에 실제 데이터에 존재하는 편향을 완벽히 제거할 수 없으며, 오히려 증폭시킬 수도 있다는 지적이다. 또 합성데이터는 실제 데이터의 복잡성이 제거되고 지나치게 일반화되어 현실에 제대로 대응하지 못할 것이라는 지적도 나온다.

 

이와 관련해 미국의 기술 매체 와이어드는 “합성데이터는 위험한 선생님이 될 수 있다.”라고 전했다. LLM 개발을 위한 데이터 확장 경쟁이 이어지면서 웹에 존재하는 데이터를 무분별하게 긁어모으면서 온라인 데이터 세트의 품질이 저하되고, 인간의 부정적인 고정관념이 증폭되고 있다는 것이다. 

 

게다가 인터넷에 AI로 생성된 콘텐츠가 범람하며 이러한 방대한 양의 생성 AI 출력이 미래의 생성 AI 모델을 위한 교육 자료로 사용될 수 있다고도 지적했다. AI가 학습하는 데이터 중 실제 데이터보다 합성데이터의 비중이 높아지며 이에 따라 인류가 AI 모델에서 생성된 합성 데이터만 사용하여 AI 모델을 훈련하게 되는 재귀 루프에 갇힐 수 있다는 것이다. 와이어드는 “현재 우리가 매력적이라고 ​​생각하는 생성 AI의 발달은 우리를 해칠 엄청난 독성 쓰레기가 될 수 있다.”라고 우려했다. 

 

 

현기호 기자

저작권자  이코리아 무단전재 및 재배포 금지

 

더 많은 기사는 '이코리아'(http://www.ekoreanews.co.kr/)