
AI 학습 데이터 인프라를 표방하는 DATA 재단이 사업 구조를 대대적으로 재편한다.
DATA 재단은 사용자 참여형 데이터 마켓플레이스 클레드와 통합한다고 27일 밝혔다. 기존 스토리에서 사명을 바꾼 재단은 이번 통합을 기점으로 데이터 공급망 구축에 속도를 낼 방침이다.
핵심은 클레드가 보유한 약 11억건의 AI 학습 데이터다. 재단은 이 데이터를 자사 네트워크에 그대로 등록한다. 단순히 양적 확장에 그치지 않고 데이터 수집 동의부터 라이선싱, 출처 증명, 보상 정산까지 이어지는 파이프라인을 하나의 체계로 묶는 것이 골자다.
생성형 AI 산업이 급성장하면서 빅테크 기업들의 무단 데이터 크롤링과 저작권 침해 문제는 글로벌 트렌드로 부상했다. 소송전이 잇따르고 규제가 강화되면서 정당한 대가를 지불하고 합법적인 경로로 확보한 데이터, 이른바 '클린 데이터'에 대한 수요가 급증하는 추세다.
재단은 이번 통합을 통해 시장의 병목 현상을 정조준한다. 블록체인 기술을 활용해 데이터가 어디서 수집되었고 어떻게 가공되었는지 추적 가능한 인증 마크를 부여하는 방식이다. 정당한 권리를 가진 데이터 제공자에게 수익이 돌아가는 정산 시스템도 내재화한다. 데이터 주권을 보장하는 표준 인프라가 되겠다는 구상이다.
해외 AI 연구기관과 테크 기업들의 시선도 쏠린다. 거대언어모델(LLM)을 개발하는 기업 입장에서는 향후 발생할지 모를 법적 리스크를 원천 차단하는 것이 중요하기 때문이다. 출처가 투명한 대규모 데이터셋의 존재는 그 자체로 경쟁력이 된다.
DATA 재단 관계자는 "현재 생성형 AI 시장은 학습 데이터의 저작권과 사용자 동의 여부가 생존을 가르는 핵심 쟁점"이라며 "클레드가 쌓아온 데이터 자산과 재단의 인프라 기술을 결합해 AI 개발사들이 저작권 우려 없이 고품질 데이터를 공급받을 수 있는 글로벌 표준을 만들겠다"고 말했다.











