본문 바로가기

뉴스

애플, 앤트로픽, 엔비디아, 세일즈포스 등 주요 AI기업들이 약 17만개의 유튜브 영상 무단 사용

주요 AI기업들의 유튜브 영상 무단 사용 예시 이미지

 

AI 훈련에 사용된 유튜브 영상: 애플과 앤트로픽의 데이터 활용

 최근 The Verge에서 발표된 기사에 따르면, 애플(Apple), 앤트로픽(Anthropic), 엔비디아(Nvidia), 세일즈포스(Salesforce) 등 주요 기술 기업들이 AI 시스템 훈련을 위해 약 17만 개의 유튜브 영상을 사용했다고 합니다. 이 데이터셋은 '유튜브 자막'이라는 이름으로, 영상의 자막을 포함한 것이며, 영상의 이미지는 포함되지 않았습니다. 이 기사는 Proof News와 Wired의 공동 조사를 통해 밝혀진 사실입니다.

 이 데이터셋에는 유명 유튜버인 MrBeast와 마르케스 브라운리(Marques Brownlee)의 영상 자막도 포함되어 있으며, ABC 뉴스, BBC, 뉴욕 타임스 등 주요 뉴스 채널의 클립도 포함되어 있습니다. 특히 The Verge의 100개 이상의 영상과 Vox의 많은 영상도 데이터셋에 포함되어 있습니다.

 브라운리는 자신의 X(구 트위터) 계정에 "애플은 여러 회사로부터 AI 데이터를 공급받았고, 그 중 하나가 유튜브 영상의 자막을 대량으로 수집했다"며 "이 문제는 오랫동안 지속될 문제"라고 언급했습니다.

 유튜브는 The Verge의 논평 요청에 즉각적인 답변을 하지 않았습니다.

 Proof News는 조사 과정의 일환으로 인터랙티브 조회 도구를 공개했습니다. 이 도구를 사용하여 자신의 콘텐츠나 좋아하는 유튜버의 콘텐츠가 데이터셋에 포함되어 있는지 확인할 수 있습니다.

 이 자막 데이터셋은 비영리 단체인 EleutherAI가 제공하는 The Pile이라는 대규모 오픈 소스 컬렉션의 일부입니다. The Pile에는 책, 위키피디아 문서 등 다양한 데이터셋이 포함되어 있습니다. 작년에는 Books3라는 데이터셋 분석을 통해 AI 시스템 훈련에 사용된 작가들의 작품이 밝혀졌고, 이 데이터셋은 작가들이 AI 훈련에 자신들의 저작물이 사용된 회사들을 상대로 소송을 제기하는 데 사용되었습니다.

 AI 회사들은 자사의 AI 시스템에 사용된 데이터에 대해 투명하게 공개하는 경우가 드뭅니다. 최근 몇 달간 유튜브 콘텐츠가 어떻게 사용되고 있는지에 대한 질문이 계속 제기되어 왔습니다. 3월에 OpenAI가 강력한 동영상 생성 도구인 Sora를 공개했을 때, 최고 기술 책임자(CTO) 미라 무라티(Mira Murati)는 시스템이 유튜브 영상으로 훈련되었는지에 대한 질문을 회피했습니다.

 "사용된 데이터의 세부 사항에 대해선 언급하지 않겠지만, 공개적으로 이용 가능하거나 라이센스된 데이터였습니다," 라고 그녀는 월스트리트 저널과의 인터뷰에서 말했습니다. 유튜브 콘텐츠에 대한 질문에는 "잘 모르겠다"고 답했습니다.

 이전 인터뷰에서 유튜브의 CEO 닐 모한(Neal Mohan)은 동영상 콘텐츠를 AI 훈련에 사용하는 것이 플랫폼의 이용 약관을 위반한다고 밝혔습니다. 5월에 Google의 CEO 순다 피차이(Sundar Pichai)도 디코더(Decoder) 에피소드에서 OpenAI가 실제로 유튜브 콘텐츠로 Sora를 훈련했다면 이는 유튜브의 이용 약관을 위반한 것이라고 동의했습니다.

 "우리는 이용 약관이 있으며, 제품을 만들 때 사람들에게 이 약관을 준수할 것을 기대합니다," 라고 피차이는 말했습니다.


AI 훈련에 사용된 유튜브 자막 데이터의 논란

 이번 The Verge의 기사를 통해 밝혀진 AI 훈련 데이터의 문제는 많은 사람들에게 큰 충격을 주었습니다. 특히 애플, 앤트로픽, 엔비디아, 세일즈포스와 같은 거대 기술 기업들이 유튜브 자막 데이터를 무단으로 수집하여 AI 훈련에 사용한 사실은 데이터 윤리와 관련된 심각한 문제를 제기합니다.

 개인적으로 이 사안을 보며 가장 먼저 든 생각은 데이터 수집과 사용의 투명성입니다. AI 기술이 발전하면서 데이터의 중요성은 더욱 커지고 있으며, 이를 어떻게 수집하고 사용하는지는 윤리적 문제와 직결됩니다. 기술 기업들이 사용자에게 알리지 않고 무단으로 데이터를 수집하고 사용하는 것은 사용자들의 신뢰를 저버리는 행위입니다.

 브라운리가 언급한 것처럼, 이러한 문제는 앞으로 더욱 심화될 가능성이 큽니다. AI 기술이 발전함에 따라 더 많은 데이터가 필요하게 되고, 이는 더 많은 데이터 수집과 관련된 논란을 불러일으킬 것입니다. 따라서 기술 기업들은 데이터 수집과 사용에 있어 더욱 투명하고 책임감 있는 자세를 가져야 할 것입니다.

 또한, 유튜브와 같은 플랫폼은 이러한 데이터 수집 행위를 감시하고 방지할 수 있는 강력한 정책과 기술을 마련해야 합니다. 유튜브 콘텐츠를 무단으로 수집하여 AI 훈련에 사용하는 것은 명백히 이용 약관을 위반하는 행위입니다. 유튜브와 같은 플랫폼이 사용자들의 콘텐츠를 보호하고, 데이터의 무단 수집을 방지하기 위한 적극적인 조치가 필요합니다.

 마지막으로, 사용자들 역시 자신의 콘텐츠가 어떻게 사용되고 있는지 주기적으로 확인하고, 문제가 발생했을 때 이를 신고할 수 있는 체계를 갖추는 것이 중요합니다. Proof News가 제공하는 조회 도구와 같은 서비스를 통해 자신의 콘텐츠가 데이터셋에 포함되어 있는지 확인하고, 필요한 경우 조치를 취해야 할 것입니다.

 이번 기사를 통해 우리는 AI 훈련 데이터의 윤리적 문제와 이에 대한 대응 방안에 대해 다시 한 번 생각해보게 되었습니다. 기술의 발전이 우리의 삶을 편리하게 만들어주지만, 그 이면에는 반드시 윤리적 고려가 필요하다는 점을 잊지 말아야 할 것입니다.




원본 출처 : https://www.theverge.com/2024/7/16/24199636/apple-anthropic-nvidia-salesforce-youtube-videos-training-data-copyright