OpenAI тайно транскрибировала миллионы часов видео YouTube для обучения своего ИИ

Секреты обучения ИИ раскрыты: технологические гиганты прибегают к незаконным практикам, чтобы получить необходимые данные для своих моделей.

9 апреля 2024, вторник 05:03

TheTechBlog [ ] для раздела Блоги

Процесс обучения ИИ в крупных технологических компаниях остается довольно непрозрачным. Детали этого процесса сложно узнать, так как часто они связаны с нарушением авторских прав.

Недавно The New York Times подробно описала, как OpenAI получала данные для обучения своей новой языковой модели GPT-4. Оказалось, что компания исчерпала "все запасы надежных англоязычных текстов в Интернете" и создала инструмент Whisper для транскрипции более миллиона часов видео YouTube - что является нарушением правил платформы.

Представитель ChatGPT рассказал The Verge, что компания использует "множество источников, включая общедоступные данные и некоторые партнерские отношения для непубличных данных". В будущем Big Tech может также прибегнуть к использованию синтетических данных, генерируемых самими моделями ИИ.

Однако, по-видимому, кража данных остается наиболее распространенной стратегией в этой отрасли. Технологические гиганты нуждаются в большом объеме данных для обучения ИИ и готовы идти на нарушения ради этого.