OpenAI тайно транскрибировала миллионы часов видео YouTube для обучения своего ИИ

Процесс обучения ИИ в крупных технологических компаниях остается довольно непрозрачным. Детали этого процесса сложно узнать, так как часто они связаны с нарушением авторских прав.
Недавно The New York Times подробно описала, как OpenAI получала данные для обучения своей новой языковой модели GPT-4. Оказалось, что компания исчерпала "все запасы надежных англоязычных текстов в Интернете" и создала инструмент Whisper для транскрипции более миллиона часов видео YouTube - что является нарушением правил платформы.
Представитель ChatGPT рассказал The Verge, что компания использует "множество источников, включая общедоступные данные и некоторые партнерские отношения для непубличных данных". В будущем Big Tech может также прибегнуть к использованию синтетических данных, генерируемых самими моделями ИИ.
Однако, по-видимому, кража данных остается наиболее распространенной стратегией в этой отрасли. Технологические гиганты нуждаются в большом объеме данных для обучения ИИ и готовы идти на нарушения ради этого.
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.


Комментарии Правила