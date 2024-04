Процесс обучения ИИ в крупных технологических компаниях остается довольно непрозрачным. Детали этого процесса сложно узнать, так как часто они связаны с нарушением авторских прав.



Недавно The New York Times подробно описала, как OpenAI получала данные для обучения своей новой языковой модели GPT-4. Оказалось, что компания исчерпала "все запасы надежных англоязычных текстов в Интернете" и создала инструмент Whisper для транскрипции более миллиона часов видео YouTube - что является нарушением правил платформы.



Представитель ChatGPT рассказал The Verge, что компания использует "множество источников, включая общедоступные данные и некоторые партнерские отношения для непубличных данных". В будущем Big Tech может также прибегнуть к использованию синтетических данных, генерируемых самими моделями ИИ.



Однако, по-видимому, кража данных остается наиболее распространенной стратегией в этой отрасли. Технологические гиганты нуждаются в большом объеме данных для обучения ИИ и готовы идти на нарушения ради этого.