Исследователи из Великобритании и Канады заявляют о возможном "коллапсе модели" в результате обучения AI на контенте, сгенерированном AI. С появлением генеративного AI, такого как ChatGPT от OpenAI, все больше людей используют AI для создания и публикации контента. Это приводит к вопросу: что произойдет, когда AI начнет обучаться на AI-сгенерированном контенте, а не на контенте, созданном в основном людьми?
Исследователи обнаружили, что использование контента, сгенерированного моделью, в обучении вызывает необратимые дефекты в результирующих моделях. Этот процесс, известный как "коллапс модели", происходит, когда модели забывают истинное распределение данных и начинают ошибочно воспринимать реальность.
С течением времени ошибки в сгенерированных данных накапливаются и в конечном итоге заставляют модели, обучающиеся на сгенерированных данных, еще больше искажать реальность. Это может привести к серьезным последствиям, таким как дискриминация на основе пола, этнической принадлежности или других чувствительных атрибутов.
Однако есть способы избежать "коллапса модели". Один из них - сохранение оригинального набора данных, созданного исключительно или преимущественно людьми, и избегание его загрязнения AI-сгенерированными данными. Другой способ - введение новых, чистых, созданных человеком наборов данных обратно в их обучение.
Эти выводы подчеркивают необходимость улучшенных методологий для поддержания целостности генеративных моделей со временем. Они подчеркивают риски неконтролируемых генеративных процессов и могут направить будущие исследования на разработку стратегий для предотвращения или управления "коллапсом модели".