
Группа писателей подала в суд на Meta, запрещённую на территории России экстремистскую организацию, утверждая, что компания незаконно использовала материалы, охраняемые авторским правом, при разработке своих языковых моделей Llama 1 и Llama 2 large. В ответ на это Facebook обратился к писательнице и комику Саре Сильверман, писателю Ричарду Кэдри и другим правообладателям, которые инициировали судебное разбирательство, и признал, что их коллекция книг была использована при обучении искусственного интеллекта.
Meta признана виновной в использовании набора данных Books3, включая другие материалы, при обучении моделей Llama 1 и Llama 2. Books3 является широко известной коллекцией текстов из более чем 195 000 книг, общим объемом около 37 ГБ. Этот архив был создан исследователем искусственного интеллекта Шоном Прессером в 2020 году в качестве лучшего источника данных для улучшения алгоритмов машинного обучения.
Books3 был широко использован в обучении искусственного интеллекта многими исследователями, включая большие технологические компании, такие как Meta. По таким же причинам, New York Times подала в суд на OpenAI и Microsoft за предполагаемое использование миллионов статей, охраняемых авторским правом, для разработки своего чат-бота ChatGPT.

OpenAI заявила, что обучение моделей искусственного интеллекта без использования охраняемых авторским правом материалов является невозможным и суды должны отклонять иски о компенсации, поданные правообладателями. Такую же позицию заняла и Meta, признав использование Books3, но отрицая какое-либо преднамеренное нарушение.
Meta сообщила, что использование частей набора данных Books3 не требовало согласия, указания авторства или выплаты компенсаций. Компания отвергает обвинения в предполагаемом нарушении авторских прав истцов, утверждая, что любые несанкционированные копии охраняемых авторским правом произведений в Books3 следует рассматривать как добросовестное использование.
Более того, Meta оспаривает законность объединения иска в коллективный, отказываясь предоставлять какую-либо финансовую поддержку авторам иска или другим участникам спора о Books3. Набор данных, который включает материалы, охраняемые авторским правом и взятые с пиратского сайта Bibliotik, в 2023 году стал целью датской антипиратской группы Rights Alliance, которая потребовала запретить цифровое сохранение Books3 и использовала уведомления DMCA для принудительного удаления данных.

