Иск "Нью-Йорк Таймс" против OpenAI способен остановить развитие машинного интеллекта

Иск New York Times против OpenAI и Microsoft о защите авторских прав может в конечном итоге остановить развитие машинного интеллекта

17 января 2024, среда 09:39

amv212 [ ] для раздела Блоги

В 1954 году научный корреспондент газеты Guardian сообщил об " электронном мозге", оснащенном формой памяти, которая позволяла ему за считанные секунды извлекать информацию, например, о распределении мест в самолетах.

The New York Times подала в суд на OpenAI за нарушение авторских прав в рамках дела, которое может изменить порядок формирования больших языковых моделей. Изображение представлено: Tada Images / Shutterstock / The Conversation

В наши дни мы настолько привыкли к тому, что компьютеры накапливают информацию, что даже не задумываемся о том, что на самом деле означают такие слова, как "память". Однако в 50-х годах прошлого века этот термин был новым для большинства людей, и идея "электронного мозга" была очень многообещающей.

Сегодня, в 2024 году, ваша микроволновка обладает гораздо большей вычислительной мощностью, чем то, что в 1950-х годах называлось "электронным мозгом", но мир искусственного интеллекта ставит новые проблемы как перед языковыми формулами, так и перед юристами.

В прошлом месяце газета New York Times подала иск против OpenAI и Microsoft, владельцев популярного инструмента для создания текстов на основе искусственного интеллекта ChatGPT. Суть иска заключается в том, что OpenAI якобы использовала статьи газеты Таймс в моделях обучения (совершенствования) и тестирования своих систем.

В иске говорится, что OpenAI нарушила авторские права, использовав их журналистские материалы в процессе создания ChatGPT. Таким образом, утверждается в судебном заявлении, они создали конкурирующий продукт, который угрожает бизнесу издания.

Несмотря на санкции США, Китай построил на западном оборудовании квантовый компьютер "Сунь Укун"

Реакция OpenAI пока очень осторожна. Однако ключевой принцип, изложенный в заявлении компании, гласит, что использование данных из сети подпадает под принцип, известный как "добросовестное использование". По мнению представителей OpenAI, в процессе работы над текстом, сгенерированным ChatGPT, произведение превращается в нечто совершенно новое.

В основе этой проблемы лежит вопрос об использовании информации. Какие данные могут быть использованы компаниями, подобными OpenAI, и что на самом деле означают такие понятия, как "трансформация", в этих контекстах? Подобные вопросы, связанные с использованием данных, на основе которых обучаются системы искусственного интеллекта или модели, подобные ChatGPT, остаются полем ожесточенной академической баталии. А законодательство часто отстает от достижений промышленности.

Если вы когда-либо пользовались услугами искусственного интеллекта для ответа на электронные письма или подведения итогов работы, то, возможно, вы считаете, что ChatGPT — это цель, оправдывающая средства. С другой стороны, возможно, нас должно беспокоить, что единственным способом достижения этой цели является освобождение конкретных корпораций от действия законов, которые применяются ко всем остальным. Такое положение вещей может не только изменить характер дебатов вокруг исков об авторском праве, подобных текущему инциденту, но и повлечь за собой изменение структуры правовой системы всего мирового сообщества.

Иск New York Times против OpenAI и Microsoft о защите авторских прав может в конечном итоге остановить развитие машинного интеллекта. Издание "Нью-Йорк Таймс" подало в суд на компании Microsoft и OpenAI, создателей Copilot и ChatGPT, за использование его материалов для обучения генеративных инструментов искусственного интеллекта без соответствующего разрешения или оплаты. Газета утверждает, что компании назвали это "добросовестным использованием" и продолжили "копировать данные", несмотря на противодействие со стороны издателя.

Фундаментальные вопросы

Подобные ситуации могут поднимать острые вопросы о перспективах правовых систем, и при этом ставить под сомнение будущее самих моделей искусственного интеллекта. The New York Times считает, что ChatGPT угрожает долгосрочному существованию самой газеты.

По этому поводу OpenAI в своем заявлении говорит, что сотрудничает с новостными агентствами, предоставляя новые возможности для журналистики. Цели компании - " способствовать развитию здоровой новостной экосистемы" и "быть достойным партнером".

Даже с учетом того, что системы искусственного интеллекта являются необходимым компонентом будущего нашего общества, разрушение источников данных, на которых они изначально обучались, кажется плохой идеей. Эту точку зрения разделяют такие креативные издания, как New York Times, известный американский писател Джордж Р. Р. Мартин, а также онлайн-энциклопедия Wikipedia.

Япония первой в мире применила квантовые технологии в серийном производстве передовых чипов - AT

Сторонники масштабного сбора данных - например, тех, что используются для создания больших языковых моделей (LLM), технологии, лежащей в основе AI-чатботов, таких как ChatGPT, - утверждают, что системы искусственного интеллекта "трансформируют" данные, на которых они "тренируются", а обучившись создают что-то новое. По сути, речь идет о том, что исследователи передают данные, написанные людьми, и просят систему угадать следующие слова в предложении, как это было бы при работе с реальным запросом пользователя.

Скрывая, а затем открывая эти ответы, ученые могут предложить "бинарный" ответ "да" или "нет", который поможет подтолкнуть системы искусственного интеллекта к более точным прогнозам. Именно по этой причине большим языковым моделям нужны огромные массивы письменной информации.

Если бы кто-то скопировал один в один статьи с сайта New York Times и начал брать за достук к этим материалам деньги, то многие назвали бы это "классическим воровством в массовом масштабе" (как говорится в иске газеты). Однако повысить эффективность работы искусственного интеллекта, используя данные для его обучения, как показано выше, гораздо сложнее.

Компании, подобные OpenAI, не хранят свои учебные материалы, и поэтому утверждают, что статьи из New York Times, попавшие в эту базу, никогда не используются повторно. Контраргумент против такой защиты искусственного интеллекта заключается в том, что существуют доказательства того, что такие системы, как ChatGPT, могут "сливать" в сеть дословные выдержки из своих обучающих файлов. OpenAI утверждает, что такие "ошибки" случаются крайне редко.

В июля прошлого года два писателя заявили, что OpenAI "проглотила" их книги для обучения ChatGPT. Недавно они подали в суд на компанию. За этим может последовать целая "волна" подобных судебных разбирательств. На снимке Сэм Альтман, генеральный директор компании OpenAI. Практика получения информации, используемая в ChatGPT, вызывает повышенное внимание как со стороны гигантов соцсетей, так и со стороны авторов. Jason Redmond/Agence France-Presse, AFP via Getty Images; Jaap Arriens/NurPhoto via Getty Images

И тем не менее, это говорит о том, что такие системы действительно хранят и запоминают некоторую часть информации, на которой они обучаются - хоть и непреднамеренно - и могут дословно воспроизвести ее, когда им задают определенные вопросы. Таким образом можно запросто обойти любые "платные барьеры", которые может установить коммерческое издание для защиты своей интеллектуальной собственности.