Компания OpenAI удалила два огромных набора данных «books1» и «books2», которые использовались для обучения модели GPT-3.

Об этом сообщил Business Insider, ссылаясь на материалы судебного иска Authors Guild.

Суть иска

Юристы Authors Guild заявили, что наборы данных GPT-3, вероятно, содержали «более 100 000 опубликованных книг». Таким образом OpenAI использовал защищенные авторским правом материалы для обучения моделей ИИ.

Справка. Authors Guild — старейшая (создана в 1912 году) и самая авторитетная профессиональная организация писателей США. Занимается защитой свободы слова и авторских прав.

В течение нескольких месяцев Authors Guild просила OpenAI предоставить информацию об использованных наборах данных. Сначала компания отказывала, мотивируя это положениями о конфиденциальности Но потом вообще оказалось, что она удалила все копии данных.

Высококачественные учебные данные являются важной частью мощных моделей ИИ. Для построения этих моделей OpenAI и другие компании используют данные из Интернета, в том числе и книги.

Онлайн-курс "Режисура та візуальний сторітелінг" від Skvot. Перетворюй свої ідеї на сильні історії в рекламі, кліпах чи кіно Досвідом ділиться режисер, продюсер та власник продакшену, який 10+ років у професії. Детальніше про курс

Многие компании, которые создали эту информацию, хотят получать деньги за предоставление информации этим новым продуктам ИИ. Технологические компании не хотят, чтобы их заставляли платить. Сейчас этот спор решается в суде по нескольким искам.

100 000 книг — 16% учебных данных GPT-3

В техническом документе 2020 года OpenAI описал наборы данных books1 и books2 как «корпус книг из Интернета» и заявил, что в целом это 16% учебных данных, которые были использованы при создании GPT-3.

В документе также говорится, что «books1» и «books2» вместе содержали 67 миллиардов токенов, или примерно 50 миллиардов слов.

OpenAI прекратила использовать «books1» и «books2» для обучения моделей в конце 2021 года В середине 2022 года их удалили — из-за «непригодности для использования».

Также в документах говорится о том, что двое исследователей, которые создали наборы данных «books1» и «books2», больше не работают в OpenAI. OpenAI отказывается раскрывать информацию о них, хотя и Authors Guild настаивает на этом.

Онлайн-курс "Режисура та візуальний сторітелінг" від Skvot. Перетворюй свої ідеї на сильні історії в рекламі, кліпах чи кіно Досвідом ділиться режисер, продюсер та власник продакшену, який 10+ років у професії. Детальніше про курс

OpenAI обратился в суд с просьбой сохранить имена сотрудников, а также информацию о наборах данных.

«Модели, которые сегодня используют ChatGPT и наш API, не были созданы с использованием этих наборов данных», — говорится в заявлении OpenAI во вторник.

Напомним, была история, когда ИИ-исследовательница и экс-менеджер Amazon Вивиан Гадери обвиняла бывшего работодателя в нарушении требований по авторскому праву.

В марте директор ее команды поставил задачу — найти причины, почему Amazon не достигает своих целей по качеству поиска Alexa. В разговоре он порекомендовал для улучшения результатов игнорировать политику авторского права. Директор попросил обратить внимание на конкурентов со словами «все так делают».