Домой Технологии OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то...

Технологии

OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то исчезли

8 мая, 2024

Компания OpenAI удалила два огромных набора данных «books1» и «books2», которые использовались для обучения модели GPT-3.

Об этом сообщил Business Insider, ссылаясь на материалы судебного иска Authors Guild.

Суть иска

Юристы Authors Guild заявили, что наборы данных GPT-3, вероятно, содержали «более 100 000 опубликованных книг». Таким образом OpenAI использовал защищенные авторским правом материалы для обучения моделей ИИ.

Справка. Authors Guild — старейшая (создана в 1912 году) и самая авторитетная профессиональная организация писателей США. Занимается защитой свободы слова и авторских прав.

В течение нескольких месяцев Authors Guild просила OpenAI предоставить информацию об использованных наборах данных. Сначала компания отказывала, мотивируя это положениями о конфиденциальности Но потом вообще оказалось, что она удалила все копии данных.

Высококачественные учебные данные являются важной частью мощных моделей ИИ. Для построения этих моделей OpenAI и другие компании используют данные из Интернета, в том числе и книги.

Онлайн-курс "Режисура та візуальний сторітелінг" від Skvot. Перетворюй свої ідеї на сильні історії в рекламі, кліпах чи кіно Досвідом ділиться режисер, продюсер та власник продакшену, який 10+ років у професії. Детальніше про курс

Многие компании, которые создали эту информацию, хотят получать деньги за предоставление информации этим новым продуктам ИИ. Технологические компании не хотят, чтобы их заставляли платить. Сейчас этот спор решается в суде по нескольким искам.

100 000 книг — 16% учебных данных GPT-3

В техническом документе 2020 года OpenAI описал наборы данных books1 и books2 как «корпус книг из Интернета» и заявил, что в целом это 16% учебных данных, которые были использованы при создании GPT-3.

В документе также говорится, что «books1» и «books2» вместе содержали 67 миллиардов токенов, или примерно 50 миллиардов слов.

OpenAI прекратила использовать «books1» и «books2» для обучения моделей в конце 2021 года В середине 2022 года их удалили — из-за «непригодности для использования».

Также в документах говорится о том, что двое исследователей, которые создали наборы данных «books1» и «books2», больше не работают в OpenAI. OpenAI отказывается раскрывать информацию о них, хотя и Authors Guild настаивает на этом.

OpenAI обратился в суд с просьбой сохранить имена сотрудников, а также информацию о наборах данных.

«Модели, которые сегодня используют ChatGPT и наш API, не были созданы с использованием этих наборов данных», — говорится в заявлении OpenAI во вторник.

Напомним, была история, когда ИИ-исследовательница и экс-менеджер Amazon Вивиан Гадери обвиняла бывшего работодателя в нарушении требований по авторскому праву.

В марте директор ее команды поставил задачу — найти причины, почему Amazon не достигает своих целей по качеству поиска Alexa. В разговоре он порекомендовал для улучшения результатов игнорировать политику авторского права. Директор попросил обратить внимание на конкурентов со словами «все так делают».

OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то исчезли

Суть иска

100 000 книг — 16% учебных данных GPT-3

Последние новости

У районі Куп’янська росіяни не мають тактичного успіху: ворог втратив 69 окупантів убитими, 97 пораненими

Чотири способи. Як утримати найкращих працівників

Белый дом: Если РФ не поддержит запрет ядерного оружия в космосе, к Путину будут вопросы

ASUS — перший виробник ноутбуків, який випускає Copilot+ PC!

Цены на автогаз выросли на треть за месяц

ПОПУЛЯРНЫЕ СООБЩЕНИЯ

Німеччина буде зобов’язана заарештувати Путіна, якщо він потрапить на територію країни

Глава Киевгорстроя подал в отставку

Смартфон OnePlus 10 Pro: новинка, которую стоит купить

ПОПУЛЯРНАЯ КАТЕГОРИЯ