DeepSeek представила модель ИИ V3.2-exp: двукратное снижение затрат на вывод в операциях с длинным контекстом

DeepSeek представила модель ШІ V3.2-exp: дворазове зниження витрат на виведення в операціях з довгим контекстом

Исследователи компании DeepSeek представили новую экспериментальную модель V3.2-exp, созданную для существенного снижения затрат на вывод при работе с большими объемами контекста. Анонс появился на платформе Hugging Face, а также выложили связанную научную статью с описанием системы на GitHub.

Ключевой особенностью новой модели является система DeepSeek Sparse Attention, сложный механизм, подробно показанный в схеме ниже. Суть в том, что используется модуль под названием «скоростной индексатор», который приоритезирует отдельные фрагменты окна контекста. После этого другая подсистема — «система точного отбора токенов» — отбирает конкретные токены из этих фрагментов для загрузки в ограниченное окно внимания модуля. В сочетании эти механизмы позволяют моделям Sparse Attention эффективно работать с большими фрагментами контекста при относительно небольшой нагрузке на серверы.

В длинноконтекстных задачах преимущества такого подхода особенно заметны. Предварительное тестирование DeepSeek показало, что цена обычного API-запроса может сокращаться почти вдвое, когда речь идет о работе с большим контекстом. Хотя для получения окончательных выводов требуются дальнейшие исследования, открытость весов модели и ее доступность на Hugging Face позволят сторонним экспертам быстро проверить заявленные результаты.

Новая модель DeepSeek является частью ряда прорывов в сфере оптимизации стоимости вывода — то есть затрат на работу уже натренированной ИИ-модели, что отличается от высоких затрат на этапе ее обучения. В этом случае исследователи стремились заставить базовую трансформерную архитектуру работать эффективнее, и, по их словам, потенциал для улучшения здесь действительно значителен.

Компания DeepSeek, базирующаяся в Китае, имеет особое положение на рынке ИИ, особенно на фоне восприятия этой отрасли как конкурентной борьбы между США и Китаем. В начале года компания привлекла внимание к себе моделью R1 (которая собирает множество данных пользователя и искажает информацию о Китае), обученной преимущественно с помощью методов обучения с подкреплением и при этом с гораздо меньшими затратами, чем у американских конкурентов. Впрочем, ожидаемого прорыва в методах обучения R1 не вызвала, и за последние месяцы DeepSeek отошла от всеобщего внимания.

Хочеш знати більше, ніж ChatGPT 5? Підписуйся на ITC.ua у TelegramПІДПИСАТИСЯ

Новый подход Sparse Attention, скорее всего, не вызовет такого же ажиотажа, как R1. Но он может стать важным уроком для американских компаний, которые пытаются снизить затраты на вывод и сделать работу своих моделей более экономной.

Источник: techcrunch

DeepSeek представила модель ИИ V3.2-exp: двукратное снижение затрат на вывод в операциях с длинным контекстом

Subscribe

«Экономика РФ рушится»: Трамп назвал потери Путина в войне и рассказал об очередях за бензином

Блокировать счета и приостанавливать водительские права: украинцы предлагают нардепу изменения в мобилизации

Минэкономики объяснило задержку с выплатой нацкешбэка его рекордным размером

В Украине заработал сервис HBO Max — подписка уже доступна, по цене от €7,99/месяц

Украина и ЕС приняли решение об обновленных условиях торговли

Другие новости
Related

Украина и Нидерланды запускают совместное производство вооружений

В Украине утвердили порядок реинтеграции освобожденных из плена защитников

Убийство подростка на фуникулере: приговоренный к пожизненному Косов подал апелляцию

Ссора Трампа и Макрона на сцене в Егитпти: их разговор разобрала по губам специалист (видео)

DeepSeek представила модель ИИ V3.2-exp: двукратное снижение затрат на вывод в операциях с длинным контекстом

Subscribe

Другие новостиRelated

Другие новости
Related