Модель искусственного интеллекта Claude 3 впервые превзошла GPT-4 на Chatbot Arena

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на Chatbot Arena.

«Король мертв», — написал в X (Twitter) разработчик ПО Ник Добос в посте, в котором сравнивал GPT-4 Turbo и Claude 3 Opus.

Chatbot Arena — это краудсорсинговая открытая платформа для оценки больших языковых моделей. Для составления рейтинга оценивается большое количество человеческих отзывов о работе моделей по системе рейтинга Эло. Как работает тест — люди вводят запрос и выбирают лучший ответ из нескольких вариантов от разных моделей. На основе тысяч пользовательских тестов формируется и ранжируется топ.

Модель штучного інтелекту Claude 3 вперше перевершила GPT-4 на Chatbot Arena

Таблица лидеров Chatbot Arena была запущена 3 мая 2023 года, а GPT-4 была включена в рейтинг 10 мая. С тех пор различные вариации GPT-4 неизменно находились на вершине рейтинга. До сих пор. Поэтому появление нового лидера в этой сфере привлекает к себе внимание. Более того, одна из меньших моделей Anthropic, Haiku, также привлекла внимание своей производительностью в таблице лидеров.

Job Interview Crash Course. Отримайте 6 шаблонів відповідей на співбесіді, які ви зможете використовувати для структурування своїх відповідей. Отримайте знижку 10% за промокодом ITCENG. Приєднатися

«Впервые лучшие доступные модели — Opus для сложных задач, Haiku для экономии и эффективности — доступны от поставщика, который не является OpenAI», — сказал независимый исследователь ИИ Саймон Уиллисон. «Это успокаивает — мы все получаем выгоду от разнообразия ведущих поставщиков в этой области. Но GPT-4 в настоящее время существует более года, и этот год потребовался, чтобы кто-то догнал его».

Вслед за Claude 3 Opus и двумя версиями GPT-4 в рейтинге разместилась модель Bard (Gemini Pro) от Google. Однако, если между первыми тремя позициями разница в баллах Эло незначительная (2-3 балла), то Bard отстает от третьего места уже на 45 баллов. Все остальные конкуренты набрали менее 1200 баллов.

Источник: arstechnica

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!