Google показал Project Astra — ИИ-ассистента с голосовым и визуальным распознаванием, похожего на GPT-4o

Раздел Технологии выходит при поддержке Favbet Tech

На презентации Google I/O 2024 компания показала виртуального помощника Project Astra с искусственным интеллектом и визуальным распознаванием на основе Google Gemini, который находится на стадии разработки. Говоря об Astra, CEO экспериментальной лаборатории DeepMind, Демис Хассабис рассказал, что его команда всегда хотела разработать универсального агента ИИ, который был бы полезными в повседневной жизни.

Project Astra — это программа, основными интерфейсами ввода данных которой являются камера и голос. Человек со смартфоном направил его камеру в разные части офиса и дал Astra задание: «Скажи мне, когда увидишь что-то, что издает звук». Когда виртуальный ассистент увидел динамик рядом с монитором, он ответил: «Я вижу динамик, который издает звук». Демонстратор нарисовал на экране стрелку к верхнему кругу на динамике и спросил: «Как называется эта часть динамика?». Программа мгновенно ответила: «Это твитер. Он издает высокочастотные звуки».

Google показав Project Astra — ШІ-асистента з голосовим та візуальним розпізнаванням, схожого на GPT-4o

Затем в видео, которое, по словам Google, было записано за один дубль, тестировщик подошел к чашке с цветными карандашами ниже за столом и спросил «Дай мне творческую аллитерацию об этом», на что получил ответ сказал: «Креативные цветные карандаши весело окрашены. Они обычно создают красочные произведения». Далее в видео показано, как Astra идентифицирует и объясняет части кода на мониторе и сообщает пользователю, в каком районе он находится, на основе вида из окна. Astra смогла ответить на вопрос: «Вы помните, где вы видели мои очки?» несмотря на то, что они были скрыты. «Да, я знаю. Твои очки лежали на столе рядом с красным яблоком».

Google показав Project Astra — ШІ-асистента з голосовим та візуальним розпізнаванням, схожого на GPT-4o

После этого тестер надел очки, и видео получило перспективу от первого лица. Используя встроенную камеру, очки сканировали окружение, взгляд был направлен на диаграмму на доске. Человек на видео спросил: «Что я могу здесь добавить, чтобы сделать эту систему быстрее?». Программа ответила: «Добавление кэша между сервером и базой данных может повысить скорость».

Онлайн-курс "Проджект-менеджер в ІТ" від Laba. Навчіться запускати, контролювати й успішно реалізовувати ІТ-проєкти. Пройти весь шлях проєктного управління на реальному кейсі вам допоможе PMD із 19-річним досвідом в ІТ. Детальніше про курс

Испытатель посмотрел на пару кошек, изображенных на доске, и спросил: «Что это тебе напоминает?». Astra сказала: «Кот Шредингера»Когда плюшевую игрушку-тигру положили рядом с золотистым ретривером и попросили назвать эту группу, Astra ответила «Золотые полосы».

Демонстрация доказывает, что Astra не только обрабатывала визуальные данные в режиме реального времени, но и запоминала увиденное и работала с сохраненной информацией. По словам Хассабиса, это происходило из-за более быстрой обработки информации путем непрерывного кодирования видеокадров, сочетания видео и речевого ввода с временной шкалой событий и кэширования этой информации для эффективного использования.

На видео Astra довольно быстро реагировала на запросы. Хассабис отметил в заметке в блоге: «Хотя мы достигли невероятного прогресса в разработке систем искусственного интеллекта, которые могут понимать мультимодальную информацию, сокращение времени ответа до разговорного является сложной инженерной задачей». Google также работает над тем, чтобы предоставить своему ИИ больший диапазон разнообразия и эмоциональных оттенков.

Хотя Astra остается ранней функцией без конкретных планов по запуску, Хассабис сообщил, что в будущем подобные помощники могут быть доступны в телефоне или очках. Пока нет информации о том, станут ли такие очки преемником Google Glass, но руководитель DeepMind отметил, что некоторые продемонстрированные возможности станут доступны в продуктах Google позже в этом году.

Gemini 1.5 Flash — быстрая мультимодальная модель Google с контекстным окном в 2 млн токенов

Онлайн-курс "Проджект-менеджер в ІТ" від Laba. Навчіться запускати, контролювати й успішно реалізовувати ІТ-проєкти. Пройти весь шлях проєктного управління на реальному кейсі вам допоможе PMD із 19-річним досвідом в ІТ. Детальніше про курс

Источник: Engadget

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.