Google DeepMind представила Gemini 2.0: первая модель с настоящим видеопониманием

Новая версия Gemini способна анализировать видео в реальном времени и отвечать на вопросы о происходящем, что открывает новые возможности для ИИ-ассистентов.

Сегодня компания Google DeepMind официально анонсировала Gemini 2.0 — самую мощную мультимодальную модель на сегодняшний день. Главное новшество — способность понимать динамику видео, анализировать действия и предметы в реальном времени, отвечая на вопросы пользователя.

По заявлению разработчиков, Gemini 2.0 превосходит предыдущую версию на 35% в наборе тестов Video-MMLU и на 20% в кросс-модальных задачах, таких как описание изображений и синтез речи. Модель также поддерживает контекст до 10 миллионов токенов, что позволяет обрабатывать длинные видеоролики целиком.

Первые бенчмарки показывают, что Gemini 2.0 обходит конкурентов: GPT-4 Vision и Claude 3 Opus в задачах анализа видео на 25%. При этом стоимость использования снижена на 15% по сравнению с Gemini 1.5 Pro благодаря новым архитектурным решениям.

Модель уже доступна через API Google Cloud и интегрирована в некоторые продукты Google, включая поиск и YouTube. Ожидается, что Gemini 2.0 станет основой для нового поколения цифровых ассистентов, способных взаимодействовать с видеоконтентом.

Google DeepMind представила Gemini 2.0: первая модель с настоящим видеопониманием

Комментарии