Назад к новостямМодели
Google DeepMind представила Gemini 2.0: первая модель с настоящим видеопониманием
4 июля 2026 г.·30 просмотров
Новая версия Gemini способна анализировать видео в реальном времени и отвечать на вопросы о происходящем, что открывает новые возможности для ИИ-ассистентов.
Сегодня компания Google DeepMind официально анонсировала Gemini 2.0 — самую мощную мультимодальную модель на сегодняшний день. Главное новшество — способность понимать динамику видео, анализировать действия и предметы в реальном времени, отвечая на вопросы пользователя.
По заявлению разработчиков, Gemini 2.0 превосходит предыдущую версию на 35% в наборе тестов Video-MMLU и на 20% в кросс-модальных задачах, таких как описание изображений и синтез речи. Модель также поддерживает контекст до 10 миллионов токенов, что позволяет обрабатывать длинные видеоролики целиком.
Первые бенчмарки показывают, что Gemini 2.0 обходит конкурентов: GPT-4 Vision и Claude 3 Opus в задачах анализа видео на 25%. При этом стоимость использования снижена на 15% по сравнению с Gemini 1.5 Pro благодаря новым архитектурным решениям.
Модель уже доступна через API Google Cloud и интегрирована в некоторые продукты Google, включая поиск и YouTube. Ожидается, что Gemini 2.0 станет основой для нового поколения цифровых ассистентов, способных взаимодействовать с видеоконтентом.
По заявлению разработчиков, Gemini 2.0 превосходит предыдущую версию на 35% в наборе тестов Video-MMLU и на 20% в кросс-модальных задачах, таких как описание изображений и синтез речи. Модель также поддерживает контекст до 10 миллионов токенов, что позволяет обрабатывать длинные видеоролики целиком.
Первые бенчмарки показывают, что Gemini 2.0 обходит конкурентов: GPT-4 Vision и Claude 3 Opus в задачах анализа видео на 25%. При этом стоимость использования снижена на 15% по сравнению с Gemini 1.5 Pro благодаря новым архитектурным решениям.
Модель уже доступна через API Google Cloud и интегрирована в некоторые продукты Google, включая поиск и YouTube. Ожидается, что Gemini 2.0 станет основой для нового поколения цифровых ассистентов, способных взаимодействовать с видеоконтентом.
Поделиться:
Комментарии
Пока нет комментариев. Будьте первым!