Google DeepMind запускает Gemini Ultra 2.0 с мультимодальной генерацией

Новая модель от Google DeepMind способна одновременно генерировать текст, изображения и аудио с высоким качеством.

Сегодня компания Google DeepMind официально представила Gemini Ultra 2.0 — свою новейшую мультимодальную модель, способную генерировать контент в трёх форматах: текст, изображения и аудио. По заявлению разработчиков, модель превосходит предыдущую версию на 30% по качеству генерации изображений и на 25% по точности синтеза речи. В основе модели лежит архитектура Mixture-of-Experts с 500 миллиардами параметров.

Gemini Ultra 2.0 уже доступна в Google Cloud AI Platform и API для разработчиков. Стоимость использования составляет 0.10 доллара за 1000 токенов ввода и 0.05 доллара за 1000 токенов вывода для текста, а генерация изображений разрешением 1024x1024 обойдётся в 0.02 доллара за кадр. Аудио-генерация тарифицируется отдельно — 0.01 доллара за минуту синтезированной речи.

Первые тесты показали, что модель способна создавать реалистичные изображения по текстовому описанию, генерировать аудиокниги с разными голосами и даже комбинировать форматы, например, иллюстрировать аудиоистории. В бенчмарке MMMU (Multimodal Multi-task Understanding) модель набрала 92.4%, обойдя GPT-4V и Claude 3 Opus.

Аналитики уже называют запуск Gemini Ultra 2.0 шагом к полностью автоматизированному созданию медиа. Однако эксперты предупреждают о рисках, связанных с дипфейками и авторскими правами. Google DeepMind обещает внедрить водяные знаки для всех генерируемых изображений и аудио, а также ограничить генерацию контента, нарушающего политику безопасности.

Google DeepMind запускает Gemini Ultra 2.0 с мультимодальной генерацией

Комментарии