- Google выпустила новую модель Gemini 2.0, которая мощнее предыдущей и оснащена функциями мультимодальности.
- В обновленную версию добавлен инструмент Deep Research для рассуждений.
- Дополнительно представлен ИИ-агент Project Mariner — он способен выполнять действия на компьютере вместо пользователя.
- Google анонсировала улучшение системы сводок поисковых запросов AI Overviews.
11 декабря Google представила «свою самую мощную на сегодняшний день» модель искусственного интеллекта — Gemini 2.0.
Welcome to the world, Gemini 2.0 ✨ our most capable AI model yet.
We're first releasing an experimental version of 2.0 Flash ⚡ It has better performance, new multimodal output, @Google tool use — and paves the way for new agentic experiences. 🧵 https://t.co/ywY2oZv76p pic.twitter.com/1Wgcr3m2Ip— Google DeepMind (@GoogleDeepMind) December 11, 2024
Первоначально запущена экспериментальная версия 2.0 Flash, которая имеет высокую производительность, функции мультимодальности и «прокладывает путь для нового агентского опыта».
Gemini 2.0 Flash превосходит 1.5 Pro по ключевым метрикам, демонстрируя удвоенную скорость. Она способна генерировать изображения, текст и речь на нескольких языках. Сообщается, что модель значительно улучшена в областях программирования и анализа картинок.
2.0 Flash становится флагманской нейросетью вместо 1.5 Pro. Новая нейросеть может использовать сторонние приложения и сервисы вроде поиска Google и внешних API, что отличает ее от предыдущего поколения.
As our workhorse model, Gemini 2.0 Flash outperforms 1.5 Pro on key benchmarks, at twice the speed.
It can generate images mixed with text as well as customizable text-to-speech multilingual audio. 2.0 Flash can also call tools like @Google Search, code execution and third-party… pic.twitter.com/OVicGFnJdP— Google DeepMind (@GoogleDeepMind) December 11, 2024
Gemini 2.0 Flash доступна в чат-версии для всех желающих, экспериментальная мультимодальная нейросеть с функциями преобразования текста в речь и изображения — для разработчиков через Gemini API в Google AI Studio и Vertex AI. В ближайшие месяцы улучшенная версия ИИ плавно распространится на разные продукты вроде Android Studio, Chrome DevTools, Firebase, Gemini Code Assist и другие.
ИИ-агент Google
ИИ-подразделение Google — DeepMind — представило своего первого ИИ-агента, который способен самостоятельно действовать в интернете.
Project Mariner создан на базе Gemini 2.0 и доступен ограниченной группе тестировщиков. Он контролирует браузер Chrome, перемещает курсор на экране, нажимает на кнопки, заполняет формы, то есть способен перемещаться по веб-сайтам и вести себя как человек.
После настройки ИИ-агента справа в браузере появляется окно чата. Там можно задать инструкции нейросети, например, предложить создать корзину покупок из продуктового магазина на основе прикрепленного списка.
После указания всех параметров агент перейдет на веб-сайт супермаркета, найдет нужные товары и добавит в виртуальную корзину. Скорость его работы медленная — на нажатие одной кнопки уходит около пяти секунд.
Project Mariner не способен заполнить номера кредитных карт и другую платежную информацию, принимать файлы cookie и подписывать соглашения по предоставлению услуг. Это сделано намеренно, чтобы у пользователей оставалось больше контроля.
Агент может использоваться для поиска рейсов, отелей, рецептов, покупки предметов и других задач. Во время выполнения запроса пользоваться компьютером нельзя.
Project Mariner пока недоступен широкой общественности, дата его публичного релиза неизвестна.
Другие ИИ-агенты
Помимо Project Mariner корпорация Google представила ряд других ИИ-агентов для более узкоспециализированных задач:
- Deep Research способен помочь исследовать сложные темы, создавая многоэтапные планы обучения. Он не предназначен для решения математических и логических задач, написания кода или анализа данных;
- Jules может программировать, он интегрируется в рабочие процессы на GitHub, появится в 2025 году;
- еще один ИИ ориентирован на помощь в видеоиграх, дата его выпуска неизвестна.
Gemini научили рассуждать
Обновленная версия Gemini получила функцию Deep Research, которая использует «продвинутые рассуждения» и «возможности длинного контекста» для создания краткой выдержки об исследованиях. Брифы можно экспортировать в Google Docs для дополнительного редактирования.
The new Deep Research feature from Google feels like one of the most appropriately "Google-y" uses of AI to date, and is quite impressive.
I've had access for a bit and it does very good initial reports on almost any topic. The paywalls around academic sources puts some limits. pic.twitter.com/dwSqr6aKGZ— Ethan Mollick (@emollick) December 11, 2024
Сервис может анализировать информацию касательно запроса с помощью интернета, выступая в роли своего рода научного сотрудника. Результат раздумий подается в виде краткого резюме с ссылками на источники. Процедура следующая:
- Пользователь пишет запрос.
- Deep Research создает «многоэтапный план исследования».
- Пользователь подтверждает старт анализа.
- Deep Research проводит исследование в течение нескольких минут и генерирует ответ.
Сервис доступен для владельцев платной версии Gemini Advanced.
AI Overviews станет умным и мультимодальным
Google анонсировала улучшение системы сводок поисковых запросов AI Overviews. Сообщается, что сервис вскоре сможет обрабатывать «более сложные темы», «мультимодальные» и «многоэтапные» поиски, в том числе расширенные математические запросы и задачи программирования.
Тестирование функционала начнется на этой неделе, а широкое распространение — в начале следующего года.
Улучшение AI Overviews обусловлено запуском Gemini 2.0.
Напомним, в ноябре Google обучила чат-бот Gemini запоминать контекстную информацию о жизни пользователя, интересах и предпочтениях.