Корпорация Meta выпустила новую линейку открытых ИИ-моделей Llama 4. Они обходят конкурентов по ряду бенчмарков, свидетельствуют данные внутренних тестов.
В основе серии лежит Llama 4 Behemoth — большая языковая модель (LLM) с 2 трлн параметров. Она находится в стадии обучения и пока не выпущена. Две ее мультимодальные дистилляции — Maverick и Scout — доступны для разработчиков и пользователей.
ИИ-помощник Meta AI, доступный в различных продуктах компании вроде WhatsApp, Messenger и Instagram, уже обновлен для использования Llama 4 в 40 странах. Мультимодальные функции пока доступны только в США.
Утверждается, что Behemoth, или LLM-учитель двух других моделей, превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro в ориентированных на STEM бенчмарках, вроде MATH-500 и GPQA Diamond.
«Это только начало для коллекции Llama 4. Мы считаем, что самые интеллектуальные системы должны быть способны выполнять обобщенные действия, естественно общаться с людьми и решать сложные задачи, с которыми они раньше не сталкивались. Наделение Llama сверхспособностями в этих областях приведет к созданию лучших продуктов для людей на наших платформах и расширит возможности разработчиков по внедрению инноваций в следующие крупные потребительские и бизнес-сферы», — говорится в анонсе компании.
Новая архитектура
Llama 4 — первая серия моделей, которые используют архитектуру Mixture of Experts (MoE). Так, у Maverick 128 «экспертов» и 400 млрд общих параметров, но только 17 млрд активных. У Scout показатели 16, 109 млрд и 17 млрд соответственно.
Согласно внутренним тестам компании, Maverick превосходит модели вроде GPT-4o и Gemini 2.0 в некоторых тестах программирования, рассуждений, поддержки языков, длинных контекстов и изображений. Но нейросеть не дотягивает до более мощных и современных Gemini 2.5 Pro от Google, Claude 3.7 Sonnet от Anthropic и GPT-4.5 от OpenAI.
Maverick лучше подходит для применения в качестве общего помощника и чата. Сильные стороны Scout — обобщение документов и рассуждения над большими базами. Последняя способна работать на одном графическом процессоре Nvidia H100, в то время как для Maverick требуется система Nvidia H100 DGX или эквивалентная ей.
Скандал вокруг Llama 4
Maverick заняла второе место в LLM Arena — тесте, в котором люди сравнивают работу различных моделей и формируют «пользовательский» рейтинг.
Несколько исследователей обратили внимание, что в тестах принимала участие специально оптимизированная версия Maverick, недоступная разработчикам. Версия для LLM Arena использует больше эмодзи и дает необычайно длинные ответы.
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
Из-за этого пользователям сложно предсказать реальную производительность нейросети в «бытовых» условиях.
Опровержение
Вице-президент по генеративному искусственному интеллект в Meta Ахмад Аль-Дахле опроверг информацию о настройке модели для конкретных тестов.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
«Это просто неправда, и мы никогда бы так не поступили», — подчеркнул он.
По словам руководителя, «переменное качество, которое наблюдают люди, связано с необходимостью стабилизировать реализацию».
«Поскольку мы выпустили модели сразу же, как только они были готовы, мы ожидаем, что потребуется несколько дней, чтобы все публичные внедрения были настроены», — добавил он.
Напомним, в ноябре 2024 года Meta открыла свои ИИ-технологии для правительственных учреждений и оборонных подрядчиков США и союзников.
Ранее она представила Movie Gen — ИИ-генератор для создания новых видео, редактирования существующих и добавления звука к ним.