IT обозрение
Воскресенье, 25 января, 2026
No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lv Latviešu valoda
    • lt Lietuvių kalba
    • pl Polski
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lv Latviešu valoda
    • lt Lietuvių kalba
    • pl Polski
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
No Result
View All Result
IT обозрение
No Result
View All Result
Home ИИ

Новый тест поставил в тупик большинство ИИ-моделей

25.03.2025
A A
0
Share on FacebookShare on Twitter

Tool_AI

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.

ЭТО ИНТЕРЕСНО

Эксперт: ИИ способен демократизировать рынки предсказаний

Эксперт: ИИ способен демократизировать рынки предсказаний

23.01.2026
Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

23.01.2026

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.

Пример вопроса из ARC-AGI-2. Данные: Arc Prize.

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

«Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.
It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями.

Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize.

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

Читайте так-же

Эксперт: ИИ способен демократизировать рынки предсказаний
ИИ

Эксперт: ИИ способен демократизировать рынки предсказаний

23.01.2026
0

Искусственный интеллект способен выполнять роль встроенного прямо в блокчейн судьи на рынках предсказаний. Такое мнение выразил профессор политической экономики в...

Read more
Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

23.01.2026
Эксперт предсказал крах OpenAI

Эксперт предсказал крах OpenAI

23.01.2026
CEO Anthropic предсказал скорое появление AGI и сокращения рабочих мест

CEO Anthropic предсказал скорое появление AGI и сокращения рабочих мест

22.01.2026
YouTube представил ИИ-аватары и объявил войну низкокачественному контенту

YouTube представил ИИ-аватары и объявил войну низкокачественному контенту

22.01.2026

ТОП НОВОСТИ

Кристоф Ган признался, что получал угрозы расправы от фанатов после первого фильма по Silent Hill

Кристоф Ган признался, что получал угрозы расправы от фанатов после первого фильма по Silent Hill

25.01.2026
Exynos 2600 обогнал Snapdragon 8 Elite Gen 5 в тесте графики

Exynos 2600 обогнал Snapdragon 8 Elite Gen 5 в тесте графики

25.01.2026
Крис Пайн ничего не знает о будущем франшизы Star Trek

Крис Пайн ничего не знает о будущем франшизы Star Trek

25.01.2026
Blizzard признала, что аддоны в World of Warcraft «зашли слишком далеко»

Blizzard признала, что аддоны в World of Warcraft «зашли слишком далеко»

24.01.2026
Фото и видео Xiaomi Tag, китайского аналога AirTag

Фото и видео Xiaomi Tag, китайского аналога AirTag

24.01.2026

ПОПУЛЯРНОЕ

  • Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

    Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

    0 shares
    Share 0 Tweet 0
  • Рецензия на фильм «Каховский объект»

    0 shares
    Share 0 Tweet 0
  • Эксперты раскритиковали инициативу с запретом современных протоколов шифрования — это может угрожать стабильности Рунета

    0 shares
    Share 0 Tweet 0
  • Обои Samsung Galaxy S24 уже доступны всем желающим [скачать]

    0 shares
    Share 0 Tweet 0
  • Анонсирована Oil Empire – кликер про создание нефтяной империи с элементами стратегии

    0 shares
    Share 0 Tweet 0
  • О нас
  • Реклама
  • Контакты
  • Политика конфиденциальности
  • Sitemap
Реклама: digestmediaholding@gmail.com

Использование любых материалов, опубликованных на портале itoboz.com, разрешается только при условии обязательного указания источника. Любое использование контента — будь то статьи, аналитические материалы, обзоры или новостные публикации — должно сопровождаться прямой гиперссылкой, открытой для индексации поисковыми системами.
Для интернет-СМИ, блогов и иных онлайн-платформ необходимо размещать такую ссылку либо в подзаголовке, либо в первом абзаце публикации. Скрытые ссылки или технические методы, препятствующие индексации, использовать запрещается.

Редакция портала itoboz.com публикует материалы различных авторов, однако не обязательно разделяет их мнение или позицию. Все точки зрения, представленные в статьях, обзорах и комментариях, принадлежат исключительно авторам публикаций. Редакция не несет ответственности за содержание републикуемых материалов, а также за любые последствия их использования третьими лицами.

© 2010-2026 IT новости. All Rights reserved

No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта

Использование любых материалов, опубликованных на портале itoboz.com, разрешается только при условии обязательного указания источника. Любое использование контента — будь то статьи, аналитические материалы, обзоры или новостные публикации — должно сопровождаться прямой гиперссылкой, открытой для индексации поисковыми системами.
Для интернет-СМИ, блогов и иных онлайн-платформ необходимо размещать такую ссылку либо в подзаголовке, либо в первом абзаце публикации. Скрытые ссылки или технические методы, препятствующие индексации, использовать запрещается.

Редакция портала itoboz.com публикует материалы различных авторов, однако не обязательно разделяет их мнение или позицию. Все точки зрения, представленные в статьях, обзорах и комментариях, принадлежат исключительно авторам публикаций. Редакция не несет ответственности за содержание републикуемых материалов, а также за любые последствия их использования третьими лицами.

© 2010-2026 IT новости. All Rights reserved

wpDiscuz