IT обозрение
Воскресенье, 6 июля, 2025
No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
No Result
View All Result
IT обозрение
No Result
View All Result
Home ИИ

Новый тест поставил в тупик большинство ИИ-моделей

25.03.2025
A A
0
Share on FacebookShare on Twitter

Tool_AI

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.

ЭТО ИНТЕРЕСНО

Психоделики и ИИ: популярность и опасность

Психоделики и ИИ: популярность и опасность

04.07.2025
Мнение: Европе нужен прикладной ИИ, а не чипы

Мнение: Европе нужен прикладной ИИ, а не чипы

04.07.2025

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.

Пример вопроса из ARC-AGI-2. Данные: Arc Prize.

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

«Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.
It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями.

Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize.

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

Читайте так-же

Психоделики и ИИ: популярность и опасность
ИИ

Психоделики и ИИ: популярность и опасность

04.07.2025
0

Все больше людей используют ИИ-ботов в качестве замены «трезвому человеку» во время приема психоделиков для подстраховки. Об этом пишет MIT...

Read more
Мнение: Европе нужен прикладной ИИ, а не чипы

Мнение: Европе нужен прикладной ИИ, а не чипы

04.07.2025
Чат-боты украли трафик новостных ресурсов 

Чат-боты украли трафик новостных ресурсов 

03.07.2025
ИИ восстановил 3000-летнюю вавилонскую поэму

ИИ восстановил 3000-летнюю вавилонскую поэму

03.07.2025
США отменили ограничения на экспорт ПО для чипов в Китай

США отменили ограничения на экспорт ПО для чипов в Китай

03.07.2025

ТОП НОВОСТИ

Nio выпустила электрокроссовер Onvo L90: 6 мест, холодильник, 600 км пробега менее чем за $42 тыс.

Nio выпустила электрокроссовер Onvo L90: 6 мест, холодильник, 600 км пробега менее чем за $42 тыс.

06.07.2025
Инженер из Индии обманул Кремниевую долину, одновременно работая в четырех стартапах

Инженер из Индии обманул Кремниевую долину, одновременно работая в четырех стартапах

06.07.2025
Геймер превратил авто Honda CR-V в контроллер для Need for Speed Underground

Геймер превратил авто Honda CR-V в контроллер для Need for Speed Underground

06.07.2025
Игрок Stronghold нашел свои карты спустя 20 лет и превратил их в масштабные скриншоты

Игрок Stronghold нашел свои карты спустя 20 лет и превратил их в масштабные скриншоты

06.07.2025
ИИ ChatGPT сел за штурвал космического корабля — что из этого вышло?

ИИ ChatGPT сел за штурвал космического корабля — что из этого вышло?

06.07.2025

ПОПУЛЯРНОЕ

  • Summer Game Fest 2025 стал самым просматриваемым шоу в истории мероприятия

    Summer Game Fest 2025 стал самым просматриваемым шоу в истории мероприятия

    0 shares
    Share 0 Tweet 0
  • В ролевой котоэкшен Cat Quest 3 добавили бесплатный контент с новыми боссами и попугаями

    0 shares
    Share 0 Tweet 0
  • Бывший руководитель отмененной Hytale почти готов выкупить игру у Riot Games за 25 миллионов долларов и довести ее до релиза

    0 shares
    Share 0 Tweet 0
  • Патч для MindsEye, который делает врагов умнее, вышел на консолях, но не на ПК

    0 shares
    Share 0 Tweet 0
  • Новый патч для ПК-версии Stellar Blade добавил карточки и фоны в Steam и разблокировал сложный режим

    0 shares
    Share 0 Tweet 0
  • Реклама
  • Контакты
  • Политика конфиденциальности
Реклама: digestmediaholding@gmail.com

Использование любых материалов сайта разрешается при условии ссылки на itoboz.com
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2010-2025 IT новости. All Rights reserved

No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта

Использование любых материалов сайта разрешается при условии ссылки на itoboz.com
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2010-2025 IT новости. All Rights reserved

wpDiscuz