Зачем искусственный интеллект учат играть в видеоигры

Что побуждает вас продолжить видеоигру? Простое объяснение – любопытство. Как выяснилось, именно оно является ключевым эффективным мотиватором при обучении искусственного интеллекта игре в видеоигры, пишет The Verge.

Исследование OpenAI объясняет, как ИИ благодаря любопытству превзошел своих предшественников, игравших в классическую игру 1984 года «Месть Монтесумы». Победа в этой игре, конечно, не равна победе в Go или Dota 2, но все же довольно значима. В отчете DeepMind 2015 года сообщалось, что ИИ, пройдя несколько игр Atari и используя глубокое обучение, в «Мести Монтесумы» не набрал ни одного очка.

ЭТО ИНТЕРЕСНО

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

08.07.2025

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

08.07.2025

Причиной сложности игры является несоответствие между геймплеем и методом обучения искусственного интеллекта. Обычно агенты ИИ полагаются на обучение с подкреплением при освоении видеоигр: они «погружаются» в виртуальный мир, получают вознаграждения за некоторые достижения (например, очки) или наоборот, их наказывают (потеря жизни). Таким образом, агент учится играть путем проб и ошибок. Обучение с подкреплением часто рассматривается как ключевой метод для создания более интеллектуальных роботов.

Проблема с «Местью Монтесумы» заключается в том, что в игре нет регулярных вознаграждений для агента ИИ. Это пазл-платформер, где игроки должны исследовать подземную пирамиду, уклоняться от ловушек и врагов, собирая ключи, которые открывают двери и специальные предметы.

Если вы тренировали агента ИИ, чтобы победить в игре, вы могли бы вознаградить его за то, что он остался жив и собирал ключи, но как вы научите его сохранять определенные ключи для определенных предметов и использовать их для преодоления ловушек и завершения уровня?

Ответ простой: через любопытство.

В исследовании OpenAI агент был вознагражден не только за прыжки через ямы с шипами, но и за изучение новых деталей в пирамиде. Это привело к улучшению производительности, а бот получил средний балл 10 000 (по сравнению со средним человеческим счетом в 4 000).

«Впереди еще много работы. Но то, что у нас есть на данный момент, — это система, которая может исследовать множество комнат, получать вознаграждения и иногда преодолевать первый уровень. Уровни похожи между собой, поэтому прохождение целой игры – просто вопрос времени», — заявил Харрисон Эдвардс из OpenAI.

Борьба с «шумом ТВ»

Исследователи использовали концепцию любопытства как мотивацию на протяжении десятилетий. Интерес, основанный на прогнозах, полезен только при обучении для определенных типов игр, например, Super Mario.

Еще одна проблема – «шум ТВ», где агенты ИИ, запрограммированные на поиск нового опыта, «пристрастились» к случайным шаблонам, таким как статический шум ТВ. Агенты воспринимают «интересное и новое» как то, что связано с их способностью прогнозировать будущее. Прежде чем ИИ предпримет определенное действие, он предскажет, как будет выглядеть игра потом. Если догадка верна, скорее всего, он уже видел эту часть игры. Этот механизм известен как «ошибка прогнозирования».

Но поскольку статический шум непредсказуем, любой агент ИИ, столкнувшийся с таким ТВ, становится загипнотизированным. OpenAI сравнивает проблему с людьми, пристрастившихся к игровым автоматам – они не могут оторваться, потому что они не знают, что произойдет дальше.

Исследователи OpenAI обошли проблему, поменяв то, как ИИ предсказывает будущее. Точная методология, Random Network Distillation, сложна, но Эдвардс и его коллега Юрий Бурда сравнивают это со скрытием тайны для ИИ. Тайна случайна и бессмысленна – что-то вроде «какой цвет в левом верхнем углу экрана?», но он мотивирует агента исследовать, оберегая его от ловушки «шума ТВ».

Что еще более важно, этот мотиватор не требует большого количества вычислений. Такие методы обучения с подкреплением основаны на огромных объемах данных. «Метод, который они используют, на самом деле довольно прост и, следовательно, неожиданно эффективен», — прокомментировал инженер-программист Unity Артур Джулиани. – «Учитывая сходство между различными уровнями в «Мести Монтесумы», работа OpenAI, по сути, эквивалентна решению игры. Но тот факт, что ИИ пока не может пройти полностью первый уровень, означает, что остались определенные вопросы».

Важность любопытства

Какова польза от любопытного искусственного интеллекта? Любопытство помогает компьютерам учиться самостоятельно. Большинство подходов к компьютерному обучению на сегодняшний день можно поделить на две части: во-первых, машины учатся, изучая данные, разрабатывая шаблоны, которые они могут применять к аналогичным проблемам; во-вторых, они «погружаются» в нужную среду и получают вознаграждения за определенные достижения с помощью обучения с подкреплением.

Оба этих подхода эффективны в решении конкретных задач, но также требуют большого количества человеческого труда. Предоставляя ИИ неотъемлемый стимул исследовать, люди тратят меньше времени на его обучение.

Зачем искусственный интеллект учат играть в видеоигры

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

Читайте так-же

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

«Реанимация» NVIDIA RTX 5090 с треснувшей платой — когда «пациент» этого стоит, а «операция» выявляет скрытые недостатки

Бывший CEO Intel Пэт Гелсингер говорит, что недооценил роль ИИ — но всё сделал бы так же

Украина ввела санкции против 60 криптовалютных компаний, которые помогали рф отмывать деньги

ТОП НОВОСТИ

Мрачная фэнтезийная RPG Mandragora: Whispers of the Witch Tree получила обновление с режимом «Новая игра+»

Конфетка! Разноцветный HMD Candy выйдет уже скоро

Глобальные биржевые криптовалютные продукты (ETP) зафиксировали приток рекордных $1,04 млрд за неделю

Датская студия сделает игру своей мечты на деньги Square Enix

ВИДЕО: хейтеры были правы? Как снимался обзор Honor GT Pro

ПОПУЛЯРНОЕ

Summer Game Fest 2025 стал самым просматриваемым шоу в истории мероприятия

Как установить Linux-приложение на Chrome OS

Новый геймплей Mafia: The Old Country – больше деталей через неделю

Анонс Sony LYT-828 – самая передовая камера для будущих фотофлагманов

Разработчики Civilization 7 в деталях рассказали про Эпохи — по сути, каждая эпоха, это маленькая партия в Civ