Сооснователь OpenAI Илья Сутскевер считает, что традиционные методы масштабирования крупных языковых моделей (LLM) исчерпали себя. Для значительного прогресса в будущем ИИ-компании должны обучать модели не только на больших объемах данных, но и подходить к этому процессу умнее.
В интервью Reuters Сутскевер объяснил, что фаза предобучения, основополагающая для создания таких моделей, как ChatGPT, достигла своих пределов. На этапе предобучения обрабатываются огромные объемы неструктурированных данных, чтобы выявить языковые паттерны и структуры.
Ранее увеличение масштабов обучения — например, использование бОльших объемов данных — обеспечивало более мощные и способные модели. Но теперь это уже не работает. Гораздо важнее, какие данные используются для обучения и как именно этот процесс организован.
2010-е годы были временем масштабирования, а теперь мы вернулись в эпоху открытий. Все ищут следующее большое достижение.
— Сутскевер
По его словам, теперь гораздо важнее масштабировать правильные вещи, чем просто больше данных.
Эти комментарии сделаны на фоне замедления прогресса в развитии моделей, таких как ChatGPT 4.0. Основная проблема заключается в том, что ИИ-разработчики используют одни и те же общедоступные источники данных, из-за чего "просто добавлять масштаб" стало недостаточно для получения конкурентного преимущества.
Среди возможных решений рассматривается более интеллектуальный подход на этапе использования модели, известном как инференс. Здесь модели будут использовать многошаговый процесс для решения задач, включая самообучение в режиме реального времени, что приближает их мышление к человеческому.
Исследователь OpenAI Ноам Браун отметил:
Выяснилось, что заставить бота думать всего 20 секунд над одной раздачей в покере дало тот же прирост производительности, что и масштабирование модели в 100,000 раз или обучение ее в 100,000 раз дольше.
Это означает, что более длинное размышление моделей, вместо мгновенной выдачи ответа, может оказаться более эффективным. Если такая стратегия подтвердит свою продуктивность, то индустрия оборудования для ИИ может перейти от массивных кластеров для обучения к банкам графических процессоров, оптимизированных для улучшенного инференса.