DeepSeek обрушил рынок: почему китайский ИИ оказался в 30 раз эффективнее GPT-4

В конце января малоизвестный китайский стартап DeepSeek оказался в центре внимания мировых СМИ. Скромные инвестиции в $5,6 млн в разработку новой модели обернулись сокрушительным ударом по рынку — американские техногиганты в совокупности потеряли почти $1 трлн капитализации.

ЭТО ИНТЕРЕСНО

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

05.03.2026

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

05.03.2026

Появление доступного аналога ChatGPT, претендующего на звание «убийцы Кремниевой долины», вызвало настоящий переполох в индустрии. ForkLog рассказывает, откуда взялась компания DeepSeek, как она добилась успеха и что ждет мировой рынок языковых моделей.

История восхождения DeepSeek

DeepSeek начала самостоятельный путь в мае 2023 года в Ханчжоу — столице провинции Чжэцзян. Этот город считается крупнейшим в Китае центром электронной коммерции, где располагаются штаб-квартиры гигантов вроде Alibaba Group, Geely, Hikvision и Ant Group.

За проектом стоит Лян Вэньфэн — предприниматель и сооснователь хедж-фонда High-Flyer, управляющего активами в размере $8 млрд. Основанная в 2015 году компания давно проявляла интерес к машинному обучению, инвестируя значительные средства в создание собственной вычислительной инфраструктуры, а также в исследования в области искусственного интеллекта. Именно из ее структуры возникла DeepSeek.

В 2020 году High-Flyer представила суперкомпьютер Fire-Flyer I стоимостью 200 млн юаней ($27,6 млн), специализирующийся на глубоком обучении ИИ. Годом позже появился Fire-Flyer II — система за 1 млрд юаней ($138 млн), оснащенная более чем 10 000 графических процессоров Nvidia A100.

Дебютная модель DeepSeek, выпущенная в ноябре 2023 года, сразу продемонстрировала производительность на уровне GPT-4 и была предоставлена бесплатно для исследователей и коммерческого использования. К маю 2024 года запущена DeepSeek-V2, при этом конкурентная ценовая политика компании заставила даже таких гигантов, как ByteDance, Tencent, Baidu и Alibaba снизить цены на свои ИИ-решения. В итоге DeepSeek удалось сохранить прибыльность, в то время как конкуренты несли убытки.

В декабре 2024 года появилась модель DeepSeek-V3, чьи показатели в тестах превзошли последние разработки OpenAI и Anthropic. На ее основе компания создала DeepSeek-R1 и ее производные, которые и легли в основу нашумевшего сервиса.

Сравнение производительности моделей DeepSeek с моделями OpenAI в различных тестах. Данные: DeepSeek.

Главное преимущество новой модели — беспрецедентно низкая стоимость использования. За обработку миллиона токенов DeepSeek берет всего $2,19, тогда как OpenAI за аналогичный объем взимает $60.

За кулисами прорыва: как устроен DeepSeek-R1

Согласно опубликованному исследованию, в основе модели DeepSeek-R1 лежат методы обучения с подкреплением и «холодного старта». Это позволило достичь исключительной производительности в таких областях, как математические вычисления, программирование и логическое мышление.

Ключевой особенностью модели стал подход Chain of Thought, позволяющий разбивать сложные задачи на последовательные шаги, имитируя человеческое мышление. Система анализирует задачу, разделяет ее на этапы и проверяет каждый шаг на наличие ошибок перед формированием окончательного ответа.

Техническая реализация впечатляет своей эффективностью. DeepSeek-R1 обучалась на системе из 2048 ускорителей Nvidia H800, затратив около 2,788 млн часов работы GPU. Оптимизация процесса достигается за счет применения смешанной точности FP8 и технологии Multi-Token Prediction, что существенно снижает требования к оборудованию.

Архитектура модели включает 671 млрд параметров. Но уникальность метода в том, что за один проход активируется только 37 млрд из них. Использование «смеси экспертов» (Mixture of Experts) обеспечивает масштабируемость без пропорционального роста вычислительных затрат.

Отдельного внимания заслуживает инновационный метод Group Relative Policy Optimization (GRPO). Он позволяет обучать модель без использования критика, что значительно повышает эффективность процесса.

Как отметил старший менеджер по исследованиям в Nvidia Джим Фан, это напоминает прорыв AlphaZero от Google DeepMind, научившейся играть в го и шахматы «без предварительного подражания человеческим гроссмейстерским ходам». По его словам, это «самый важный вывод из исследовательской статьи».

https://twitter.com/DrJimFan/status/1881353126210687089

Новый подход к обучению языковых моделей

Особенно интересен подход DeepSeek к обучению. В отличие от других ведущих LLM, R1 не проходила традиционную «предварительную подготовку» на данных с человеческой разметкой. Исследователи нашли способ, позволяющий модели развивать собственные способности к рассуждению практически с нуля.

«Вместо того, чтобы явно обучать модель тому, как решать проблемы, мы просто предоставляем ей правильные стимулы, и она автономно разрабатывает передовые стратегии», — говорится в исследовании.

Модель также представляет новую парадигму в развитии ИИ: вместо простого наращивания вычислительных мощностей для обучения, акцент делается на том, сколько времени и ресурсов модель тратит на обдумывание ответа перед его генерацией. Это масштабирование «вычислений в тестовое время» отличает новый класс «рассуждающих моделей» вроде DeepSeek R1 и OpenAI-o1 от их предшественников.

Критический взгляд на прорыв DeepSeek

Успех DeepSeek вызывает немало вопросов в профессиональном сообществе. Гендиректор Scale AI Александр Ванг, утверждает, что компания располагает 50 000 чипов Nvidia H100, что прямо противоречит американским экспортным ограничениям.

«Насколько я понимаю, в DeepSeek установлено 50 тысяч H100 […]. Они не могут говорить о них [публично], потому что это противоречит экспортному контролю США», — сказал Ванг.

Учитывая, что после введения ограничений стоимость контрабандных H100 в Китае взлетела до $23 000–30 000, такой кластер обошелся бы в $1–1,5 млрд.

Аналитики Bernstein ставят под сомнение заявленную стоимость обучения модели V3 в $5,6 млн и отмечают отсутствие данных о затратах на разработку R1. По мнению эксперта Peel Hunt Даминду Джаявира, публичные цифры отражают только стоимость GPU-часов, игнорируя другие существенные расходы.

«Она была обучена менее чем за 3 млн часов работы GPU, что соответствует стоимости обучения чуть более $5 млн. Для сравнения, по оценкам аналитиков, обучение последней крупной модели ИИ компании Meta обошлось в $60–70 млн», — сказал Джаявира.

Политический аспект также вызывает опасения. Участие основателя DeepSeek Лян Вэньфэна в закрытом симпозиуме под председательством премьер-министра Китая Ли Цяна может указывать на стратегическую роль компании в преодолении экспортных ограничений и достижении технологической независимости КНР.

«Существует большая вероятность того, что DeepSeek и многие другие крупные китайские компании поддерживаются правительством Китая не только в денежном выражении», — заявил Эдуард Харрис, технический директор Gladstone AI, тесно сотрудничающей с правительством США.

Нельзя не отметить и встроенные механизмы цензуры в API-версии R1, особенно в отношении политически чувствительных для КНР тем. Модель отказывается обсуждать события на площади Тяньаньмэнь, права человека в Китае или статус Тайваня, заменяя сгенерированные ответы стандартными уклончивыми формулировками.

Отдельные опасения вызывает вопрос конфиденциальности данных. Согласно политике DeepSeek, личная информация пользователей хранится на серверах в КНР, что может создать для компании проблемы, аналогичные тем, с которыми столкнулся TikTok. Особенно острым этот вопрос может стать на американском рынке, где регуляторы уже проявили повышенное внимание к китайским технологическим компаниям в контексте защиты персональных данных.

Фрагмент политики конфиденциальности DeepSeek. Данные: DeepSeek.

Будущее языковых моделей после DeepSeek

Несмотря на противоречия, достижения DeepSeek нельзя недооценивать. Результаты тестирования показывают, что модель R1 действительно превосходит американские аналоги по многим параметрам. Как отметил Александр Ванг, это «тревожный звонок для Америки», требующий ускорения инноваций и усиления экспортного контроля над критически важными компонентами.

https://twitter.com/alexandr_wang/status/1883368885640102092

Хотя OpenAI пока сохраняет лидерство в отрасли, появление DeepSeek существенно меняет расстановку сил на рынке ИИ-моделей и инфраструктуры. Если официальные данные соответствуют действительности, китайской компании удалось создать конкурентоспособное решение с существенно меньшими затратами благодаря инновационным подходам и оптимизации. Это ставит под вопрос стратегию простого наращивания вычислительных мощностей, которой придерживаются многие участники рынка.

Интерес к технологиям DeepSeek растет: Meta уже создала четыре «военных кабинета» для анализа китайских моделей, стремясь применить полученные знания в развитии собственной экосистемы Llama с открытым исходным кодом.

Некоторые эксперты видят в успехе DeepSeek не столько угрозу технологическому доминированию США, сколько признак формирования многополярного мира ИИ. Как отметил бывший сотрудник отдела политики OpenAI Майлз Брундадж:

«Китай все равно обзаведется собственным суперинтеллектом(ами) не более чем на год позже США, если не случится войны. Так что если вы не хотите (в буквальном смысле) войны, вам нужно иметь видение того, как ориентироваться в многополярных результатах развития ИИ».

Похоже, мы наблюдаем начало новой эры в развитии искусственного интеллекта, где эффективность и оптимизация могут оказаться важнее чистой вычислительной мощности.

DeepSeek обрушил рынок: почему китайский ИИ оказался в 30 раз эффективнее GPT-4

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

Читайте так-же

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

Падение доходов заставило биткоин-майнеров променять крипторезервы на ИИ-инфраструктуру

OpenAI и Google представили новые ИИ-модели GPT-5.3 Instant и Gemini 3.1 Flash-Lite

X ввела наказания за публикацию ИИ-видео военных конфликтов без маркировки

ТОП НОВОСТИ

Вышел первый трейлер блокбастера «Мстители: Восхождение Доктора Дума»

Apple начала повышать цены на существующие iPhone

Тодд Говард уже задумывался о пенсии, но работа над TES 6 и Fallout 5 вернула ему мотивацию

35 000 Па, проходит под диваном и сам себя обслуживает: обзор робота-пылесоса Dreame L60 Pro Ultra

Google разрабатывает собственный чип Frozen v2 для Gemini: ИИ станет быстрее

ПОПУЛЯРНОЕ

Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

35 000 Па, проходит под диваном и сам себя обслуживает: обзор робота-пылесоса Dreame L60 Pro Ultra

Убирает вплотную к стенам и сам настраивает мощность: обзор Trouver D70 Detect

Впервые в мире: Британия десантировала боевой морской дрон в море с самолета Airbus

Вышел первый трейлер блокбастера «Мстители: Восхождение Доктора Дума»