IT обозрение
Воскресенье, 25 января, 2026
No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lv Latviešu valoda
    • lt Lietuvių kalba
    • pl Polski
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта
  • ИИ
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lv Latviešu valoda
    • lt Lietuvių kalba
    • pl Polski
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
No Result
View All Result
IT обозрение
No Result
View All Result
Home ИИ

Синтетические данные для обучения ИИ: ошибка или панацея?

25.12.2024
A A
0
Share on FacebookShare on Twitter

AI-agents ИИ агенты 3

Искусственный интеллект уперся в потолок: количество используемых для обучения данных ограничено, и они быстро заканчиваются. В связи с этим стартапы прибегают к помощи синтетических данных — информации, сгенерированной другим нейросетям.

ЭТО ИНТЕРЕСНО

Эксперт: ИИ способен демократизировать рынки предсказаний

Эксперт: ИИ способен демократизировать рынки предсказаний

23.01.2026
Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

23.01.2026

ИИ-стартап Anthropic применил синтетические данные для обучения одной из своих флагманских моделей Claude 3.5 Sonnet. Meta доработала свои нейросети Llama 3.1 с помощью созданных ИИ данных. OpenAI также применяет синтетическую информацию для обучения o1 — «рассуждающего» искусственного интеллекта.

TechCrunch обратили внимание на преимущества и недостатки такого подхода.

Аннотация

Системы искусственного интеллекта — это статистические машины. Они обучаются на большом количестве примеров и изучают закономерности для дальнейших предсказаний.

Аннотации — текстовые метки, обозначающие смысл или части данных — являются ключевым элементом в этих примерах. Они служат ориентирами, «обучая» модель различать предметы, места и идеи.

Например, если нейросети показать множество фотографий кухни и пометить их словом «кухня», со временем она начнет ассоциировать ее общие характеристики вроде наличия холодильника или столешницы. После обучения модель сможет распознать фотографию кухни, которая раньше ей не показывалась.

В процессе обучения важно грамотно классифицировать аннотации. Например, если изображения с кухнями помечать словом «корова», ИИ будет связывать холодильник с животным.

Необходимость применения помеченных данных создал целый рынок аннотационных услуг, который оценивается в $838,2 млн, а в течение 10 лет достигнет $10,34 млрд.

В некоторых случаях маркировка данных требует специализированных знаний и опыта, например, если это касается математики. Существуют фирмы, специализирующиеся на аннотации данных. Работа в таких компаниях может быть как высокооплачиваемой, так и наоборот. В развивающихся странах работники получают менее $2 в час.

Нужно заменить людей

Платить маркировщикам данных иногда дорого, плюс они способны ошибаться. Также само получение информации может быть затратным. Shutterstock взимает десятки миллионов долларов с ИИ-поставщиков за доступ к своим архивам. Reddit заработал сотни миллионов на лицензировании информации для Google, OpenAI и других.

Наконец, данные становится все труднее получить. Более 35% из 1000 лучших веб-сайтов блокируют доступ для OpenAI. Если тенденция сохранится, ИИ способен исчерпать всю общедоступную информацию к 2026–2032 годам.

Все это, а также риски судебных исков за использование лицензированной информации, привело к необходимости генерировать синтетическую информацию.

Синтетические альтернативы

Если данные — это нефть, синтетическая информация позиционируется как биотопливо, которое можно создать без негативных внешних последствий, отметил кандидат наук Вашингтонского университета Ос Киз.

«Вы можете взять небольшой стартовый набор данных и моделировать и экстраполировать новую информацию из него», — отметил он.

ИИ-индустрия взяла технологию на вооружение и начала применять. В декабре компания Writer представила модель Palmyra X 004, обученную почти полностью на синтетических данных. Разработка обошлась в $700 000 по сравнению с $4,6 млн, которые затратил OpenAI за создание нейросети аналогичного размера.

Открытые модели Phi от Microsoft частично обучались на синтетических данных, также как и Gemma от Google. Этим летом Nvidia представила семейство моделей, предназначенных для создания синтетической обучающей информации, а ИИ-стартап Hugging Face выпустил «самый большой» набор информации для настройки ИИ, состоящий из искусственного текста.

Генерация синтетических данных стала бизнесом, стоимость которого может вырасти до $2,34 млрд к 2030 году.

Синтетические риски

Применение синтетических данных несет в себе определенные риски. Если информация, применяемая для создания искусственных сведений, имеет предвзятость или ограничения, результат будет испорчен.

Чрезмерное применение синтетических данных в ходе обучения нейросетей приводит к снижению качества и разнообразия модели, говорится в исследовании Университетов Райса и Стэнфорда.

Большие нейросети вроде o1 способны создавать более сложные для обнаружения галлюцинации, что приведет к снижение точности ИИ, обученного на подобных данных.

Опубликованное в июле исследование показывает, что модели, обученные на ошибочных данных, генерируют еще более неправдивую информацию. Это создает петлю деградации для последующих нейросетей. Впоследствии искусственный интеллект может давать ответ, вообще никак не связанный с вопросом.

Другое исследование наглядно показало снижение качества работы модели на примере изображений.

Данные: TechCrunch.

Старший научный сотрудник Института искусственного интеллекта Аллена Лука Солдайни считает, что применение синтетических данных целесообразно в случае их тщательной проверки, фильтрации и сопоставления с реальной информацией.

Несоблюдение этого требования может привести к краху модели, она станет менее «творческой» и более предвзятой в своих выводах, что в конечном итоге серьезно снизит ее функциональность.

«Конвейеры синтетических данных не являются самосовершенствующимися машинами. Их результаты должны быть тщательно проверены и улучшены, перед их использованием для для обучения», — отметил он.

Ранее CEO OpenAI Сэм Альтман отметил, что когда-нибудь ИИ будет создавать синтетические данные, достаточно хорошие для эффективного самообучения.

Напомним, в декабре соучредитель OpenAI Илья Суцкевер спрогнозировал конец эпохи предварительного обучения искусственного интеллекта и предсказал появление суперинтеллекта.

Читайте так-же

Эксперт: ИИ способен демократизировать рынки предсказаний
ИИ

Эксперт: ИИ способен демократизировать рынки предсказаний

23.01.2026
0

Искусственный интеллект способен выполнять роль встроенного прямо в блокчейн судьи на рынках предсказаний. Такое мнение выразил профессор политической экономики в...

Read more
Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

Маск назвал сроки выхода Optimus на рынок и допустил появление AGI в 2026 году

23.01.2026
Эксперт предсказал крах OpenAI

Эксперт предсказал крах OpenAI

23.01.2026
CEO Anthropic предсказал скорое появление AGI и сокращения рабочих мест

CEO Anthropic предсказал скорое появление AGI и сокращения рабочих мест

22.01.2026
YouTube представил ИИ-аватары и объявил войну низкокачественному контенту

YouTube представил ИИ-аватары и объявил войну низкокачественному контенту

22.01.2026

ТОП НОВОСТИ

Автобатлер Turnbound определяет очередь хода подбрасыванием монеты с кошачьим задом

Автобатлер Turnbound определяет очередь хода подбрасыванием монеты с кошачьим задом

25.01.2026
Хоррор-экшен Crisol: Theater of Idols выходит в феврале – кровь станет инструментом и оружием

Хоррор-экшен Crisol: Theater of Idols выходит в феврале – кровь станет инструментом и оружием

25.01.2026
Скоро: Vivo V70 и V70 Elite с крутыми телевиками и мощной начинкой

Скоро: Vivo V70 и V70 Elite с крутыми телевиками и мощной начинкой

25.01.2026
Стивен Содерберг выпустит фильм The Christophers с сэром Иэном Маккелленом весной

Стивен Содерберг выпустит фильм The Christophers с сэром Иэном Маккелленом весной

25.01.2026
Кристоф Ган признался, что получал угрозы расправы от фанатов после первого фильма по Silent Hill

Кристоф Ган признался, что получал угрозы расправы от фанатов после первого фильма по Silent Hill

25.01.2026

ПОПУЛЯРНОЕ

  • Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

    Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

    0 shares
    Share 0 Tweet 0
  • Рецензия на фильм «Каховский объект»

    0 shares
    Share 0 Tweet 0
  • Эксперты раскритиковали инициативу с запретом современных протоколов шифрования — это может угрожать стабильности Рунета

    0 shares
    Share 0 Tweet 0
  • Обои Samsung Galaxy S24 уже доступны всем желающим [скачать]

    0 shares
    Share 0 Tweet 0
  • Китай вырвался в лидеры в «гонке роботов»

    0 shares
    Share 0 Tweet 0
  • О нас
  • Реклама
  • Контакты
  • Политика конфиденциальности
  • Sitemap
Реклама: digestmediaholding@gmail.com

Использование любых материалов, опубликованных на портале itoboz.com, разрешается только при условии обязательного указания источника. Любое использование контента — будь то статьи, аналитические материалы, обзоры или новостные публикации — должно сопровождаться прямой гиперссылкой, открытой для индексации поисковыми системами.
Для интернет-СМИ, блогов и иных онлайн-платформ необходимо размещать такую ссылку либо в подзаголовке, либо в первом абзаце публикации. Скрытые ссылки или технические методы, препятствующие индексации, использовать запрещается.

Редакция портала itoboz.com публикует материалы различных авторов, однако не обязательно разделяет их мнение или позицию. Все точки зрения, представленные в статьях, обзорах и комментариях, принадлежат исключительно авторам публикаций. Редакция не несет ответственности за содержание републикуемых материалов, а также за любые последствия их использования третьими лицами.

© 2010-2026 IT новости. All Rights reserved

No Result
View All Result
  • Новости
  • Игры
  • Смартфоны
  • Обзоры
  • Софт
  • Криптовалюта

Использование любых материалов, опубликованных на портале itoboz.com, разрешается только при условии обязательного указания источника. Любое использование контента — будь то статьи, аналитические материалы, обзоры или новостные публикации — должно сопровождаться прямой гиперссылкой, открытой для индексации поисковыми системами.
Для интернет-СМИ, блогов и иных онлайн-платформ необходимо размещать такую ссылку либо в подзаголовке, либо в первом абзаце публикации. Скрытые ссылки или технические методы, препятствующие индексации, использовать запрещается.

Редакция портала itoboz.com публикует материалы различных авторов, однако не обязательно разделяет их мнение или позицию. Все точки зрения, представленные в статьях, обзорах и комментариях, принадлежат исключительно авторам публикаций. Редакция не несет ответственности за содержание републикуемых материалов, а также за любые последствия их использования третьими лицами.

© 2010-2026 IT новости. All Rights reserved

wpDiscuz