В Anthropic озаботились «благополучием» чат-бота Claude

Компания Anthropic запрограммировала чат-боты Claude Opus 4 и 4.1 на завершение диалогов с пользователями «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия».

ЭТО ИНТЕРЕСНО

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

05.03.2026

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

05.03.2026

Чат-бот Claude завершает диалог. Источник: Anthropic.

После завершения беседы пользователь потеряет возможность писать в чат, но сможет создать новый. История переписки также сохранится.

При этом разработчики уточнили, что функция в первую очередь предназначена для безопасности самой нейросети.

«[…] мы работаем над выявлением и внедрением малозатратных мер по снижению рисков для благополучия моделей, если такое благополучие возможно. Одной из таких мер является предоставление LMM возможности прекращать или выходить из потенциально травмирующих ситуаций», — говорится в публикации.

В рамках сопутствующего исследования в Anthropic изучили «благополучие модели» — оценили самооценку и поведенческие предпочтения. Чат-бот продемонстрировал «устойчивую неприязнь к насилию». У версии Claude Opus 4 выявили:

явное предпочтение не заниматься задачами, которые могут навредить;
«стресс» при взаимодействии с запрашивающими подобный контент пользователями;
тенденцию к прекращению нежелательных разговоров при наличии возможности.

«Такое поведение обычно возникало в тех случаях, когда пользователи продолжали отправлять вредоносные запросы и/или оскорблять, несмотря на то, что Claude неоднократно отказывался подчиниться и пытался продуктивно перенаправить взаимодействие», — уточнил в компании.

Напомним, в июне исследователи Anthropic выяснили, что ИИ способен пойти на шантаж, раскрыть конфиденциальные данные компании и даже допустить смерть человека в экстренных обстоятельствах.

В Anthropic озаботились «благополучием» чат-бота Claude

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

Читайте так-же

CEO Nvidia намекнул на остановку инвестиций в OpenAI и Anthropic

Блокчейн Ethereum станет независимой средой верификации для ИИ-агентов

Падение доходов заставило биткоин-майнеров променять крипторезервы на ИИ-инфраструктуру

OpenAI и Google представили новые ИИ-модели GPT-5.3 Instant и Gemini 3.1 Flash-Lite

X ввела наказания за публикацию ИИ-видео военных конфликтов без маркировки

ТОП НОВОСТИ

На Netflix вышел второй сезон «Ван Пис»: сразу с 8 эпизодами

Осталось 6 дней: OnePlus и OPPO объявили о повышении цен

NVIDIA хочет майнить биткоин в космосе

Геймер напечатал на 3D-принтере «чемодан» для ноутбука с полноразмерной видеокартой

3 минуты – и AI-агент может начинать торговлю. Что изменилось после обновления Agent Hub от Bitget

ПОПУЛЯРНОЕ

Electronic Arts привезет на E3 2017 новые Star Wars: Battlefront и Need for Speed

Эксперты раскритиковали инициативу с запретом современных протоколов шифрования — это может угрожать стабильности Рунета

Почти флагман, почти Nokia, почти получилось. Оценил Nokia 8.3: неоднозначные эмоции

Планы изменились: лидеры Xiaomi объяснили, куда пропал Redmi Turbo 4

Helion получила поддержку Microsoft для создания своего реактора термоядерного синтеза