Responsible Scaling Policy Version 3.0
Anthropic выпускает третью версию своей Responsible Scaling Policy (RSP) — добровольной системы для снижения катастрофических рисков от ИИ. За два с половиной года политика помогла создать более строгие меры защиты (в мае 2025 года активированы ASL-3) и подтолкнула OpenAI и Google DeepMind к принятию похожих рамок, повлияв на законы вроде SB 53 в Калифорнии, RAISE Act в Нью-Йорке и EU AI Act. Однако пороги возможностей оказались более размытыми, чем ожидалось, регулирование движется медленно, а требования высоких уровней ASL практически невозможно выполнить в одиночку. Новая версия разделяет обязательства компании и рекомендации для индустрии, вводит Frontier Safety Roadmap с публичными целями и Risk Reports каждые 3–6 месяцев с внешним экспертным ревью. Это попытка адаптировать политику к реальной обстановке, сохранив дух прозрачности и подотчётности.
Responsible Scaling Policy от Anthropic: версия 3.0
Мы выпускаем третью версию нашей Responsible Scaling Policy (RSP) — добровольной системы, которую мы используем для снижения катастрофических рисков, исходящих от ИИ-систем.
У Anthropic RSP действует уже более двух лет, и мы многое узнали о её преимуществах и недостатках. Поэтому мы обновляем политику: закрепляем то, что хорошо работало до сих пор, улучшаем её там, где это необходимо, и внедряем новые меры для повышения прозрачности и подотчётности нашего процесса принятия решений.
Полный текст новой RSP можно прочитать здесь. В этом посте мы расскажем о соображениях, стоящих за изменениями.
Изначальная RSP и наша теория изменений
RSP — это наша попытка решить проблему того, как реагировать на риски ИИ, которых ещё нет на момент написания политики, но которые могут стремительно возникнуть в результате экспоненциально развивающейся технологии. Когда мы писали первоначальную RSP в сентябре 2023 года, большие языковые модели представляли собой по сути чат-интерфейсы. Сегодня они умеют просматривать веб, писать и запускать код, использовать компьютеры и совершать автономные многошаговые действия. С появлением каждой из этих новых возможностей появлялись и новые риски. Мы ожидаем, что эта закономерность сохранится.
В основу RSP мы положили принцип условных, или если-то, обязательств. Если модель превышает определённые уровни возможностей (например, способности в области биологических наук, которые могут помочь в создании опасного оружия), то политика предписывает нам ввести новый, более строгий набор мер защиты (например, против злоупотребления моделью и кражи весов модели).
Каждый набор мер защиты соответствовал определённому «AI Safety Level» (ASL): например, ASL-2 обозначал один набор обязательных мер, а ASL-3 — более жёсткий набор, необходимый для более способных ИИ-моделей.
Ранние ASL (ASL-2 и ASL-3) были описаны весьма подробно, но определить правильные меры защиты для моделей, до которых оставалось ещё несколько поколений, было сложнее. Поэтому мы намеренно оставили более поздние ASL (ASL-4 и далее) в основном неопределёнными, надеясь проработать их подробнее, когда у нас появится более чёткое представление о том, что собой представляют более высокие уровни возможностей ИИ.
Далее приводится примерное описание нашей «теории изменений» — то есть механизмов, с помощью которых мы надеялись повлиять на экосистему через RSP:
Внутренняя принуждающая функция. Внутри Anthropic мы надеялись, что RSP заставит нас рассматривать важные меры защиты как обязательное условие для запуска (и обучения) новых моделей. Это сделало значимость этих мер очевидной для большой и растущей организации, побуждая нас быстрее двигаться вперёд.Гонка к вершине. Мы надеялись, что объявление о нашей RSP побудит другие ИИ-компании ввести аналогичные политики. Это идея «гонки к вершине» (противоположности «гонке ко дну»), при которой у разных игроков отрасли есть стимул усиливать, а не ослаблять меры защиты своих моделей и общую безопасность. Со временем мы надеялись, что RSP или подобные политики станут добровольными отраслевыми стандартами или повлияют на законы об ИИ, направленные на поощрение безопасности и прозрачности в разработке моделей ИИ.Формирование консенсуса о рисках. Мы рассматривали пороги возможностей как потенциально важные моменты для индустрии. Если бы мы достигли значимого порога возможностей (например, способности ИИ-моделей поддерживать сквозное производство биологического оружия), мы бы сами ввели соответствующие меры защиты и использовали бы полученные доказательства о возможностях ИИ, чтобы призывать другие компании и правительства к действиям. Иными словами, мы считали, что пороги возможностей могут быть удачными моментами для того, чтобы выйти за пределы одностороннего действия (Anthropic вводит меры защиты для своих моделей) и поощрять многосторонние действия (другие ИИ-компании и/или правительства также вводят такие меры).Взгляд в будущее. Мы понимали, что на некоторых более поздних порогах возможностей интенсивность мер противодействия, которую мы предусматривали (например, обеспечение высокой устойчивости к злоупотреблению ИИ-моделями со стороны акторов государственного уровня), скорее всего будет трудно или невозможно реализовать Anthropic в одиночку. Мы надеялись, что к моменту достижения этих более высоких возможностей мир ясно увидит опасности, и мы сможем координировать с правительствами по всему миру внедрение мер защиты, которых трудно достичь одной компании.
Оценка нашей теории изменений
Два с половиной года спустя наша честная оценка такова: некоторые части этой теории изменений сработали так, как мы надеялись, а другие — нет. Вот области, в которых RSP оказалась успешной:
Наша RSP действительно стимулировала нас разрабатывать более сильные меры защиты. Например, чтобы соответствовать стандарту развёртывания ASL-3 (который в основном касается рисков от химического и биологического оружия со стороны акторов с относительно скромными ресурсами и экспертизой), мы разработали всё более сложные и точные методы (в частности, входные и выходные классификаторы) для блокировки нежелательного контента.В более широком смысле, реализация стандарта ASL-3 в целом оказалась осуществимой. Мы активировали меры защиты ASL-3 для соответствующих моделей в мае 2025 года и с тех пор работаем над их улучшением.Наша RSP действительно побудила другие ИИ-компании принять в чём-то похожие стандарты: в течение нескольких месяцев после объявления о нашей RSP и OpenAI, и Google DeepMind приняли в целом похожие рамки. Некоторые компании также внедрили классификаторы, связанные с биооружием, в духе наших защит ASL-3. Принципы, лежащие в основе этих добровольных стандартов, включая принципы RSP, помогли в формировании ранней политики в области ИИ. Мы видим, как правительства по всему миру (например, в Калифорнии с SB 53, в Нью-Йорке с RAISE Act и с Кодексами практики EU AI Act) начинают требовать от разработчиков передовых ИИ создавать и публиковать рамки для оценки и управления катастрофическими рисками — требования, которые Anthropic выполняет через публичную документацию, в том числе через свой Frontier Compliance Framework. Поощрение подобных строгих рамок прозрачности для отрасли — именно то, к чему стремилась наша RSP.
Тем не менее другие части нашей теории изменений сработали не так, как мы надеялись:
Идея использовать пороги RSP для формирования большего консенсуса по рискам ИИ не сработала на практике — хотя некоторый эффект всё же был. Заранее установленные уровни возможностей оказались гораздо более неоднозначными, чем мы предполагали: в ряде случаев возможности моделей явно приближались к порогам RSP, но у нас сохранялась существенная неопределённость в том, окончательно ли они их преодолели. Наука об оценке моделей пока недостаточно развита, чтобы давать однозначные ответы. В таких случаях мы придерживались осторожного подхода и внедряли соответствующие меры защиты, но наша внутренняя неопределённость превращается в слабый внешний аргумент для многосторонних действий в индустрии ИИ.Биологические риски — пример такой «зоны неоднозначности». Наши модели сейчас демонстрируют достаточно биологических знаний, чтобы проходить большинство тестов, которые мы можем провести быстро и легко, поэтому мы больше не можем уверенно утверждать, что риски от той или иной модели низки. Но и одних этих тестов недостаточно, чтобы убедительно утверждать, что риски высоки. Мы искали дополнительные доказательства, например поддерживая обширное испытание в реальной лаборатории, но результаты остаются неоднозначными, особенно потому, что исследования длятся достаточно долго, чтобы к моменту их завершения уже появились более мощные модели.Несмотря на стремительный прогресс возможностей ИИ за последние три года, государственные действия по безопасности ИИ продвигаются медленно. Политическая среда сместилась в сторону приоритета конкурентоспособности ИИ и экономического роста, тогда как ориентированные на безопасность обсуждения пока не получили заметной поддержки на федеральном уровне. Мы по-прежнему убеждены, что эффективное взаимодействие с государством по вопросам безопасности ИИ необходимо и достижимо, и стремимся продолжать продвигать диалог, основанный на фактах, интересах национальной безопасности, экономической конкурентоспособности и общественном доверии. Но это оказывается долгосрочным проектом — а не чем-то, что происходит органически по мере того, как ИИ становится более способным или пересекает определённые пороги.
Как отмечено выше, мы смогли внедрить меры защиты ASL-3 в одностороннем порядке и при разумных затратах для работы компании. Однако это может перестать быть верным для более высоких уровней возможностей и более высоких ASL. Хотя наши более высокие ASL в значительной мере не определены, надёжные меры смягчения, которые мы излагали в предыдущей RSP, могут оказаться попросту невозможными для реализации без коллективных действий. В качестве одной из иллюстраций масштаба задачи: отчёт RAND о безопасности весов моделей утверждает, что его стандарт безопасности «SL5», направленный на остановку первоочередных операций самых киберспособных институтов, «в настоящее время невозможен» и «вероятно потребует помощи со стороны сообщества национальной безопасности».
Сочетание (а) зоны неоднозначности, размывающей публичное обоснование риска, (б) антирегулятивного политического климата и (в) требований на более высоких уровнях RSP, которые очень трудно выполнить в одиночку, создаёт структурную проблему для нашей нынешней RSP. Мы могли бы попытаться решить её, определив меры защиты ASL-4 и ASL-5 так, чтобы соответствие было легко достижимо, — но это подорвало бы изначальный дух RSP.
Вместо этого мы решаем открыто признать эти трудности и реструктурировать RSP до того, как мы достигнем этих более высоких уровней. Обновлённая RSP стремится принять более реалистичные односторонние обязательства, которые сложны, но всё же достижимы в нынешней среде, и при этом продолжать всесторонне описывать риски, которые, по нашему мнению, индустрия должна решать многосторонне.
Обновление нашей Responsible Scaling Policy
В новой версии нашей RSP три ключевых элемента.
1. Разделение наших планов как компании и наших рекомендаций для индустрии
Теперь наша RSP описывает два набора мер смягчения: во-первых, меры, которые мы планируем применять независимо от действий других; и во-вторых, амбициозную карту соответствия возможностей и мер смягчения, которая, по нашему мнению, позволила бы адекватно управлять рисками от продвинутого ИИ, если бы её внедрили во всей индустрии.
Полный текст Responsible Scaling Policy.
2. Frontier Safety Roadmap
В нашей новой RSP вводится требование разрабатывать и публиковать Frontier Safety Roadmap, которая будет описывать наши конкретные планы по смягчению рисков в областях безопасности, согласования (Alignment), мер защиты и политики. Цели, описанные в дорожных картах, призваны быть амбициозными, но достижимыми — обеспечивая ту самую принуждающую функцию, которую мы считаем одним из прежних успехов нашей RSP.
Это не жёсткие обязательства, а публичные цели, прогресс по которым мы будем открыто оценивать. Такая стратегия «необязательных, но публично объявленных» целей заимствует подход к прозрачности, который мы продвигаем в законодательстве о передовом ИИ (хотя и предоставляет публике гораздо больше деталей, чем требует существующее законодательство), и опирается на успехи предыдущих версий нашей RSP.
Вот несколько примерных целей из нашей текущей Frontier Safety Roadmap:
Запустить «moonshot R&D»-проекты, чтобы исследовать амбициозные, возможно нестандартные способы достичь беспрецедентных уровней информационной безопасности;Разработать метод red-teaming наших систем (вероятно, с существенной автоматизацией), который превосходит совокупный вклад сотен участников нашей программы bug bounty;Внедрить ряд системных мер, обеспечивающих, что Claude ведёт себя в соответствии со своей конституцией;Создать всеобъемлющие централизованные записи всех наших критически важных активностей в разработке ИИ и использовать ИИ для анализа этих записей на предмет проблем, включая тревожное поведение инсайдеров (как людей, так и ИИ) и угрозы безопасности;Опубликовать политическую дорожную карту с конкретными предложениями по «регуляторной лестнице» — политикам, масштабирующимся с ростом риска и способным помочь направлять государственную политику в области ИИ.
Подробнее об этих и других наших целях читайте в Frontier Safety Roadmap.
3. Risk Reports и внешний обзор
Risk Reports — ещё один способ, с помощью которого мы развиваем то, что хорошо работало в нашей предыдущей RSP. Мы обнаружили, что подготовка прото-Risk Report — нашего Safeguards Report от мая 2025 года — была полезна как для нашего внутреннего понимания, так и для публичной коммуникации рисков. Risk Reports расширяют эту идею до более систематической и всеобъемлющей практики.
Risk Reports будут содержать подробную информацию о профиле безопасности наших моделей на момент публикации. Они будут не только описывать возможности моделей, но и объяснять, как сочетаются возможности, модели угроз (конкретные способы, которыми модели могут представлять угрозу) и применяемые меры смягчения рисков, а также давать оценку общего уровня риска. Risk Reports будут публиковаться онлайн (с некоторыми изъятиями1) каждые 3–6 месяцев.
Новая RSP также требует внешнего обзора Risk Reports в определённых обстоятельствах. Мы будем привлекать экспертных сторонних рецензентов, глубоко знакомых с исследованиями в области безопасности ИИ, имеющих стимул быть открытыми и честными в отношении позиции Anthropic по безопасности и не имеющих серьёзных конфликтов интересов. У них будет доступ к Risk Report без изъятий или с минимальными изъятиями, и они подвергнут наши рассуждения, анализ и принятие решений всестороннему публичному обзору. Хотя наши нынешние модели пока не требуют внешнего обзора, мы уже проводим пилотные программы и движемся к этой цели.
Risk Reports будут охватывать любые расхождения между нашими текущими мерами безопасности и нашими более амбициозными рекомендациями для общеотраслевой безопасности. Мы надеемся, что описание и публикация таких расхождений может способствовать общественной осведомлённости и, в перспективе, благотворным изменениям в политике.
Читайте первоначальный Risk Report.
Заключение
Responsible Scaling Policy всегда задумывалась как живой документ: политика, обладающая гибкостью меняться по мере того, как ИИ-модели становятся всё более способными. Эта третья редакция усиливает то, что хорошо работало в предыдущей RSP, обязывает нас к большей прозрачности в отношении наших планов и оценок рисков и отделяет наши рекомендации для индустрии в целом от того, чего мы можем достичь как отдельная компания.
В том же духе прагматизма мы будем и дальше пересматривать и уточнять нашу RSP, а также наши методы оценки и смягчения рисков по мере развития технологии.
Сноски
1. Как мы обсуждаем в RSP, мы будем стремиться минимизировать изъятия в публичной версии Risk Report. Среди причин, по которым нам всё же может потребоваться скрывать часть текста, — соблюдение законодательства, защита интеллектуальной собственности, общественная безопасность и приватность.
Связанные материалы
PwC внедряет Claude, чтобы создавать технологии, заключать сделки и переосмысливать корпоративные функции для клиентов
PwC развернёт Claude Code и Cowork, начав с команд в США и постепенно охватив глобальный штат из сотен тысяч специалистов, создаст совместный Center of Excellence и обучит и сертифицирует 30 000 профессионалов PwC по работе с Claude.
Anthropic заключает партнёрство с Gates Foundation на 200 миллионов долларов
Представляем Claude for Small Business
Мы запускаем Claude for Small Business — пакет коннекторов и готовых к запуску рабочих процессов, которые встраивают Claude в инструменты, которыми малый бизнес пользуется каждый день.