Responsible Scaling Policy Version 3.0
Anthropic выпускает третью версию своей Responsible Scaling Policy (RSP) — добровольной системы для снижения катастрофических рисков от ИИ. За два с половиной года политика помогла создать более строгие меры защиты (в мае 2025 года активированы ASL-3) и подтолкнула OpenAI и Google DeepMind к принятию похожих рамок, повлияв на законы вроде SB 53 в Калифорнии, RAISE Act в Нью-Йорке и EU AI Act. Однако пороги возможностей оказались более размытыми, чем ожидалось, регулирование движется медленно, а требования высоких уровней ASL практически невозможно выполнить в одиночку. Новая версия разделяет обязательства компании и рекомендации для индустрии, вводит Frontier Safety Roadmap с публичными целями и Risk Reports каждые 3–6 месяцев с внешним экспертным ревью. Это попытка адаптировать политику к реальной обстановке, сохранив дух прозрачности и подотчётности.
Anthropic’s Responsible Scaling Policy: Version 3.0
Responsible Scaling Policy от Anthropic: версия 3.0
We’re releasing the third version of our Responsible Scaling Policy (RSP), the voluntary framework we use to mitigate catastrophic risks from AI systems.
Мы выпускаем третью версию нашей Responsible Scaling Policy (RSP) — добровольной системы, которую мы используем для снижения катастрофических рисков, исходящих от ИИ-систем.
Anthropic has now had an RSP for more than two years, and we’ve learned a great deal about its benefits and its shortcomings. We’re therefore updating the policy to reinforce what has worked well to date, improve the policy where necessary, and implement new measures to increase the transparency and accountability of our decision-making.
У Anthropic RSP действует уже более двух лет, и мы многое узнали о её преимуществах и недостатках. Поэтому мы обновляем политику: закрепляем то, что хорошо работало до сих пор, улучшаем её там, где это необходимо, и внедряем новые меры для повышения прозрачности и подотчётности нашего процесса принятия решений.
You can read the new RSP in full here. In this post, we’ll discuss some of the thinking behind the changes.
Полный текст новой RSP можно прочитать здесь. В этом посте мы расскажем о соображениях, стоящих за изменениями.
The original RSP and our theory of change
Изначальная RSP и наша теория изменений
The RSP is our attempt to solve the problem of how to address AI risks that are not present at the time the policy is written, but which could emerge rapidly as a result of an exponentially advancing technology. When we wrote the original RSP in September 2023, large language models were essentially chat interfaces. Today they can browse the web, write and run code, use computers, and take autonomous, multi-step actions. As each of these new capabilities have emerged, so have new risks. We expect this pattern to continue.
RSP — это наша попытка решить проблему того, как реагировать на риски ИИ, которых ещё нет на момент написания политики, но которые могут стремительно возникнуть в результате экспоненциально развивающейся технологии. Когда мы писали первоначальную RSP в сентябре 2023 года, большие языковые модели представляли собой по сути чат-интерфейсы. Сегодня они умеют просматривать веб, писать и запускать код, использовать компьютеры и совершать автономные многошаговые действия. С появлением каждой из этих новых возможностей появлялись и новые риски. Мы ожидаем, что эта закономерность сохранится.
We focused the RSP on the principle of conditional, or if-then, commitments. If a model exceeded certain capability levels (for example, biological science capabilities that could assist in the creation of dangerous weapons), then the policy stated that we should introduce a new and stricter set of safeguards (for example, against model misuse and the theft of model weights).
В основу RSP мы положили принцип условных, или если-то, обязательств. Если модель превышает определённые уровни возможностей (например, способности в области биологических наук, которые могут помочь в создании опасного оружия), то политика предписывает нам ввести новый, более строгий набор мер защиты (например, против злоупотребления моделью и кражи весов модели).
Each set of safeguards corresponded to an “AI Safety Level” (ASL): for example, ASL-2 referred to one set of required safeguards, whereas ASL-3 referred to a more stringent set of safeguards needed for more capable AI models.
Каждый набор мер защиты соответствовал определённому «AI Safety Level» (ASL): например, ASL-2 обозначал один набор обязательных мер, а ASL-3 — более жёсткий набор, необходимый для более способных ИИ-моделей.
Early ASLs (ASL-2 and ASL-3) were defined in significant detail, but it was more difficult to specify the correct safeguards for models that were still several generations away. We therefore intentionally left the later ASLs (ASL-4 and beyond) largely undefined, and hoped to develop them in more detail once we had a better picture of what higher AI capability levels would entail.
Ранние ASL (ASL-2 и ASL-3) были описаны весьма подробно, но определить правильные меры защиты для моделей, до которых оставалось ещё несколько поколений, было сложнее. Поэтому мы намеренно оставили более поздние ASL (ASL-4 и далее) в основном неопределёнными, надеясь проработать их подробнее, когда у нас появится более чёткое представление о том, что собой представляют более высокие уровни возможностей ИИ.
The following is a rough description of our “theory of change”—that is, the mechanisms whereby we hoped to affect the ecosystem with the RSP:
Далее приводится примерное описание нашей «теории изменений» — то есть механизмов, с помощью которых мы надеялись повлиять на экосистему через RSP:
Внутренняя принуждающая функция. Внутри Anthropic мы надеялись, что RSP заставит нас рассматривать важные меры защиты как обязательное условие для запуска (и обучения) новых моделей. Это сделало значимость этих мер очевидной для большой и растущей организации, побуждая нас быстрее двигаться вперёд.Гонка к вершине. Мы надеялись, что объявление о нашей RSP побудит другие ИИ-компании ввести аналогичные политики. Это идея «гонки к вершине» (противоположности «гонке ко дну»), при которой у разных игроков отрасли есть стимул усиливать, а не ослаблять меры защиты своих моделей и общую безопасность. Со временем мы надеялись, что RSP или подобные политики станут добровольными отраслевыми стандартами или повлияют на законы об ИИ, направленные на поощрение безопасности и прозрачности в разработке моделей ИИ.Формирование консенсуса о рисках. Мы рассматривали пороги возможностей как потенциально важные моменты для индустрии. Если бы мы достигли значимого порога возможностей (например, способности ИИ-моделей поддерживать сквозное производство биологического оружия), мы бы сами ввели соответствующие меры защиты и использовали бы полученные доказательства о возможностях ИИ, чтобы призывать другие компании и правительства к действиям. Иными словами, мы считали, что пороги возможностей могут быть удачными моментами для того, чтобы выйти за пределы одностороннего действия (Anthropic вводит меры защиты для своих моделей) и поощрять многосторонние действия (другие ИИ-компании и/или правительства также вводят такие меры).Взгляд в будущее. Мы понимали, что на некоторых более поздних порогах возможностей интенсивность мер противодействия, которую мы предусматривали (например, обеспечение высокой устойчивости к злоупотреблению ИИ-моделями со стороны акторов государственного уровня), скорее всего будет трудно или невозможно реализовать Anthropic в одиночку. Мы надеялись, что к моменту достижения этих более высоких возможностей мир ясно увидит опасности, и мы сможем координировать с правительствами по всему миру внедрение мер защиты, которых трудно достичь одной компании.
Assessing our theory of change
Оценка нашей теории изменений
Two and a half years later, our honest assessment is that some parts of this theory of change have played out as we hoped, but others have not. The following are the areas in which the RSP has been successful:
Два с половиной года спустя наша честная оценка такова: некоторые части этой теории изменений сработали так, как мы надеялись, а другие — нет. Вот области, в которых RSP оказалась успешной:
Наша RSP действительно стимулировала нас разрабатывать более сильные меры защиты. Например, чтобы соответствовать стандарту развёртывания ASL-3 (который в основном касается рисков от химического и биологического оружия со стороны акторов с относительно скромными ресурсами и экспертизой), мы разработали всё более сложные и точные методы (в частности, входные и выходные классификаторы) для блокировки нежелательного контента.В более широком смысле, реализация стандарта ASL-3 в целом оказалась осуществимой. Мы активировали меры защиты ASL-3 для соответствующих моделей в мае 2025 года и с тех пор работаем над их улучшением.Наша RSP действительно побудила другие ИИ-компании принять в чём-то похожие стандарты: в течение нескольких месяцев после объявления о нашей RSP и OpenAI, и Google DeepMind приняли в целом похожие рамки. Некоторые компании также внедрили классификаторы, связанные с биооружием, в духе наших защит ASL-3. Принципы, лежащие в основе этих добровольных стандартов, включая принципы RSP, помогли в формировании ранней политики в области ИИ. Мы видим, как правительства по всему миру (например, в Калифорнии с SB 53, в Нью-Йорке с RAISE Act и с Кодексами практики EU AI Act) начинают требовать от разработчиков передовых ИИ создавать и публиковать рамки для оценки и управления катастрофическими рисками — требования, которые Anthropic выполняет через публичную документацию, в том числе через свой Frontier Compliance Framework. Поощрение подобных строгих рамок прозрачности для отрасли — именно то, к чему стремилась наша RSP.
Nevertheless, other parts of our theory of change have not panned out as we’d hoped:
Тем не менее другие части нашей теории изменений сработали не так, как мы надеялись:
- Biological risks provide an example of this “zone of ambiguity”. Our models now show enough biological knowledge that they pass most tests we can run quickly and easily, so we can no longer make a strong argument that risks are low from a given model. But these tests alone aren’t sufficient for a strong argument that risks are high, either. We’ve sought additional evidence, such as supporting an extensive wet-lab trial, but results remain ambiguous, especially because the studies take long enough that more powerful models are available by the time they’re completed.
Идея использовать пороги RSP для формирования большего консенсуса по рискам ИИ не сработала на практике — хотя некоторый эффект всё же был. Заранее установленные уровни возможностей оказались гораздо более неоднозначными, чем мы предполагали: в ряде случаев возможности моделей явно приближались к порогам RSP, но у нас сохранялась существенная неопределённость в том, окончательно ли они их преодолели. Наука об оценке моделей пока недостаточно развита, чтобы давать однозначные ответы. В таких случаях мы придерживались осторожного подхода и внедряли соответствующие меры защиты, но наша внутренняя неопределённость превращается в слабый внешний аргумент для многосторонних действий в индустрии ИИ.Биологические риски — пример такой «зоны неоднозначности». Наши модели сейчас демонстрируют достаточно биологических знаний, чтобы проходить большинство тестов, которые мы можем провести быстро и легко, поэтому мы больше не можем уверенно утверждать, что риски от той или иной модели низки. Но и одних этих тестов недостаточно, чтобы убедительно утверждать, что риски высоки. Мы искали дополнительные доказательства, например поддерживая обширное испытание в реальной лаборатории, но результаты остаются неоднозначными, особенно потому, что исследования длятся достаточно долго, чтобы к моменту их завершения уже появились более мощные модели.Несмотря на стремительный прогресс возможностей ИИ за последние три года, государственные действия по безопасности ИИ продвигаются медленно. Политическая среда сместилась в сторону приоритета конкурентоспособности ИИ и экономического роста, тогда как ориентированные на безопасность обсуждения пока не получили заметной поддержки на федеральном уровне. Мы по-прежнему убеждены, что эффективное взаимодействие с государством по вопросам безопасности ИИ необходимо и достижимо, и стремимся продолжать продвигать диалог, основанный на фактах, интересах национальной безопасности, экономической конкурентоспособности и общественном доверии. Но это оказывается долгосрочным проектом — а не чем-то, что происходит органически по мере того, как ИИ становится более способным или пересекает определённые пороги.
As noted above, we were able to implement ASL-3 safeguards unilaterally and at reasonable costs to the operation of the company. However, this may not remain true for higher capability levels and higher ASLs. While our higher ASLs are largely undefined, the robust mitigations we laid out in the prior RSP might prove outright impossible to implement without collective action. As one illustration of the scale of the challenge, a RAND report on model weight security states that its “SL5” security standard, aimed at stopping top-priority operations by the most cyber-capable institutions, is “currently not possible” and “will likely require assistance from the national security community.”
Как отмечено выше, мы смогли внедрить меры защиты ASL-3 в одностороннем порядке и при разумных затратах для работы компании. Однако это может перестать быть верным для более высоких уровней возможностей и более высоких ASL. Хотя наши более высокие ASL в значительной мере не определены, надёжные меры смягчения, которые мы излагали в предыдущей RSP, могут оказаться попросту невозможными для реализации без коллективных действий. В качестве одной из иллюстраций масштаба задачи: отчёт RAND о безопасности весов моделей утверждает, что его стандарт безопасности «SL5», направленный на остановку первоочередных операций самых киберспособных институтов, «в настоящее время невозможен» и «вероятно потребует помощи со стороны сообщества национальной безопасности».
The combination of (a) the zone of ambiguity muddling the public case for risk, (b) an anti-regulatory political climate, and (c) requirements at the higher RSP levels that are very hard to meet unilaterally, creates a structural challenge for our current RSP. We could have tried to address this by defining ASL-4 and ASL-5 safeguards in ways that made compliance easy to achieve—but this would undermine the intended spirit of the RSP.
Сочетание (а) зоны неоднозначности, размывающей публичное обоснование риска, (б) антирегулятивного политического климата и (в) требований на более высоких уровнях RSP, которые очень трудно выполнить в одиночку, создаёт структурную проблему для нашей нынешней RSP. Мы могли бы попытаться решить её, определив меры защиты ASL-4 и ASL-5 так, чтобы соответствие было легко достижимо, — но это подорвало бы изначальный дух RSP.
Instead, we are choosing to acknowledge these challenges transparently and restructure the RSP before we reach these higher levels. The revised RSP aims to adopt more realistic unilateral commitments that are difficult but still achievable in the current environment, while continuing to comprehensively map the risks we believe the full industry needs to address multilaterally.
Вместо этого мы решаем открыто признать эти трудности и реструктурировать RSP до того, как мы достигнем этих более высоких уровней. Обновлённая RSP стремится принять более реалистичные односторонние обязательства, которые сложны, но всё же достижимы в нынешней среде, и при этом продолжать всесторонне описывать риски, которые, по нашему мнению, индустрия должна решать многосторонне.
Updating our Responsible Scaling Policy
Обновление нашей Responsible Scaling Policy
The new version of our RSP has three key elements.
В новой версии нашей RSP три ключевых элемента.
1. Separating our plans as a company from our recommendations for the industry
1. Разделение наших планов как компании и наших рекомендаций для индустрии
Our RSP now outlines two sets of mitigations: first, the mitigations that we plan to pursue regardless of what others do; and second, an ambitious capabilities-to-mitigations map that, we believe, would help adequately manage the risks from advanced AI if implemented across the AI industry.
Теперь наша RSP описывает два набора мер смягчения: во-первых, меры, которые мы планируем применять независимо от действий других; и во-вторых, амбициозную карту соответствия возможностей и мер смягчения, которая, по нашему мнению, позволила бы адекватно управлять рисками от продвинутого ИИ, если бы её внедрили во всей индустрии.
Read the full Responsible Scaling Policy.
Полный текст Responsible Scaling Policy.
2. Frontier Safety Roadmap
2. Frontier Safety Roadmap
Our new RSP introduces a requirement to develop and publish a Frontier Safety Roadmap, which will describe our concrete plans for risk mitigations across the areas of Security, Alignment, Safeguards, and Policy. Goals described in the Roadmaps are intended to be ambitious, yet achievable—providing the kind of forcing function that we consider to be a past success of our RSP.
В нашей новой RSP вводится требование разрабатывать и публиковать Frontier Safety Roadmap, которая будет описывать наши конкретные планы по смягчению рисков в областях безопасности, согласования (Alignment), мер защиты и политики. Цели, описанные в дорожных картах, призваны быть амбициозными, но достижимыми — обеспечивая ту самую принуждающую функцию, которую мы считаем одним из прежних успехов нашей RSP.
Rather than being hard commitments, these are public goals that we will openly grade our progress towards. This strategy of “nonbinding but publicly-declared” targets borrows from the transparency approach we’ve been championing for frontier AI legislation (although it provides the public with much more detail than is required under existing legislation), and from the successes of our previous RSP versions.
Это не жёсткие обязательства, а публичные цели, прогресс по которым мы будем открыто оценивать. Такая стратегия «необязательных, но публично объявленных» целей заимствует подход к прозрачности, который мы продвигаем в законодательстве о передовом ИИ (хотя и предоставляет публике гораздо больше деталей, чем требует существующее законодательство), и опирается на успехи предыдущих версий нашей RSP.
Some example goals from our current Frontier Safety Roadmap include:
Вот несколько примерных целей из нашей текущей Frontier Safety Roadmap:
Запустить «moonshot R&D»-проекты, чтобы исследовать амбициозные, возможно нестандартные способы достичь беспрецедентных уровней информационной безопасности;Разработать метод red-teaming наших систем (вероятно, с существенной автоматизацией), который превосходит совокупный вклад сотен участников нашей программы bug bounty;Внедрить ряд системных мер, обеспечивающих, что Claude ведёт себя в соответствии со своей конституцией;Создать всеобъемлющие централизованные записи всех наших критически важных активностей в разработке ИИ и использовать ИИ для анализа этих записей на предмет проблем, включая тревожное поведение инсайдеров (как людей, так и ИИ) и угрозы безопасности;Опубликовать политическую дорожную карту с конкретными предложениями по «регуляторной лестнице» — политикам, масштабирующимся с ростом риска и способным помочь направлять государственную политику в области ИИ.
Read the Frontier Safety Roadmap for more on these and our other goals.
Подробнее об этих и других наших целях читайте в Frontier Safety Roadmap.
3. Risk Reports and external review
3. Risk Reports и внешний обзор
Risk Reports are another way in which we’re improving upon what worked well about our previous RSP. We found that producing a proto-Risk Report, our Safeguards Report from May 2025, was useful for our internal understanding and the public communication of the risks. Risk Reports extend this to a more systematic, comprehensive practice.
Risk Reports — ещё один способ, с помощью которого мы развиваем то, что хорошо работало в нашей предыдущей RSP. Мы обнаружили, что подготовка прото-Risk Report — нашего Safeguards Report от мая 2025 года — была полезна как для нашего внутреннего понимания, так и для публичной коммуникации рисков. Risk Reports расширяют эту идею до более систематической и всеобъемлющей практики.
Risk Reports will provide detailed information on the safety profile of our models at the time of publication. They will go beyond describing model capabilities to explain how capabilities, threat models (the specific ways that models might pose threats), and active risk mitigations fit together, and provide an assessment of the overall level of risk. Risk Reports will be published online (with some redactions1) every 3-6 months.
Risk Reports будут содержать подробную информацию о профиле безопасности наших моделей на момент публикации. Они будут не только описывать возможности моделей, но и объяснять, как сочетаются возможности, модели угроз (конкретные способы, которыми модели могут представлять угрозу) и применяемые меры смягчения рисков, а также давать оценку общего уровня риска. Risk Reports будут публиковаться онлайн (с некоторыми изъятиями1) каждые 3–6 месяцев.
The new RSP also requires external review of Risk Reports in certain circumstances. We will appoint expert third-party reviewers who are deeply familiar with AI safety research, are incentivized to be open and honest about Anthropic’s safety position, and are free of major conflicts of interest. They will have unredacted or minimally-redacted access to the Risk Report and will subject our reasoning, analysis, and decision-making to a comprehensive public review. Although our current models do not yet require external review, we are already running pilots and working toward this goal.
Новая RSP также требует внешнего обзора Risk Reports в определённых обстоятельствах. Мы будем привлекать экспертных сторонних рецензентов, глубоко знакомых с исследованиями в области безопасности ИИ, имеющих стимул быть открытыми и честными в отношении позиции Anthropic по безопасности и не имеющих серьёзных конфликтов интересов. У них будет доступ к Risk Report без изъятий или с минимальными изъятиями, и они подвергнут наши рассуждения, анализ и принятие решений всестороннему публичному обзору. Хотя наши нынешние модели пока не требуют внешнего обзора, мы уже проводим пилотные программы и движемся к этой цели.
Risk Reports will address any gaps between our current safety and security measures and our more ambitious recommendations for industry-wide safety. We are hopeful that describing and publicizing such gaps could help contribute to public awareness and thus to beneficial policy change in the future.
Risk Reports будут охватывать любые расхождения между нашими текущими мерами безопасности и нашими более амбициозными рекомендациями для общеотраслевой безопасности. Мы надеемся, что описание и публикация таких расхождений может способствовать общественной осведомлённости и, в перспективе, благотворным изменениям в политике.
Read the initial Risk Report.
Читайте первоначальный Risk Report.
Conclusion
Заключение
The Responsible Scaling Policy was always planned to be a living document: a policy that had the flexibility to change as AI models become more capable. This third revision amplifies what worked about the previous RSP, commits us to more transparency about our plans and our risk considerations, and separates out our recommendations for the industry at large from what we can achieve as an individual company.
Responsible Scaling Policy всегда задумывалась как живой документ: политика, обладающая гибкостью меняться по мере того, как ИИ-модели становятся всё более способными. Эта третья редакция усиливает то, что хорошо работало в предыдущей RSP, обязывает нас к большей прозрачности в отношении наших планов и оценок рисков и отделяет наши рекомендации для индустрии в целом от того, чего мы можем достичь как отдельная компания.
In that same spirit of pragmatism we will continue to revise and refine our RSP, and our methods of evaluating and mitigating risks, as the technology evolves.
В том же духе прагматизма мы будем и дальше пересматривать и уточнять нашу RSP, а также наши методы оценки и смягчения рисков по мере развития технологии.
Footnotes
Сноски
1. As we discuss in the RSP, we will aim to minimize redactions to the public version of the Risk Report. Reasons we may nonetheless have to redact some of the text include legal compliance, intellectual property protection, public safety, and privacy.
1. Как мы обсуждаем в RSP, мы будем стремиться минимизировать изъятия в публичной версии Risk Report. Среди причин, по которым нам всё же может потребоваться скрывать часть текста, — соблюдение законодательства, защита интеллектуальной собственности, общественная безопасность и приватность.
Related content
Связанные материалы
PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
PwC внедряет Claude, чтобы создавать технологии, заключать сделки и переосмысливать корпоративные функции для клиентов
PwC will roll out Claude Code and Cowork starting with U.S. teams and expanding toward a global workforce of hundreds of thousands of professionals, establish a joint Center of Excellence, and train and certify 30,000 PwC professionals on Claude.
PwC развернёт Claude Code и Cowork, начав с команд в США и постепенно охватив глобальный штат из сотен тысяч специалистов, создаст совместный Center of Excellence и обучит и сертифицирует 30 000 профессионалов PwC по работе с Claude.
Anthropic forms $200 million partnership with the Gates Foundation
Anthropic заключает партнёрство с Gates Foundation на 200 миллионов долларов
Introducing Claude for Small Business
Представляем Claude for Small Business
We're launching Claude for Small Business, a package of connectors and ready-to-run workflows that put Claude inside the tools small businesses use every day.
Мы запускаем Claude for Small Business — пакет коннекторов и готовых к запуску рабочих процессов, которые встраивают Claude в инструменты, которыми малый бизнес пользуется каждый день.