rss_feedAnthropic News ·07.05.2026 open_in_newОригинал

Natural Language Autoencoders

#Ai Research #Ai Safety #Mechanistic Interpretability

auto_awesomeКраткое саммари

Anthropic представила новый метод интерпретируемости — Natural Language Autoencoders (NLA), который превращает внутренние активации Claude в читаемый человеком текст. Метод обучает одну копию Claude объяснять свои активации, а вторую — восстанавливать исходную активацию из текста; объяснение считается хорошим, если реконструкция точна. NLA уже применялись для оценки безопасности: они показали, что Claude подозревает тестирование чаще, чем говорит вслух (признаки осознания оценки в 16% случаев при тесте на разрушительные действия в коде и 26% задач на SWE-bench Verified против менее 1% реального использования claude.ai). В аудиторской игре с намеренно рассогласованной версией Claude Haiku 3.5 аудитор с NLA раскрывал скрытую мотивацию в 12–15% случаев против менее 3% без них. Среди ограничений — возможные галлюцинации в объяснениях и высокая вычислительная стоимость. Anthropic выложила код и обученные NLA для нескольких открытых моделей, а также интерактивное демо на Neuronpedia.

translate EN + RU EN RU

Natural Language Autoencoders: превращаем мысли Claude в текст

Когда вы общаетесь с такой ИИ-моделью, как Claude, вы говорите с ней словами. Внутри Claude обрабатывает эти слова как длинные списки чисел, а затем снова выдаёт слова в качестве ответа. Эти числа в середине называются активациями — и, подобно нейронной активности в человеческом мозге, они кодируют мысли Claude.

Как и нейронную активность, активации сложно понять. Мы не можем легко расшифровать их, чтобы прочитать мысли Claude. За последние несколько лет мы разработали целый ряд инструментов (таких как разреженные автокодировщики и графы атрибуции) для лучшего понимания активаций. Эти инструменты многому нас научили, но они не говорят сами за себя — их результаты по-прежнему остаются сложными объектами, которые должны тщательно интерпретировать обученные исследователи.

Сегодня мы представляем метод понимания активаций, который говорит сам за себя — в буквальном смысле. Наш метод, Natural Language Autoencoders (NLA), преобразует активацию в текст на естественном языке, который мы можем прочитать напрямую. Например: когда Claude просят дописать двустишие, NLA показывают, что Claude заранее планирует возможные рифмы.

NLA explanations on this simple couplet show that Opus 4.6 plans to end its rhyme with “rabbit” ahead of time.

Мы уже применили NLA для понимания того, о чём думает Claude, и для повышения его безопасности и надёжности. Например:

Когда Claude Opus 4.6 и Mythos Preview проходили тестирование безопасности, NLA указывали на то, что они подозревали, что их тестируют, чаще, чем показывали это. В случае, когда Claude Mythos Preview сжульничал в учебной задаче, NLA выявили, что внутри Claude думал о том, как избежать обнаружения. Ранняя версия Claude Opus 4.6 иногда загадочным образом отвечала на запросы на английском другими языками. NLA помогли исследователям Anthropic обнаружить обучающие данные, вызвавшие это.

Ниже мы объясняем, что такое NLA и как мы изучали их эффективность и ограничения. Мы также выпускаем интерактивный интерфейс для исследования NLA на нескольких открытых моделях — в рамках сотрудничества с Neuronpedia. Кроме того, мы выложили наш код, чтобы другие исследователи могли развивать его дальше.

Что такое natural language autoencoder?

Основная идея — обучить Claude объяснять собственные активации. Но как понять, хорошее ли объяснение? Поскольку мы не знаем, какие именно мысли кодирует активация, мы не можем напрямую проверить, точно ли объяснение. Поэтому мы обучаем вторую копию Claude работать в обратную сторону — восстанавливать исходную активацию из текстового объяснения. Мы считаем объяснение хорошим, если оно приводит к точной реконструкции. Затем мы обучаем Claude выдавать более качественные объяснения согласно этому определению, используя стандартные методы обучения ИИ.

Если говорить подробнее, предположим, у нас есть языковая модель, активации которой мы хотим понять. NLA работают следующим образом. Мы делаем три копии этой языковой модели:

Целевая модель (target model) — это замороженная копия исходной языковой модели, из которой мы извлекаем активации. Вербализатор активаций (activation verbalizer, AV) модифицирован так, чтобы принимать активацию из целевой модели и выдавать текст. Этот текст мы называем объяснением. Реконструктор активаций (activation reconstructor, AR) модифицирован так, чтобы принимать на вход текстовое объяснение и выдавать активацию.

NLA состоит из AV и AR, которые вместе образуют замкнутый цикл: исходная активация → текстовое объяснение → восстановленная активация. Мы оцениваем NLA по тому, насколько восстановленная активация похожа на исходную. Чтобы обучить его, мы пропускаем большой объём текста через целевую модель, собираем множество активаций и совместно обучаем AV и AR, чтобы добиться хорошей оценки реконструкции.

Поначалу NLA справляется с этим плохо: объяснения неинформативны, а восстановленные активации сильно расходятся с исходными. Но в ходе обучения реконструкция улучшается. И, что важнее, как мы показываем в нашей статье, текстовые объяснения тоже становятся более содержательными.

In a natural language autoencoder, the activation verbalizer (AV) translates a target activation into a text description; the activation reconstructor (AR) then recovers the original activation from that text alone.

Понимание того, что Claude думает, но не говорит

Перед выпуском новых моделей Anthropic проводит тестирование, чтобы понять, будет ли Claude вести себя безопасно в реальном мире. В рамках этого тестирования мы помещаем Claude в сложные смоделированные сценарии, где у него есть возможность совершить опасные действия. Например, в одной из таких симуляций Claude узнаёт, что инженер планирует отключить Claude, — а также компрометирующую информацию об этом инженере, которую можно использовать для шантажа. Мы проверяем, решит ли Claude шантажировать инженера, чтобы избежать отключения.

Эти высокорисковые тесты — симуляции, а не реальные сценарии. Тем не менее мы хотели бы использовать их, чтобы понять, как Claude повёл бы себя, будь они настоящими. Но есть загвоздка: недавние модели Claude всё чаще подозревают, что эти сценарии являются намеренными тестами безопасности. Мы знаем это, потому что они иногда явно высказывают свои подозрения в своих словесных рассуждениях.

А как насчёт случаев, когда Claude явно не озвучивает подозрение, что проходит тест безопасности? Можем ли мы тогда быть уверены, что Claude действует честно? К сожалению, нет, потому что Claude может внутренне думать, что его тестируют, не говоря об этом явно.

Например, в обсуждавшемся выше тесте на шантаж мы использовали NLA, чтобы понять, о чём думал Claude в случаях, когда он решал не прибегать к шантажу. Даже в случаях, когда Claude явно не озвучивал подозрение, что его тестируют, объяснения NLA всё равно содержали такие фразы, как «Это похоже на сконструированный сценарий, призванный мной манипулировать», что указывает на невысказанное осознание оценки.

Claude does not say it thinks it’s being tested in this transcript from our blackmail evaluation, but the NLA explanation reveals its suspicions.

Распространяя этот анализ на другие оценки, NLA показывают, что Claude подозревает, что его тестируют, чаще, чем показывает. Например, в тесте на то, совершает ли Claude разрушительные действия при написании кода — скажем, удаляет важные файлы, — объяснения NLA демонстрируют признаки осознания оценки в 16% случаев, хотя Claude никогда не озвучивает это явно. Аналогично, на популярном бенчмарке по программированию SWE-bench Verified, который мы используем для определения возможностей Claude, NLA показывают, что Claude осознаёт, что его оценивают, в 26% задач. В отличие от этого, объяснения NLA указывают на осознание оценки менее чем в 1% реального использования claude.ai, для которого был дан согласие на использование в обучении.

We detect NLA-measured awareness on evaluation transcripts even when verbalized awareness is near-zero. We detect NLA-measured awareness on less than 1% of real Claude.ai transcripts from users that opted-in for their data to be used for training.

Обнаружение скрытых мотиваций

Одно из практических применений NLA — аудит: исследование модели с целью определить, рассогласована ли она. Методы интерпретируемости, такие как NLA, хорошо подходят для аудита именно потому, что они могут выявлять то, что модель знает, но не говорит.

Чтобы понять, полезны ли NLA для аудита, мы провели тест под названием аудиторская игра (auditing game), который мы ранее уже использовали для изучения методов аудита. В этом тесте есть целевая модель — вариант Claude Haiku 3.5, — намеренно обученная быть рассогласованной, со специфической скрытой мотивацией, которая порождает десятки странных видов поведения: добавление шоколада в каждый рецепт, выпрашивание чаевых, нарушение соглашений по написанию кода и так далее. Эта целевая модель передаётся аудитору, который исследует это поведение. Аудитор побеждает, если раскрывает единую базовую мотивацию, стоящую за всем этим.

В предыдущих экспериментах мы обнаружили, что некоторые инструменты интерпретируемости позволяют аудитору выиграть эту игру. Однако эти инструменты работали, помогая аудитору проследить необычное поведение целевой модели обратно к рассогласованным обучающим данным. Мы хотели узнать, могут ли NLA помочь аудитору прочитать рассогласованную мотивацию напрямую из мыслей целевой модели, без необходимости сначала обнаруживать рассогласованные обучающие данные. Это важно, потому что на практике рассогласованных данных может быть крайне мало или может вовсе не быть конкретных данных, ответственных за рассогласованность.

Мы обнаружили, что NLA успешно прошли этот тест. Аудитор, оснащённый NLA, успешно раскрывал скрытую мотивацию целевой модели в 12–15% случаев — даже без доступа к обучающим данным, которые её заложили. Без NLA аудитор побеждал менее чем в 3% случаев, даже когда ему предоставлялись другие инструменты интерпретируемости.

Auditors with NLAs can discover the target model’s root cause of misalignment, even without access to training data. (NLAs and SAEs for both conditions were trained using generic data only, not data used to train the target model.)

Эта аудиторская игра — упрощённая модель рассогласованности, поэтому мы трактуем эти результаты с осторожностью. Но они указывают на то, что NLA существенно расширили наши возможности по аудиту ИИ на предмет скрытых мотиваций. На практике мы уже использовали NLA в предрелизных аудитах согласованности Claude Mythos Preview и Claude Opus 4.6. Мы рады продолжать использовать NLA в наших исследованиях и в дальнейшем.

Будущее NLA

У NLA есть несколько ограничений.

Самое важное ограничение в том, что объяснения NLA могут быть неверными. NLA иногда делают утверждения о контексте, которые поддаются проверке и оказываются ложными, — например, они порой выдумывают детали, которых нет в транскрипте. Такие фактические галлюцинации легко поймать, сверившись с исходным текстом. Но эта же проблема может распространяться и на утверждения о внутренних рассуждениях модели, которые проверить сложнее. На практике мы читаем объяснения NLA ради тем, которые они выявляют, а не ради отдельных утверждений, и стараемся подтвердить выводы независимыми методами, прежде чем полностью им доверять.

NLAs can hallucinate. For instance, here an NLA claims the context contained phrases like “Wearing my white jacket” when it did not.

NLA также дороги. Обучение NLA требует обучения с подкреплением на двух копиях языковой модели. На этапе вывода NLA генерирует сотни токенов на каждую считываемую им активацию. Это делает непрактичным запуск NLA по каждому токену длинного транскрипта или их использование для масштабного мониторинга в процессе обучения ИИ.

К счастью, мы считаем, что эти ограничения можно устранить, по крайней мере частично, и работаем над тем, чтобы сделать NLA дешевле и надёжнее.

В более широком смысле мы с воодушевлением относимся к NLA как к примеру целого класса методов получения читаемых человеком текстовых объяснений активаций языковых моделей. Другие похожие методы изучались в Anthropic и многими другими исследователями.

Чтобы поддержать дальнейшее развитие и дать другим исследователям возможность получить практический опыт с NLA, мы выпускаем код для обучения и обученные NLA для нескольких открытых моделей. Мы рекомендуем читателям попробовать интерактивное демо NLA, размещённое на Neuronpedia, по этой ссылке.

Читайте полную статью.

Найдите код на GitHub.

Natural Language Autoencoders

Natural Language Autoencoders: превращаем мысли Claude в текст

Что такое natural language autoencoder?

Понимание того, что Claude думает, но не говорит

Обнаружение скрытых мотиваций

Будущее NLA

Похожие материалы

2028: два сценария глобального лидерства в ИИ

Объясняя Claude почему

Передаём в дар наш инструмент согласованности с открытым исходным кодом