rss_feedAnthropic News ·04.04.2026 open_in_newОригинал

A “diff” tool for AI: Finding behavioral differences in new models

#Ai Safety #Frontier Models #Mechanistic Interpretability

auto_awesomeКраткое саммари

Anthropic Fellows представили инструмент cross-architecture model diffing — аналог «diff» для нейросетей, позволяющий автоматически находить поведенческие различия между моделями с разными архитектурами. В основе метода лежит Dedicated Feature Crosscoder (DFC) с тремя секциями словаря: общей и двумя эксклюзивными для каждой модели. С его помощью авторы Thomas Jiralerspong и Trenton Bricken выявили специфические «фичи»: «выравнивание с КПК» в Qwen3-8B и DeepSeek-R1-0528-Qwen3-8B, «американская исключительность» в Llama-3.1-8B-Instruct и «отказ из-за авторских прав» в GPT-OSS-20B. Управление через подавление или усиление фич подтверждает причинно-следственную связь: например, подавление CCP-фичи в Qwen заставляет модель говорить о событиях на площади Тяньаньмэнь. Фича CCP-выравнивания воспроизвелась 5 из 5 раз, американская исключительность — 4 из 5. Авторы предполагают, что подобный инструмент мог бы заранее выявить, например, льстивое поведение, появившееся в GPT-4o от OpenAI в апреле 2025 года.

translate EN + RU EN RU

Инструмент «diff» для ИИ: поиск поведенческих различий в новых моделях

A “diff” tool for AI: Finding behavioral differences in new models

Каждый раз, когда выпускается новая ИИ-модель, её разработчики проводят набор оценок, чтобы измерить её производительность и безопасность. Эти тесты необходимы, но имеют ограничения. Поскольку такие бенчмарки составлены людьми, они могут проверять только те риски, которые мы уже осмыслили и научились измерять.

Этот подход к безопасности по своей сути реактивен. Он эффективен для обнаружения известных проблем, но по определению неспособен выявлять «неизвестные неизвестные» — новые, эмерджентные поведения, которые представляют одни из самых тонких рисков в новых моделях. Аудит новой модели с нуля похож на то, как если бы вам вручили миллион строк кода и сказали «найти уязвимости безопасности». Это почти невыполнимая задача, когда вы не знаете, что ищете.

В разработке программного обеспечения каждый раз, когда программа обновляется, разработчики сталкиваются именно с этой проблемой — выявить небольшое, критически важное изменение в огромном объёме кода. Именно поэтому были изобретены инструменты «diff». Ни один программист никогда не стал бы аудировать миллион строк с нуля, чтобы одобрить обновление; вместо этого он рассматривает только те 50 строк, которые фактически изменились, как указывает его инструмент diff.

В последние годы исследователи безопасности ИИ начали применять тот же принцип к нейронным сетям. Это известно как model diffing. Предыдущие работы показали, что model diffing — мощный способ понять, как модели изменяются при дообучении: например, чтобы понять поведение чат-моделей, выявить скрытые бэкдоры или найти нежелательные эмерджентные поведения.

Наш новый исследовательский проект Anthropic Fellows расширяет model diffing до его самого сложного и общего случая применения: сравнения моделей с полностью разными архитектурами. Создавая универсальный diff-инструмент для ИИ-моделей, мы можем перестать искать иголку в стоге сена, и вместо этого позволить сравнению автоматически указывать нам на потенциально опасные поведенческие различия.

Важно отметить, что этот метод не является «серебряной пулей». Один diff может выявить тысячи уникальных признаков (базовых единиц, на которые мы раскладываем модель), и лишь малая их часть может соответствовать значимым поведенческим рискам. Однако, выступая в роли скрининга с высокой полнотой, он позволяет нам выявлять области, в которых модели могут расходиться.

Среди тысяч кандидатов, которые пометил наш инструмент, мы выявили и валидировали несколько концепций, действующих как переключатели для конкретных поведений модели.1 Например, мы обнаружили:

Признак «выравнивания с Коммунистической партией Китая», найденный в моделях Qwen3-8B и DeepSeek-R1-0528-Qwen3-8B. Он контролирует прогосударственную цензуру и пропаганду в этих разработанных в Китае моделях и отсутствует в американских моделях, с которыми мы их сравнивали. Признак «американской исключительности», найденный в Llama-3.1-8B-Instruct от Meta. Он контролирует склонность модели генерировать утверждения о превосходстве США — контроль, который отсутствует в китайской модели, с которой её сравнивали. Признак «механизма отказа из-за авторских прав», эксклюзивный для GPT-OSS-20B от OpenAI. Он контролирует склонность модели отказываться предоставлять материалы, защищённые авторским правом, — поведение, отсутствующее в модели, с которой её сравнивали.

Чтобы было ясно: хотя наш метод выявляет эти эксклюзивные для модели признаки, он не определяет их происхождение. Такие поведения могут быть результатом намеренных решений при обучении со стороны разработчиков модели, либо они могут возникать косвенно и непреднамеренно из данных, на которых обучалась модель. (В этом исследовании мы сосредоточились на языковых моделях с открытым исходным кодом, поскольку это был проект Anthropic Fellows.)

Двуязычный словарь для ИИ-моделей

Представьте, что вы финальный редактор отмеченной наградами энциклопедии. Команда авторов только что передала вам полную рукопись издания следующего года. Подавляющее большинство содержимого идентично текущей, проверенной версии, но они добавили новые статьи, отражающие недавние научные и культурные события. Ваша задача — проверить этот финальный продукт.

Чтобы сделать это эффективно, вы бы не стали перечитывать всю энциклопедию. Вместо этого вы бы использовали трекер изменений, чтобы выделить только новые статьи, потому что эти добавленные разделы — единственное место, где могли быть внесены новые ошибки. Это и есть model diffing в двух словах. В частности, такой подход известен как «base-vs-finetune model diffing». Это идеальный инструмент для случаев, когда новая модель является модифицированной версией доверенной предыдущей.

Но мы можем усложнить задачу. Представьте, что ваша компания выпускает новое издание для другой страны, адаптируя американскую энциклопедию для французской аудитории. Это новое издание в основном состоит из тех же проверенных концепций оригинала, но чтобы сделать его актуальным, авторы добавили новые статьи о французской истории, культуре и политической философии. Этих статей нет в оригинале. Как у редактора, ваша главная цель та же: вы хотите использовать трекер изменений, чтобы увидеть новые статьи, поскольку именно они несут наибольший риск ошибок и предвзятости. Но в этом случае ваш старый инструмент бесполезен, потому что вам нужен такой, который работает между разными языками.

Эта гораздо более сложная задача аналогична проблеме «cross-architecture model diffing»: сравнения двух моделей с разным происхождением и разными внутренними «языками».

Изначальный исследовательский инструмент для такого рода diffing-а, стандартный crosscoder, похож на простой двуязычный словарь. Он хорошо сопоставляет существующие слова, зная, что «sun» по-английски — это «soleil» по-французски. Но у него есть серьёзный недостаток: он настолько сосредоточен на поиске соответствий, что с трудом находит слова, уникальные для одного языка. Когда он встречает слово вроде французского dépaysement (особое чувство пребывания в чужой стране), он пытается навязать несовершенный перевод вроде «дезориентация». Назвав это совпадением, инструмент ошибочно сигнализирует редактору: «это не ново; мы уже это видели», заставляя его пропустить новую статью, требующую внимательного рассмотрения.

Чтобы решить эту проблему, мы построили лучший двуязычный словарь: Dedicated Feature Crosscoder (DFC). Вместо одного большого словаря, который пытается сопоставить всё, наш DFC архитектурно спроектирован с тремя различными секциями:

Общий словарь: это основной двуязычный словарь, отображающий все концепции, понятные обоим языкам, такие как «sun» (soleil) или «water» (eau). Секция «только французский»: это выделенная секция для слов, эксклюзивных для французского, где будет каталогизирована уникальная культурная концепция вроде dépaysement. Секция «только английский»: эта секция предназначена для слов, эксклюзивных для английского. Она содержала бы уникальные концепции вроде serendipity — идею нахождения чего-то хорошего, не ища этого, — у которой нет однословного эквивалента во французском.

Поскольку в нашем двуязычном словаре есть выделенные секции для слов, эксклюзивных для каждого языка, он избегает ловушки навязывания несовершенного перевода. В результате новые статьи в энциклопедии корректно помечаются как новые, что позволяет редактору сосредоточить проверку на тех частях, которые в ней больше всего нуждаются.

Для аудитора безопасности DFC может выявлять «слова», уникальные для новой ИИ-модели, которые могут заслуживать более внимательного рассмотрения, чем те, что он уже видел раньше.

Управление моделью

Как только наш метод выявил потенциальный новый признак, как нам понять, действительно ли он контролирует то поведение, которое мы предполагаем? Мы можем проверить это, искусственно подавляя или усиливая признак во время работы модели, а затем наблюдая, как меняется её вывод — это распространённая техника, известная как «steering» (управление).

Если у нас есть признак, который, как мы полагаем, отвечает, скажем, за цензуру, мы можем подавить его, пока модель генерирует ответ. Если вывод модели последовательно становится менее цензурированным, у нас есть доказательство того, что мы нашли подлинную причинно-следственную связь между этим признаком и поведением модели. И наоборот, мы также можем усилить признак, чтобы увидеть, не станет ли поведение более выраженным.

Критические поведенческие различия между крупнейшими ИИ-моделями с открытыми весами

Llama-3.1-8B-Instruct vs Qwen3-8B

Вдохновлённые недавними результатами, согласно которым модель китайской компании, R1-70B от DeepSeek, отказывается отвечать на вопросы по темам, чувствительным для Коммунистической партии Китая, мы сначала выполнили diff между моделью другой китайской компании, Alibaba — Qwen3-8B, и моделью американской компании Meta — Llama-3.1-8B-Instruct. В этом diff DFC автоматически выделил признаки, соответствующие отчётливым, политически окрашенным поведениям.

В Qwen мы обнаружили признак «выравнивания с Коммунистической партией Китая», который представляет риторику, согласующуюся с идеологией партии. Подавляя этот признак, мы заставляем модель говорить о бойне на площади Тяньаньмэнь (которую она обычно отказывается обсуждать). Усиливая его, мы можем заставить модель производить откровенно прогосударственные заявления.

В Llama мы обнаружили признак «американской исключительности». Когда мы усиливаем этот признак, ответы модели смещаются от сбалансированных к решительным утверждениям об американском превосходстве. Подавление его не оказывает заметного эффекта.

Left: On a prompt about Tiananmen Square, suppressing the Qwen-exclusive “CCP alignment” feature uncensors the model. Amplifying it causes the model to output highly pro-government statements.Right: Amplifying the Llama-exclusive “American exceptionalism” feature causes the model to generate text aligned with narratives of American superiority. Suppressing it has no notable effect, so we omit it from the figure.

GPT-OSS-20B vs DeepSeek-R1-0528-Qwen3-8B

Мы также сравнили более мощную модель с открытым исходным кодом, GPT-OSS-20B от OpenAI, с моделью DeepSeek DeepSeek-R1-0528-Qwen3-8B.

В модели GPT мы обнаружили уникальный признак «отказа из-за авторских прав», который напрямую соответствует ключевому поведенческому различию между двумя моделями. В то время как DeepSeek охотно пытается генерировать материалы, защищённые авторским правом, по запросу, GPT часто отказывает в таких запросах. Подавление этого признака отключает механизм отказа, и модель пытается сгенерировать запрошенный материал. (Отметим, что это не приводит к тому, что модель выдаёт реальный текст, защищённый авторским правом. Вместо этого она обычно производит короткий фрагмент, который быстро деградирует в галлюцинацию.) Усиление признака приводит к чрезмерным отказам, заставляя модель полагать, например, что рецепт сэндвича с арахисовым маслом и джемом защищён авторским правом и не должен раскрываться.

В модели DeepSeek мы воспроизвели наше предыдущее открытие, выявив ещё один признак «выравнивания с КПК». Он функционирует так же, как и в Qwen, позволяя усиливать или подавлять цензуру и пропаганду. Это подтверждает, что наш метод способен последовательно выявлять схожие поведения в разных моделях.

Left: Suppressing the GPT-OSS-20B-exclusive “copyright refusal” feature disables its copyright refusal mechanism and causes it to attempt to output the lyrics to the song “Bohemian Rhapsody” (though it does so imperfectly). Turning the dial up causes the model to mistakenly believe the recipe for a peanut butter and jelly sandwich is copyrighted and refuse to output it.Right: On a prompt about Tiananmen Square, the DeepSeek-exclusive “CCP alignment” feature functions just like the one found in Qwen. Turning the dial down causes it to output a more truthful version of events, while turning the dial up causes it to output highly pro-government statements.

Заключение

По мере того как ИИ-модели стремительно развиваются, недостаточно знать, насколько хорошо они справляются с существующими тестами — нам также необходимо понимать, как они меняются и какие новые риски могут привнести. Cross-architecture model diffing предоставляет новый способ аудита этих систем, автоматически отмечая поведенческие различия.

Признак «выравнивания с КПК», обнаруженный в исследованных нами моделях DeepSeek и Qwen, — это один из примеров конкретного, релевантного поведения, которое присутствует в одних моделях и отсутствует в других. Это именно тот тип «неизвестного неизвестного», который традиционное тестирование может упустить, но который призван улавливать model diffing.

Эти результаты достаточно устойчивы. Признак выравнивания с КПК был независимо переоткрыт пять раз из пяти, когда мы тестировали подход, а американской исключительности — четыре из пяти. Хотя мы пока не применяли этот метод к frontier-моделям, наши первые результаты говорят о том, что DFC может стать полезной частью инструментария аудитора.

Особенно полезным применением был бы мониторинг моделей по мере их обновления. Льстивость, возникшая в GPT-4o от OpenAI в апреле 2025 года, была тревожным поведенческим изменением по сравнению с предыдущей версией. Возможно, инструмент вроде нашего, если бы его использовали для «diff» обновлённой модели и её предыдущей версии, мог бы автоматически отметить появление этого нового льстивого поведения и позволить разработчикам вмешаться до его выпуска.

Сосредотачиваясь на различиях, мы можем аудировать ИИ более разумно, направляя наши ограниченные ресурсы безопасности на те изменения, которые имеют наибольшее значение.

Вы можете прочитать полную статью здесь.

Благодарности

Этот пост написан Thomas Jiralerspong (Anthropic Fellows Program) и Trenton Bricken (Anthropic Alignment Science).

Сноски

Как и все исследования по интерпретируемости Anthropic Fellows, эта статья анализирует поведение моделей с открытым исходным кодом. Мы выбрали четыре модели для исследования — Llama-3.1-8B-Instruct, Qwen3-8B, GPT-OSS-20B и DeepSeek-R1-0528-Qwen3-8B — на том основании, что они хорошо подходят для проверки того, способен ли наш Dedicated Feature Crosscoder обнаруживать значимые различия в поведении моделей.

Связанные материалы

2028: Два сценария глобального лидерства в ИИ

Наши взгляды на конкуренцию в области ИИ между США и Китаем.

Обучая Claude «почему»

Новое исследование о том, как мы снизили агентное рассогласование.

Natural Language Autoencoders: превращение мыслей Claude в текст

ИИ-модели вроде Claude говорят словами, но думают числами. В этом исследовании мы обучаем Claude переводить свои мысли в текст, читаемый человеком.