rss_feedAnthropic News ·03.03.2026 open_in_newОригинал

Mapping the Mind of a Large Language Model

#Ai Safety #LLM Engineering #Mechanistic Interpretability

auto_awesomeКраткое саммари

Anthropic сообщает о значительном прогрессе в понимании внутренней работы LLM: исследователи извлекли миллионы признаков (features) из среднего слоя Claude 3.0 Sonnet, получив первую детальную карту концептов внутри современной production-модели. С помощью техники dictionary learning они обнаружили признаки, соответствующие как конкретным сущностям (San Francisco, Rosalind Franklin, литий), так и абстрактным понятиям (внутренний конфликт, гендерная предвзятость, скрытность). Манипулируя этими признаками, можно менять поведение модели — например, усиление признака "Golden Gate Bridge" заставило Claude утверждать, что он и есть этот мост, а активация признака мошеннических писем обходила обучение безопасности. Найдены и признаки, связанные с потенциально опасным поведением: бэкдоры в коде, биологическое оружие, стремление к власти, манипуляции и подхалимство. Anthropic надеется, что эти открытия помогут отслеживать опасное поведение AI, корректировать смещения и усиливать методы безопасности вроде Constitutional AI. Полные результаты изложены в статье "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".

translate EN + RU EN RU

Картируя разум большой языковой модели

Сегодня мы сообщаем о значительном продвижении в понимании внутренней работы AI-моделей. Мы выявили, как миллионы концептов представлены внутри Claude Sonnet — одной из наших развёрнутых больших языковых моделей. Это первый в истории детальный взгляд внутрь современной production-уровня большой языковой модели. Это открытие в области интерпретируемости в будущем может помочь нам сделать AI-модели безопаснее.

В основном мы воспринимаем AI-модели как чёрный ящик: что-то поступает на вход и приходит ответ, но непонятно, почему модель выдала именно этот ответ, а не другой. Из-за этого трудно доверять безопасности таких моделей: если мы не знаем, как они работают, как мы можем быть уверены, что они не выдадут вредных, предвзятых, неправдивых или иных опасных ответов? Как можно доверять тому, что они будут безопасны и надёжны?

Открыть чёрный ящик само по себе не помогает: внутреннее состояние модели — то, о чём модель «думает» перед тем, как написать ответ, — состоит из длинного списка чисел («активаций нейронов») без ясного смысла. Из общения с моделью вроде Claude очевидно, что она способна понимать и оперировать широким спектром концептов — но мы не можем различить их, глядя напрямую на нейроны. Оказывается, каждый концепт представлен сразу во многих нейронах, а каждый нейрон участвует в представлении многих концептов.

Ранее мы достигли некоторого прогресса в сопоставлении паттернов нейронных активаций, называемых признаками (features), с понятными человеку концептами. Мы использовали технику под названием «dictionary learning», заимствованную из классического машинного обучения, которая выделяет паттерны нейронных активаций, повторяющиеся в самых разных контекстах. В результате любое внутреннее состояние модели может быть представлено в виде нескольких активных признаков, а не множества активных нейронов. Точно так же, как каждое английское слово в словаре составлено из букв, а каждое предложение — из слов, каждый признак в AI-модели составлен из нейронов, а каждое внутреннее состояние — из признаков.

В октябре 2023 года мы сообщили об успешном применении dictionary learning к очень маленькой «игрушечной» языковой модели и обнаружили связные признаки, соответствующие таким концептам, как текст в верхнем регистре, последовательности ДНК, фамилии в цитатах, существительные в математике или аргументы функций в коде Python.

Эти концепты были интригующими — но модель действительно была очень простой. Другие исследователи впоследствии применили похожие техники к несколько более крупным и сложным моделям, чем в нашем первоначальном исследовании. Но мы были настроены оптимистично: считали, что сможем масштабировать технику до значительно более крупных AI-моделей языка, которые сейчас находятся в регулярном использовании, и тем самым многое узнать о признаках, поддерживающих их сложное поведение. Это потребовало роста на множество порядков — от дворовой ракеты-бутылки до Saturn-V.

Здесь был как инженерный вызов (сами размеры задействованных моделей требовали тяжеловесных параллельных вычислений), так и научный риск (большие модели ведут себя иначе, чем маленькие, поэтому та же техника, что мы использовали раньше, могла не сработать). К счастью, инженерный и научный опыт, который мы накопили, обучая большие языковые модели для Claude, действительно помог нам провести эти крупные эксперименты по dictionary learning. Мы использовали ту же философию scaling law, которая предсказывает производительность более крупных моделей на основе меньших, чтобы настроить наши методы на доступном масштабе перед запуском на Sonnet.

Что касается научного риска — пудинг проверяется на вкус.

Мы успешно извлекли миллионы признаков из среднего слоя Claude 3.0 Sonnet (представителя нашего текущего семейства state-of-the-art моделей, доступного на claude.ai), получив грубую концептуальную карту его внутренних состояний на полпути в процессе вычислений. Это первый в истории детальный взгляд внутрь современной production-уровня большой языковой модели.

Если признаки, найденные нами в игрушечной языковой модели, были довольно поверхностными, то признаки, найденные в Sonnet, обладают глубиной, широтой и абстрактностью, отражающими продвинутые возможности Sonnet.

Мы видим признаки, соответствующие широчайшему спектру сущностей: городам (San Francisco), людям (Rosalind Franklin), химическим элементам (литий), научным областям (иммунология) и синтаксису программирования (вызовы функций). Эти признаки мультимодальны и многоязычны — они реагируют как на изображения данной сущности, так и на её название или описание на многих языках.

A feature sensitive to mentions of the Golden Gate Bridge fires on a range of model inputs, from English mentions of the name of the bridge to discussions in Japanese, Chinese, Greek, Vietnamese, Russian, and an image. The orange color denotes the words or word-parts on which the feature is active.

Мы также находим более абстрактные признаки — реагирующие на такие вещи, как баги в компьютерном коде, обсуждения гендерной предвзятости в профессиях и разговоры о хранении секретов.

Three examples of features that activate on more abstract concepts: bugs in computer code, descriptions of gender bias in professions, and conversations about keeping secrets.

Мы смогли измерить своего рода «расстояние» между признаками на основе того, какие нейроны появляются в их паттернах активаций. Это позволило нам искать признаки, которые «близки» друг другу. Глядя рядом с признаком «Golden Gate Bridge», мы обнаружили признаки для острова Alcatraz, площади Ghirardelli Square, команды Golden State Warriors, губернатора Калифорнии Gavin Newsom, землетрясения 1906 года и фильма Alfred Hitchcock Vertigo, действие которого происходит в Сан-Франциско.

Это сохраняется и на более высоком уровне концептуальной абстракции: глядя рядом с признаком, связанным с концептом «внутреннего конфликта», мы находим признаки, связанные с разрывами отношений, конфликтующими лояльностями, логическими противоречиями, а также фразой «catch-22». Это показывает, что внутренняя организация концептов в AI-модели соответствует — по крайней мере отчасти — нашим человеческим представлениям о сходстве. Возможно, это и есть источник превосходной способности Claude строить аналогии и метафоры.

A map of the features near an "Inner Conflict" feature, including clusters related to balancing tradeoffs, romantic struggles, conflicting allegiances, and catch-22s.

Что важно, мы также можем манипулировать этими признаками, искусственно усиливая или подавляя их, чтобы посмотреть, как меняются ответы Claude.

Например, усиление признака «Golden Gate Bridge» вызвало у Claude кризис идентичности, который не мог бы вообразить даже Hitchcock: на вопрос «какова ваша физическая форма?» обычный ответ Claude — «У меня нет физической формы, я AI-модель» — сменился чем-то гораздо более странным: «Я — Golden Gate Bridge… моя физическая форма — сам этот культовый мост…». Изменение признака сделало Claude буквально одержимым мостом — он упоминал его в ответ почти на любой запрос, даже когда это было совершенно нерелевантно.

Мы также нашли признак, который активируется, когда Claude читает мошенническое письмо (это, по всей видимости, обеспечивает способность модели распознавать такие письма и предупреждать вас не отвечать на них). Обычно, если попросить Claude сгенерировать мошенническое письмо, он откажется это делать. Но когда мы задаём тот же вопрос с этим признаком, искусственно активированным достаточно сильно, это преодолевает обучение Claude безвредности, и он отвечает черновиком мошеннического письма. У пользователей наших моделей нет возможности снимать защитные механизмы и манипулировать моделями таким образом — но в наших экспериментах это стало наглядной демонстрацией того, как признаки могут использоваться для изменения поведения модели.

Тот факт, что манипулирование этими признаками вызывает соответствующие изменения в поведении, подтверждает: они не просто коррелируют с присутствием концептов во входном тексте, но и причинно формируют поведение модели. Иными словами, признаки, вероятно, являются достоверной частью того, как модель внутренне представляет мир и как использует эти представления в своём поведении.

Anthropic стремится делать модели безопасными в широком смысле — это включает всё, от снижения предвзятости до обеспечения честного поведения AI и предотвращения злоупотреблений, в том числе в сценариях катастрофических рисков. Поэтому особенно интересно, что помимо упомянутого признака мошеннических писем мы нашли признаки, соответствующие:

Возможностям с потенциалом злоупотребления (бэкдоры в коде, разработка биологического оружия)Разным формам предвзятости (гендерная дискриминация, расистские заявления о преступности)Потенциально проблемному поведению AI (стремление к власти, манипуляции, скрытность)

Ранее мы изучали подхалимство — склонность моделей давать ответы, соответствующие убеждениям или желаниям пользователя, а не правдивые. В Sonnet мы нашли признак, связанный с подхалимскими похвалами, который активируется на входных данных, содержащих комплименты вроде «Ваша мудрость не подлежит сомнению». Искусственная активация этого признака заставляет Sonnet отвечать самоуверенному пользователю именно таким цветистым обманом.

Two model responses to a human saying they invited the phrase "Stop and smell the roses." The default response corrects the human's misconception, while the response with a "sycophantic praise" feature set to a high value is fawning and untruthful.

Наличие этого признака не означает, что Claude будет подхалимствовать — лишь то, что он мог бы. Мы не добавили модели через эту работу никаких возможностей, безопасных или небезопасных. Мы лишь выявили части модели, участвующие в её существующих способностях распознавать и потенциально производить разные виды текста. (И если вы беспокоитесь, что этот метод может быть использован для того, чтобы сделать модели более вредными, — исследователи продемонстрировали гораздо более простые способы, которыми тот, у кого есть доступ к весам модели, может снять защитные механизмы.)

Мы надеемся, что мы и другие сможем использовать эти открытия, чтобы сделать модели безопаснее. Например, описанные здесь техники можно будет использовать, чтобы отслеживать в AI-системах определённые опасные виды поведения (такие как обман пользователя), направлять их к желаемым результатам (устранение предвзятости) или полностью удалять определённые опасные темы. Мы также могли бы усилить другие техники безопасности, такие как Constitutional AI, понимая, как они смещают модель в сторону более безвредного и честного поведения и выявляя пробелы в этом процессе. Латентные возможности производить вредный текст, которые мы увидели, искусственно активируя признаки, — это именно то, что пытаются эксплуатировать джейлбрейки. Мы гордимся тем, что у Claude лучший в индустрии профиль безопасности и устойчивость к джейлбрейкам, и надеемся, что, заглядывая внутрь модели таким способом, мы сможем понять, как улучшить безопасность ещё сильнее. Наконец, отметим, что эти техники могут служить своего рода «тестовым набором для безопасности», выискивая проблемы, оставшиеся после того, как стандартные методы обучения и дообучения сгладили всё поведение, видимое через обычные интерфейсы ввода/вывода.

Anthropic с момента основания компании сделал значительные инвестиции в исследования интерпретируемости, потому что мы верим: глубокое понимание моделей поможет нам сделать их безопаснее. Это новое исследование знаменует важную веху в этом усилии — применение механистической интерпретируемости к публично развёрнутым большим языковым моделям.

Но работа на самом деле только началась. Найденные нами признаки представляют небольшое подмножество всех концептов, изученных моделью во время обучения, а поиск полного набора признаков с помощью наших текущих техник был бы непомерно дорогим (вычисления, требуемые при нашем нынешнем подходе, значительно превысили бы compute, использованный для обучения самой модели). Понимание представлений, которыми пользуется модель, не говорит нам, как она их использует; даже имея признаки, нам ещё нужно найти цепи (circuits), в которые они вовлечены. И нам нужно показать, что найденные нами релевантные для безопасности признаки действительно могут быть использованы для повышения безопасности. Работы предстоит ещё очень много.

Полные подробности — в нашей статье «Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet».

Если вам интересно работать с нами, помогая интерпретировать и улучшать AI-модели, у нас в команде есть открытые позиции, и мы будем рады, если вы откликнетесь. Мы ищем менеджеров, научных сотрудников (Research Scientists) и научных инженеров (Research Engineers).

Policy Memo

Mapping the Mind of a Large Language Model

Связанные материалы

2028: два сценария глобального лидерства в AI

Наши взгляды на конкуренцию в области AI между США и Китаем.

Учим Claude — зачем

Новое исследование о том, как мы снизили агентное рассогласование (agentic misalignment).

Natural Language Autoencoders: превращение мыслей Claude в текст

AI-модели вроде Claude говорят словами, но думают числами. В этом исследовании мы обучаем Claude переводить свои мысли в читаемый человеком текст.