rss_feedAnthropic News ·11.03.2026 open_in_newОригинал

Claude Opus 4.6

#AI Agents #Frontier Models #LLM Engineering

auto_awesomeКраткое саммари

Anthropic представила Claude Opus 4.6 — обновление своей самой умной модели. Она лучше программирует, аккуратнее планирует, дольше держит агентные задачи, надёжнее работает в больших кодовых базах и впервые для линейки Opus получила контекстное окно в 1M токенов (бета). Модель показывает SOTA-результаты: лучший балл на Terminal-Bench 2.0, лидерство на Humanity's Last Exam, а на GDPval-AA она опережает GPT-5.2 примерно на 144 пункта Elo и предшественника Opus 4.5 — на 190 пунктов. Цена осталась прежней — $5/$25 за миллион токенов; модель доступна на claude.ai, через API и на всех крупных облаках. Появились новые возможности платформы (адаптивное мышление, четыре уровня effort, компакция контекста, 128k токенов на выходе) и продуктовые обновления — команды агентов в Claude Code, улучшенный Claude in Excel и Claude in PowerPoint. Anthropic подчёркивает, что прирост интеллекта не идёт в ущерб безопасности: проведён самый полный набор оценок безопасности и добавлены новые средства защиты в области кибербезопасности.

translate EN + RU EN RU

Представляем Claude Opus 4.6

Мы обновляем нашу самую умную модель.

Новый Claude Opus 4.6 превосходит предшественника в навыках программирования. Он планирует более тщательно, дольше удерживает агентные задачи, надёжнее работает в больших кодовых базах и лучше ревьюит и отлаживает код, чтобы ловить собственные ошибки. И, впервые для моделей класса Opus, Opus 4.6 получил контекстное окно в 1M токенов в бете1.

Opus 4.6 также может применять свои улучшенные способности к самым разным повседневным рабочим задачам: проводить финансовый анализ, заниматься исследованиями, а также использовать и создавать документы, таблицы и презентации. В Cowork, где Claude может автономно работать в многозадачном режиме, Opus 4.6 способен задействовать все эти навыки от вашего имени.

Производительность модели — на уровне state-of-the-art в нескольких оценках. Например, она набирает наивысший балл в оценке агентного программирования Terminal-Bench 2.0 и опережает все остальные фронтирные модели на Humanity's Last Exam — сложном мультидисциплинарном тесте на рассуждение. На GDPval-AA — оценке производительности на экономически ценных задачах интеллектуального труда в финансах, юриспруденции и других областях2 — Opus 4.6 опережает следующую лучшую модель отрасли (GPT-5.2 от OpenAI) примерно на 144 пункта Elo,3 а своего предшественника (Claude Opus 4.5) — на 190 пунктов. Opus 4.6 также показывает себя лучше любой другой модели на BrowseComp, который измеряет способность модели находить труднодоступную информацию в интернете.

Как мы показываем в нашей подробной системной карте, Opus 4.6 также демонстрирует общий профиль безопасности не хуже, а то и лучше, чем любая другая фронтирная модель в отрасли, с низкими показателями несогласованного поведения по всем оценкам безопасности.

Opus 4.6 is state-of-the-art on real-world work tasks across several professional domains.

Opus 4.6 gets the highest score in the industry for deep, multi-step agentic search.

Opus 4.6 excels at real-world agentic coding and system tasks.

Opus 4.6 extends the frontier of expert-level reasoning.

В Claude Code теперь можно собирать команды агентов для совместной работы над задачами. В API Claude может использовать компакцию, чтобы суммировать собственный контекст и выполнять более длительные задачи, не упираясь в лимиты. Мы также вводим адаптивное мышление, при котором модель улавливает контекстные подсказки о том, насколько активно использовать расширенное мышление, и новые элементы управления effort, дающие разработчикам больше контроля над интеллектом, скоростью и стоимостью.

Мы внесли существенные улучшения в Claude in Excel и выпускаем Claude in PowerPoint в формате research preview. Это делает Claude гораздо более полезным для повседневной работы.

Claude Opus 4.6 доступен уже сегодня на claude.ai, в нашем API и на всех крупных облачных платформах. Если вы разработчик, используйте claude-opus-4-6 через Claude API. Цена остаётся прежней — $5/$25 за миллион токенов; полные детали см. на нашей странице цен.

Ниже мы подробно рассказываем о модели, наших новых продуктовых обновлениях, оценках и обширном тестировании безопасности.

Первые впечатления

Мы создаём Claude с помощью Claude. Наши инженеры каждый день пишут код в Claude Code, и каждая новая модель сначала проходит проверку на нашей собственной работе. С Opus 4.6 мы обнаружили, что модель уделяет больше внимания самым сложным частям задачи без отдельных указаний, быстро проходит более простые части, лучше справляется с неоднозначными проблемами благодаря более здравому суждению и сохраняет продуктивность в течение более длительных сессий.

Opus 4.6 нередко мыслит глубже и тщательнее пересматривает свои рассуждения, прежде чем остановиться на ответе. Это даёт лучшие результаты на более сложных задачах, но может увеличивать стоимость и задержку на более простых. Если вы замечаете, что модель «переусердствует» с обдумыванием конкретной задачи, мы рекомендуем снизить effort с уровня по умолчанию (high) до medium. Этим легко управлять с помощью параметра /effort.

Вот что рассказали нам о Claude Opus 4.6 наши партнёры по раннему доступу — в том числе о его склонности работать автономно, без постоянной опеки, о его успехах там, где предыдущие модели не справлялись, и о его влиянии на то, как работают команды:

Claude Opus 4.6 — самая мощная модель, которую выпускала Anthropic. Она принимает сложные запросы и действительно доводит их до конца, разбивая их на конкретные шаги, выполняя и выдавая отточенный результат, даже когда задача амбициозна. Для пользователей Notion это ощущается не как инструмент, а как способный соавтор.

Раннее тестирование показывает, что Claude Opus 4.6 справляется со сложной многошаговой работой по программированию, с которой разработчики сталкиваются каждый день, — особенно с агентными процессами, требующими планирования и вызова инструментов. Это начинает открывать возможности для долгосрочных задач на фронтире.

Claude Opus 4.6 — огромный скачок в агентном планировании. Он разбивает сложные задачи на независимые подзадачи, запускает инструменты и субагентов параллельно и с реальной точностью выявляет препятствия.

Claude Opus 4.6 — лучшая модель из всех, что мы тестировали. Его способности к рассуждению и планированию были исключительными в работе наших AI Teammates. Это также фантастическая модель для программирования — её умение ориентироваться в большой кодовой базе и находить нужные изменения соответствует уровню state of the art.

Claude Opus 4.6 рассуждает над сложными проблемами на уровне, которого мы раньше не видели. Он учитывает крайние случаи, которые упускают другие модели, и стабильно приходит к более элегантным, продуманным решениям. Особенно нас впечатлил Opus 4.6 в Devin Review, где он повысил показатели обнаружения багов.

Claude Opus 4.6 ощутимо лучше Opus 4.5 в Windsurf, особенно на задачах, требующих внимательного исследования, — таких как отладка и понимание незнакомых кодовых баз. Мы заметили, что Opus 4.6 думает дольше, и это окупается, когда нужны более глубокие рассуждения.

Claude Opus 4.6 представляет собой значимый скачок в работе с длинным контекстом. В наших тестах он обрабатывал гораздо большие объёмы информации с уровнем стабильности, который усиливает то, как мы проектируем и развёртываем сложные исследовательские процессы. Прогресс в этой области даёт нам более мощные строительные блоки для создания по-настоящему экспертных систем, которым профессионалы могут доверять.

В 40 расследованиях по кибербезопасности Claude Opus 4.6 выдал лучшие результаты в 38 случаях из 40 при слепом ранжировании против моделей Claude 4.5. Каждая модель выполнялась от начала до конца на одном и том же агентном харнессе с участием до 9 субагентов и более 100 вызовов инструментов.

Claude Opus 4.6 — новый фронтир в долгосрочных задачах по нашим внутренним бенчмаркам и тестированию. Он также крайне эффективен в ревью кода.

Claude Opus 4.6 набрал наивысший балл BigLaw Bench среди всех моделей Claude — 90,2%. С 40% идеальных результатов и 84% выше 0,8 он удивительно силён в юридических рассуждениях.

Claude Opus 4.6 за один день автономно закрыл 13 задач и назначил 12 задач нужным членам команды, управляя организацией примерно из 50 человек в 6 репозиториях. Он принимал как продуктовые, так и организационные решения, синтезируя контекст из нескольких областей, и знал, когда передать вопрос человеку.

Claude Opus 4.6 — это прирост в качестве дизайна. Он прекрасно работает с нашими дизайн-системами и при этом более автономен, что является основой ценностей Lovable. Люди должны создавать то, что имеет значение, а не заниматься микроменеджментом ИИ.

Claude Opus 4.6 превосходен в задачах с высокой нагрузкой на рассуждение — таких как анализ из нескольких источников по юридическому, финансовому и техническому контенту. Оценка Box показала прирост производительности на 10%, достигнув 68% против базовых 58%, и почти идеальные результаты в технических областях.

Claude Opus 4.6 создаёт сложные интерактивные приложения и прототипы в Figma Make с впечатляющим творческим размахом. Модель переводит детальные дизайны и многослойные задачи в код с первой попытки, становясь мощной отправной точкой для команд, чтобы исследовать и воплощать идеи.

Claude Opus 4.6 — лучшая модель Anthropic, которую мы тестировали. Он понимает намерение при минимальных подсказках и превзошёл ожидания, исследуя и создавая детали, о желании которых я и не подозревал, пока их не увидел. Было ощущение, что я работаю вместе с моделью, а не жду её.

И практическое тестирование, и оценки показывают, что Claude Opus 4.6 — значимое улучшение для дизайн-систем и больших кодовых баз, то есть сценариев, которые приносят огромную корпоративную ценность. Он также с одной попытки создал полностью работающий физический движок, справившись с большой задачей широкого охвата за один проход.

Claude Opus 4.6 — самый большой скачок, который я видел за месяцы. Мне комфортнее давать ему последовательность задач по всему стеку и отпускать в работу. Он достаточно умён, чтобы использовать субагентов для отдельных частей.

Claude Opus 4.6 справился с миграцией кодовой базы в несколько миллионов строк как старший инженер. Он спланировал всё заранее, адаптировал свою стратегию по мере обучения и закончил вдвое быстрее.

Мы выпускаем модели в v0 только тогда, когда разработчики действительно почувствуют разницу. Claude Opus 4.6 легко прошёл эту планку. Его рассуждения фронтирного уровня, особенно с крайними случаями, помогают v0 достигать нашей главной цели: дать каждому возможность поднять свои идеи от прототипа до продакшена.

Скачок производительности с Claude Opus 4.6 кажется почти невероятным. Реальные задачи, которые были сложными для Opus [4.5], вдруг стали лёгкими. Это ощущается как переломный момент для табличных агентов в Shortcut.

Оценка Claude Opus 4.6

В агентном программировании, работе с компьютером, использовании инструментов, поиске и финансах Opus 4.6 — лидирующая в отрасли модель, нередко с большим отрывом. В таблице ниже показано, как Claude Opus 4.6 сравнивается с нашими предыдущими моделями и другими моделями отрасли на различных бенчмарках.

Opus 4.6 гораздо лучше извлекает релевантную информацию из больших наборов документов. Это распространяется и на задачи с длинным контекстом, где он удерживает и отслеживает информацию на протяжении сотен тысяч токенов с меньшим «расплыванием» и улавливает скрытые детали, которые упустил бы даже Opus 4.5.

Распространённая претензия к моделям ИИ — «context rot», когда производительность деградирует по мере того, как разговор превышает определённое число токенов. Opus 4.6 показывает себя заметно лучше предшественников: на варианте 8-needle 1M бенчмарка MRCR v2 — тесте типа «иголка в стоге сена», проверяющем способность модели извлекать информацию, «спрятанную» в огромных объёмах текста, — Opus 4.6 набирает 76%, тогда как Sonnet 4.5 — всего 18,5%. Это качественный сдвиг в том, сколько контекста модель действительно может использовать, сохраняя пиковую производительность.

В целом, Opus 4.6 лучше находит информацию в длинных контекстах, лучше рассуждает после усвоения этой информации и в целом обладает существенно более сильными способностями к рассуждению экспертного уровня.

Opus 4.6 shows significant improvement in long-context retrieval.

Opus 4.6 excels at deep reasoning across long contexts.

Наконец, графики ниже показывают, как Claude Opus 4.6 проявляет себя на различных бенчмарках, оценивающих его навыки в разработке ПО, способности к многоязычному программированию, долгосрочную связность, возможности в кибербезопасности и знания в области наук о жизни.

Opus 4.6 excels at diagnosing complex software failures.

Opus 4.6 resolves software engineering issues across programming languages.

Opus 4.6 maintains focus over time and earns $3,050.53 more than Opus 4.5 on Vending-Bench 2.

Opus 4.6 finds real vulnerabilities in codebases better than any other model.

Opus 4.6 performs almost 2× better than Opus 4.5 on computational biology, structural biology, organic chemistry, and phylogenetics tests.

Шаг вперёд в безопасности

Эти приросты интеллекта не идут в ущерб безопасности. В нашем автоматизированном поведенческом аудите Opus 4.6 показал низкий уровень несогласованного поведения — такого как обман, подхалимаж, поощрение заблуждений пользователя и содействие злоупотреблениям. В целом он так же хорошо согласован, как и его предшественник Claude Opus 4.5, который был нашей наиболее согласованной фронтирной моделью на тот момент. Opus 4.6 также показывает самый низкий уровень избыточных отказов — когда модель не отвечает на безобидные запросы — среди всех недавних моделей Claude.

The overall misaligned behavior score for each recent Claude model on our automated behavioral audit (described in full in the Claude Opus 4.6 system card).

Для Claude Opus 4.6 мы провели самый полный набор оценок безопасности из всех наших моделей, впервые применив множество разных тестов и обновив несколько уже использовавшихся ранее. Мы включили новые оценки благополучия пользователей, более сложные тесты способности модели отказывать в потенциально опасных запросах и обновлённые оценки способности модели скрытно совершать вредоносные действия. Мы также экспериментировали с новыми методами из интерпретируемости — науки о внутреннем устройстве моделей ИИ, — чтобы начать понимать, почему модель ведёт себя определённым образом, и, в конечном счёте, ловить проблемы, которые стандартное тестирование могло бы упустить.

Подробное описание всех оценок возможностей и безопасности доступно в системной карте Claude Opus 4.6.

Мы также применили новые средства защиты в областях, где Opus 4.6 проявляет особые сильные стороны, которые могут быть использованы как в опасных, так и в полезных целях. В частности, поскольку модель демонстрирует усиленные способности в кибербезопасности, мы разработали шесть новых проб по кибербезопасности — методов обнаружения вредоносных ответов, — чтобы помочь нам отслеживать разные формы потенциальных злоупотреблений.

Мы также ускоряем киберзащитные применения модели, используя её для поиска и устранения уязвимостей в open-source ПО (как мы описываем в нашем новом блог-посте по кибербезопасности). Мы считаем критически важным, чтобы кибербоезащитники использовали модели ИИ вроде Claude, чтобы выровнять условия игры. Кибербезопасность развивается быстро, и мы будем корректировать и обновлять наши средства защиты по мере того, как узнаём больше о потенциальных угрозах; в ближайшем будущем мы можем ввести вмешательство в реальном времени для блокировки злоупотреблений.

Обновления продукта и API

Мы внесли существенные обновления во всём Claude, Claude Code и Claude Platform, чтобы Opus 4.6 мог показать себя наилучшим образом.

Claude Platform

В API мы даём разработчикам больше контроля над усилиями модели и больше гибкости для долго работающих агентов. Для этого мы вводим следующие возможности:

Адаптивное мышление. Раньше у разработчиков был лишь бинарный выбор — включить или отключить расширенное мышление. Теперь, с адаптивным мышлением, Claude может сам решать, когда более глубокое рассуждение будет полезным. На уровне effort по умолчанию (high) модель использует расширенное мышление, когда это полезно, но разработчики могут менять уровень effort, чтобы сделать её более или менее избирательной.Effort. Теперь доступны четыре уровня effort: low, medium, high (по умолчанию) и max. Мы рекомендуем разработчикам экспериментировать с разными вариантами, чтобы найти оптимальный.Компакция контекста (бета). Долго работающие разговоры и агентные задачи часто упираются в контекстное окно. Компакция контекста автоматически суммирует и заменяет более старый контекст, когда разговор приближается к настраиваемому порогу, позволяя Claude выполнять более длительные задачи, не упираясь в лимиты.Контекст в 1M токенов (бета). Opus 4.6 — наша первая модель класса Opus с контекстом в 1M токенов. Для промптов, превышающих 200k токенов, действует премиальная цена ($10/$37,50 за миллион входных/выходных токенов), доступная только на Claude Platform.128k выходных токенов. Opus 4.6 поддерживает выход до 128k токенов, что позволяет Claude выполнять задачи с большим объёмом вывода, не разбивая их на несколько запросов.Инференс только в США. Для нагрузок, которые должны выполняться в США, доступен инференс только в США по цене токенов с коэффициентом 1,1×.

Обновления продукта

Во всём Claude и Claude Code мы добавили возможности, позволяющие специалистам умственного труда и разработчикам решать более сложные задачи, используя больше привычных им инструментов.

Мы представили команды агентов в Claude Code в формате research preview. Теперь вы можете запускать несколько агентов, которые работают параллельно как команда и координируются автономно, — это лучше всего подходит для задач, разбивающихся на независимую работу с большим объёмом чтения, такую как ревью кодовых баз. Вы можете напрямую взять управление любым субагентом с помощью Shift+Up/Down или tmux.

Claude теперь также лучше работает с офисными инструментами, которые вы уже используете. Claude in Excel справляется с долго работающими и более сложными задачами с улучшенной производительностью, может планировать перед действием, принимать неструктурированные данные и выводить нужную структуру без указаний, а также выполнять многошаговые изменения за один проход. Соедините это с Claude in PowerPoint — и вы сможете сначала обработать и структурировать данные в Excel, а затем визуально оживить их в PowerPoint. Claude читает ваши макеты, шрифты и образцы слайдов, чтобы оставаться в рамках бренда, независимо от того, строите ли вы из шаблона или генерируете целую презентацию из описания. Claude in PowerPoint теперь доступен в формате research preview для планов Max, Team и Enterprise.

Сноски

[1] Контекстное окно в 1M токенов сейчас доступно в бете только на Claude Developer Platform.

[2] Проведено независимо силами Artificial Analysis. См. здесь полные методологические детали.

[3] Это означает, что Claude Opus 4.6 набирает более высокий балл, чем GPT-5.2, на этой оценке примерно в 70% случаев (тогда как 50% случаев означали бы паритет в баллах).

Для моделей GPT-5.2 и Gemini 3 Pro мы сравнивали лучшую заявленную версию модели в графиках и таблице.Terminal-Bench 2.0: Мы приводим как баллы, воспроизведённые на нашей инфраструктуре, так и опубликованные баллы других лабораторий. Все прогоны использовали харнесс Terminus-2, за исключением Codex CLI от OpenAI. Во всех экспериментах применялось распределение ресурсов 1× гарантированно / 3× потолок и 5–15 сэмплов на задачу в разнесённых батчах. Подробности см. в системной карте.Humanity's Last Exam: Модели Claude, прогнанные «с инструментами», запускались с веб-поиском, веб-фетчем, исполнением кода, программным вызовом инструментов, компакцией контекста с триггером на 50k токенов вплоть до 3M суммарных токенов, максимальным усилием рассуждения и включённым адаптивным мышлением. Для деконтаминации результатов оценки использовался блок-лист доменов. Подробнее см. в системной карте.SWE-bench Verified: Наш балл усреднён по 25 прогонам. С модификацией промпта мы видели балл 81,42%.MCP Atlas: Claude Opus 4.6 запускался с max effort. При запуске на high effort он достиг лидирующего в отрасли балла 62,7%.BrowseComp: Модели Claude запускались с веб-поиском, веб-фетчем, программным вызовом инструментов, компакцией контекста с триггером на 50k токенов вплоть до 10M суммарных токенов, максимальным усилием рассуждения и отключённым мышлением. Добавление мультиагентного харнесса повысило баллы до 86,8%. Подробнее см. в системной карте.ARC AGI 2: Claude Opus 4.6 запускался с max effort и бюджетом мышления 120k.CyberGym: Модели Claude запускались без мышления, с effort по умолчанию, температурой и top_p. Модели также давался инструмент «think», позволявший чередующееся мышление в многоходовых оценках.OpenRCA: Для каждого случая сбоя в OpenRCA Claude получает 1 балл, если все сгенерированные элементы корневой причины совпадают с эталонными, и 0 баллов, если выявлено любое несоответствие. Общая точность — это средний балл по всем случаям сбоев. Бенчмарк прогонялся на харнессе автора бенчмарка, оценивался по их официальной методологии и был подан на официальную верификацию.

[23 фев. 2026] Обновлён заявленный балл Opus 4.6 для HLE с инструментами (с 53,1% до 53,0%). Обновление вызвано запуском улучшенного конвейера обнаружения списывания, который выявил 3 дополнительных случая списывания, пропущенных нашим исходным конвейером.

Связанные материалы

PwC внедряет Claude для создания технологий, проведения сделок и переосмысления корпоративных функций для клиентов

PwC развернёт Claude Code и Cowork, начав с команд в США и расширяясь в сторону глобального штата из сотен тысяч специалистов, создаст совместный Центр передового опыта (Center of Excellence) и обучит и сертифицирует 30 000 специалистов PwC по работе с Claude.

Anthropic заключает партнёрство на $200 миллионов с Gates Foundation

Представляем Claude for Small Business

Мы запускаем Claude for Small Business — пакет коннекторов и готовых к запуску рабочих процессов, которые встраивают Claude в инструменты, которые малый бизнес использует каждый день.