rss_feedAnthropic News ·05.05.2026 open_in_newОригинал

Introducing Claude Opus 4.7

#Ai Safety #Frontier Models #LLM Engineering

auto_awesomeКраткое саммари

Anthropic выпустила Claude Opus 4.7 — новую флагманскую модель, значительно превосходящую Opus 4.6 в сложных задачах разработки ПО, следовании инструкциям и мультимодальном понимании (разрешение изображений увеличено более чем втрое). Модель лучше справляется с длительными автономными задачами, самостоятельно верифицирует свои результаты и демонстрирует улучшения на ряде бенчмарков, включая SWE-bench Verified (72,7%) и Terminal-Bench 2.0 (73,7%). Кибербезопасные возможности модели ограничены по сравнению с Claude Mythos Preview, а для легитимного использования в области безопасности запущена программа Cyber Verification Program. Одновременно представлены новый уровень усилий xhigh, бюджеты задач в API, команда /ultrareview в Claude Code и авто-режим для пользователей Max. Цена осталась на уровне Opus 4.6: $5 за миллион входных и $25 за миллион выходных токенов.

translate EN + RU EN RU

Представляем Claude Opus 4.7

Наша новейшая модель Claude Opus 4.7 теперь доступна всем пользователям.

Opus 4.7 — заметное улучшение по сравнению с Opus 4.6 в продвинутой разработке ПО, с особенно значительным прогрессом на самых сложных задачах. Пользователи отмечают, что теперь могут уверенно поручать Opus 4.7 самую трудную работу с кодом — ту, которая раньше требовала постоянного контроля. Opus 4.7 выполняет сложные, длительные задачи тщательно и последовательно, точно следует инструкциям и находит способы проверить собственные результаты, прежде чем отчитаться.

Модель также обладает существенно улучшенным зрением: она способна воспринимать изображения в более высоком разрешении. Она более изысканна и креативна при выполнении профессиональных задач, создаёт интерфейсы, слайды и документы более высокого качества. И хотя она уступает в широте возможностей нашей самой мощной модели Claude Mythos Preview, она показывает лучшие результаты, чем Opus 4.6, на целом ряде бенчмарков:

На прошлой неделе мы объявили о проекте Glasswing, обратив внимание на риски и преимущества ИИ-моделей для кибербезопасности. Мы заявили, что сохраним ограниченный выпуск Claude Mythos Preview и сначала протестируем новые киберзащиты на менее мощных моделях. Opus 4.7 — первая такая модель: её кибервозможности не столь продвинуты, как у Mythos Preview (более того, в ходе обучения мы экспериментировали с целенаправленным снижением этих возможностей). Мы выпускаем Opus 4.7 с защитными механизмами, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещённое или высокорисковое использование в области кибербезопасности. Опыт реального развёртывания этих механизмов поможет нам продвинуться к конечной цели — широкому выпуску моделей класса Mythos.

Специалистов по безопасности, желающих использовать Opus 4.7 в легитимных целях кибербезопасности (таких как исследование уязвимостей, тестирование на проникновение и red-teaming), приглашаем присоединиться к нашей новой программе Cyber Verification Program.

Opus 4.7 доступна уже сегодня во всех продуктах Claude и через наш API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry. Цены остаются на уровне Opus 4.6: $5 за миллион входных токенов и $25 за миллион выходных токенов. Разработчики могут использовать claude-opus-4-7 через Claude API.

Тестирование Claude Opus 4.7

Claude Opus 4.7 получила высокие оценки от наших тестировщиков раннего доступа:

В ходе раннего тестирования мы наблюдаем потенциал значительного скачка для наших разработчиков с Claude Opus 4.7. Она выявляет собственные логические ошибки ещё на этапе планирования и ускоряет выполнение — намного превосходя предыдущие модели Claude. Как финансово-технологическая платформа, обслуживающая миллионы потребителей и бизнесов в значительных масштабах, это сочетание скорости и точности может стать переломным: ускорение разработки для более быстрой доставки надёжных финансовых решений, на которые наши клиенты полагаются каждый день.

Anthropic уже задала стандарт для моделей, ориентированных на программирование, и Claude Opus 4.7 продвигает этот стандарт ещё дальше, став передовой моделью на рынке. В наших внутренних оценках она выделяется не только чистой мощностью, но и тем, как хорошо она справляется с реальными асинхронными рабочими процессами — автоматизацией, CI/CD и длительными задачами. Она также глубже анализирует проблемы и предлагает более обоснованную точку зрения, а не просто соглашается с пользователем.

Claude Opus 4.7 — самая сильная модель, которую оценивала Hex. Она корректно сообщает, когда данных не хватает, вместо того чтобы предлагать правдоподобные, но неверные ответы, и противостоит ловушкам с противоречивыми данными, на которые попадалась даже Opus 4.6. Это более умная и эффективная версия Opus 4.6: Opus 4.7 с низким уровнем усилий примерно эквивалентна Opus 4.6 со средним уровнем.

На нашем бенчмарке из 93 задач по программированию Claude Opus 4.7 повысила процент решения на 13% по сравнению с Opus 4.6, включая четыре задачи, которые не смогли решить ни Opus 4.6, ни Sonnet 4.6. В сочетании с более быстрой медианной задержкой и строгим следованием инструкциям это особенно значимо для сложных, длительных рабочих процессов программирования. Она снижает трение в многоэтапных задачах, позволяя разработчикам оставаться в потоке и сосредоточиться на создании продукта.

По результатам нашего внутреннего бенчмарка исследовательских агентов, Claude Opus 4.7 показывает лучшую базовую эффективность, которую мы видели для многоэтапной работы. Она разделила первое место по общему баллу в шести модулях — 0,715 — и продемонстрировала наиболее стабильную производительность на длинных контекстах среди всех протестированных моделей. В модуле General Finance — нашем крупнейшем — она значимо улучшилась по сравнению с Opus 4.6, набрав 0,813 против 0,767, а также показала лучшую дисциплину раскрытия данных в группе. На задачах дедуктивной логики, где Opus 4.6 испытывала трудности, Opus 4.7 показывает уверенные результаты.

Claude Opus 4.7 расширяет границы того, что модели могут делать для исследования и выполнения задач. Anthropic явно оптимизировала устойчивое рассуждение на длинных прогонах, и это заметно по лидирующей на рынке производительности. По мере того как инженеры переходят от работы 1:1 с агентами к параллельному управлению ими, именно такие передовые возможности открывают новые рабочие процессы.

Мы наблюдаем значительные улучшения в мультимодальном понимании Claude Opus 4.7 — от чтения химических структур до интерпретации сложных технических диаграмм. Поддержка более высокого разрешения помогает Solve Intelligence создавать лучшие в своём классе инструменты для патентных процессов в области наук о жизни — от составления и ведения заявок до выявления нарушений и построения таблиц недействительности.

Claude Opus 4.7 выводит долгосрочную автономию на новый уровень в Devin. Она работает согласованно на протяжении часов, преодолевает сложные проблемы вместо того чтобы сдаваться, и открывает класс задач глубокого исследования, которые раньше мы не могли надёжно выполнять.

Для Replit обновление на Claude Opus 4.7 было очевидным решением. В повседневной работе наших пользователей мы наблюдали, как она достигает того же качества при меньших затратах — более эффективная и точная в задачах вроде анализа логов и трейсов, поиска багов и предложения исправлений. Лично мне нравится, как она возражает в технических дискуссиях, помогая мне принимать лучшие решения. Она действительно ощущается как лучший коллега.

Claude Opus 4.7 демонстрирует высокую содержательную точность на BigLaw Bench для Harvey, набирая 90,9% при высоком уровне усилий, с лучшей калибровкой рассуждений в таблицах рецензирования и заметно более умной обработкой неоднозначных задач редактирования документов. Она правильно различает положения о переуступке и положения о смене контроля — задача, которая исторически была сложной для передовых моделей. Содержательность неизменно оценивалась как сильная сторона во всех наших оценках: точная, тщательная и с правильными ссылками.

Claude Opus 4.7 — очень впечатляющая модель для программирования, особенно благодаря своей автономности и более креативному рассуждению. На CursorBench Opus 4.7 демонстрирует значительный скачок возможностей, достигая 70% против 58% у Opus 4.6.

Для сложных многоэтапных рабочих процессов Claude Opus 4.7 — явный шаг вперёд: плюс 14% по сравнению с Opus 4.6 при меньшем количестве токенов и втрое меньшем числе ошибок инструментов. Это первая модель, прошедшая наши тесты на неявные потребности, и она продолжает выполнение даже при сбоях инструментов, которые раньше останавливали Opus. Это тот скачок надёжности, который делает Notion Agent настоящим напарником.

В наших оценках мы увидели двузначный рост точности вызовов инструментов и планирования в наших основных агентах-оркестраторах. Когда пользователи задействуют Hebbia для планирования и выполнения задач — таких как поиск, создание слайдов или генерация документов — Claude Opus 4.7 показывает потенциал для улучшения принятия решений агентами в этих процессах.

На Rakuten-SWE-Bench Claude Opus 4.7 решает в 3 раза больше продакшен-задач, чем Opus 4.6, с двузначным ростом по качеству кода и качеству тестов. Это значимый прирост и явное обновление для инженерной работы, которую наши команды выпускают каждый день.

Для задач код-ревью CodeRabbit Claude Opus 4.7 — самая точная модель из всех, что мы тестировали. Полнота выросла более чем на 10%, выявляя одни из самых трудно обнаруживаемых багов в наших сложнейших PR, при этом точность осталась стабильной, несмотря на расширение покрытия. Она немного быстрее GPT-5.4 xhigh на нашей платформе, и мы готовим её для самых тяжёлых задач ревью при запуске.

Для Super Agent от Genspark Claude Opus 4.7 попадает точно в три ключевых производственных отличия: устойчивость к зацикливанию, стабильность и корректное восстановление после ошибок. Устойчивость к зацикливанию — самый важный фактор. Модель, которая бесконечно зацикливается на 1 из 18 запросов, тратит вычислительные ресурсы и блокирует пользователей. Меньшая дисперсия — меньше сюрпризов в продакшене. А Opus 4.7 достигает самого высокого соотношения качества на вызов инструмента, которое мы измеряли.

Claude Opus 4.7 — значимый шаг вперёд для Warp. Opus 4.6 и так одна из лучших моделей для разработчиков, а эта модель измеримо тщательнее. Она прошла задачи Terminal Bench, на которых предыдущие модели Claude проваливались, и справилась с хитрым багом конкурентности, который Opus 4.6 не смогла решить. Для нас это — сигнал.

Claude Opus 4.7 — лучшая модель в мире для создания дашбордов и интерфейсов, насыщенных данными. Дизайнерский вкус по-настоящему удивляет — она принимает решения, которые я бы реально выпустил в продакшен. Теперь это моя основная рабочая модель.

Claude Opus 4.7 — самая способная модель из тех, что мы тестировали в Quantium. По результатам оценки через наше проприетарное решение для бенчмаркинга в сравнении с ведущими ИИ-моделями, наибольший рост проявился там, где он важнее всего: глубина рассуждений, структурированное формулирование задач и сложная техническая работа. Меньше исправлений, быстрее итерации и более качественные результаты для решения самых трудных задач, которые приносят нам клиенты.

Claude Opus 4.7 ощущается как реальный скачок в интеллекте. Качество кода заметно улучшилось — она убирает бессмысленные функции-обёртки и избыточный защитный каркас, которые раньше накапливались, и исправляет свой собственный код по ходу работы. Это самый чистый скачок, который мы видели со времён перехода от Sonnet 3.7 к серии Claude 4.

Для задач computer-use, лежащих в основе автономного тестирования на проникновение XBOW, новая Claude Opus 4.7 — качественный скачок: 98,5% на нашем бенчмарке визуальной точности против 54,5% у Opus 4.6. Наша главная проблема с Opus фактически исчезла, и это открывает возможность использовать её для целого класса задач, где раньше мы не могли её применять.

Claude Opus 4.7 — надёжное обновление без регрессий для Vercel. Она великолепна в задачах программирования с первой попытки, более корректна и полна, чем Opus 4.6, и заметно честнее в отношении собственных ограничений. Она даже проводит доказательства для системного кода перед началом работы — это новое поведение, которого мы не видели у ранних моделей Claude.

Claude Opus 4.7 очень сильна и превосходит Opus 4.6 с приростом 10–15% в успешности задач для Factory Droids, с меньшим количеством ошибок инструментов и более надёжным выполнением этапов валидации. Она доводит работу до конца вместо того чтобы останавливаться на полпути — именно то, что нужно инженерным командам на предприятиях.

Claude Opus 4.7 автономно построила полноценный движок синтеза речи на Rust с нуля — нейронную модель, SIMD-ядра, браузерную демо — а затем пропустила собственный вывод через распознаватель речи, чтобы убедиться в соответствии с Python-эталоном. Месяцы работы старшего инженера, выполненные автономно. Разница с Opus 4.6 очевидна, а кодовая база открыта.

Claude Opus 4.7 прошла три задачи TBench, с которыми предыдущие модели Claude не справились, и находит исправления, которые пропускала наша предыдущая лучшая модель, включая состояние гонки. Она демонстрирует высокую точность в выявлении реальных проблем и обнаруживает важные находки, от которых другие модели либо отказывались, либо не могли их разрешить. В реальном бенчмарке код-ревью от Qodo мы наблюдали точность высшего уровня.

На бенчмарке OfficeQA Pro от Databricks Claude Opus 4.7 демонстрирует значительно более сильное рассуждение по документам — на 21% меньше ошибок, чем у Opus 4.6, при работе с исходной информацией. Среди наших бенчмарков агентного рассуждения по данным это лучшая модель Claude для корпоративного анализа документов.

Для Ramp Claude Opus 4.7 выделяется в рабочих процессах агентных команд. Мы наблюдаем более точное соблюдение ролей, следование инструкциям, координацию и сложное рассуждение — особенно в инженерных задачах, охватывающих несколько инструментов, кодовых баз и контекстов отладки. По сравнению с Opus 4.6 она требует гораздо меньше пошагового руководства, помогая нам масштабировать внутренние агентные процессы наших инженерных команд.

Claude Opus 4.7 измеримо лучше Opus 4.6 для длительных задач по созданию приложений в Bolt — до 10% лучше в лучших случаях — без регрессий, которых мы привыкли ожидать от высокоагентных моделей. Она поднимает потолок того, что наши пользователи могут выпустить за одну сессию.

Ниже приведены некоторые ключевые моменты и заметки из нашего раннего тестирования Opus 4.7:

Следование инструкциям. Opus 4.7 существенно лучше следует инструкциям. Интересно, что промпты, написанные для предыдущих моделей, теперь иногда могут давать неожиданные результаты: там, где предыдущие модели интерпретировали инструкции свободно или полностью пропускали части, Opus 4.7 воспринимает инструкции буквально. Пользователям следует соответственно перенастроить свои промпты и обвязки.Улучшенная мультимодальная поддержка. Opus 4.7 обладает улучшенным зрением для изображений высокого разрешения: она принимает изображения размером до 2 576 пикселей по длинной стороне (~3,75 мегапикселя) — более чем в три раза больше, чем предыдущие модели Claude. Это открывает множество мультимодальных применений, зависящих от мелких визуальных деталей: агенты computer-use, читающие плотные скриншоты, извлечение данных из сложных диаграмм и работа, требующая попиксельно точных референсов.1Реальная работа. Помимо передового результата на оценке Finance Agent (см. таблицу выше), наше внутреннее тестирование показало, что Opus 4.7 является более эффективным финансовым аналитиком, чем Opus 4.6, создающим строгие анализы и модели, более профессиональные презентации и более тесную интеграцию между задачами. Opus 4.7 также показывает лучший результат на GDPval-AA — стороннем бенчмарке экономически ценной интеллектуальной работы в финансах, юриспруденции и других областях.Память. Opus 4.7 лучше использует память на основе файловой системы. Она запоминает важные заметки в ходе долгой, многосессионной работы и использует их для перехода к новым задачам, которым в результате требуется меньше начального контекста.

На графиках ниже представлены дополнительные результаты оценок из нашего предрелизного тестирования в различных областях:

Безопасность и выравнивание

В целом Opus 4.7 демонстрирует профиль безопасности, схожий с Opus 4.6: наши оценки показывают низкий уровень проблемного поведения — обмана, подхалимства и содействия злоупотреблениям. По некоторым показателям, таким как честность и устойчивость к вредоносным атакам «prompt injection», Opus 4.7 превосходит Opus 4.6; по другим (например, склонность давать чрезмерно подробные рекомендации по снижению вреда от контролируемых веществ) Opus 4.7 несколько слабее. Наша оценка выравнивания пришла к выводу, что модель «в целом хорошо выровнена и заслуживает доверия, хотя поведение не является полностью идеальным». Следует отметить, что Mythos Preview остаётся наиболее выровненной моделью, которую мы обучили, согласно нашим оценкам. Полное описание оценок безопасности представлено в системной карте Claude Opus 4.7.

Overall misaligned behavior score from our automated behavioral audit. On this evaluation, Opus 4.7 is a modest improvement on Opus 4.6 and Sonnet 4.6, but Mythos Preview still shows the lowest rates of misaligned behavior.

Также запускается сегодня

Помимо самой Claude Opus 4.7, мы запускаем следующие обновления:

Расширенное управление усилиями: Opus 4.7 вводит новый уровень усилий xhigh («extra high») — уровень усилий между high и max, дающий пользователям более тонкий контроль над компромиссом между глубиной рассуждений и задержкой на сложных задачах. В Claude Code мы повысили уровень усилий по умолчанию до xhigh для всех планов. При тестировании Opus 4.7 для задач программирования и агентных сценариев мы рекомендуем начинать с уровня high или xhigh.На платформе Claude (API): помимо поддержки изображений более высокого разрешения, мы также запускаем бюджеты задач в открытой бете, предоставляя разработчикам возможность направлять расход токенов Claude, чтобы модель могла приоритизировать работу в ходе длительных прогонов.В Claude Code: новая слеш-команда /ultrareview запускает отдельную сессию ревью, которая просматривает изменения и отмечает баги и проблемы дизайна, которые заметил бы внимательный рецензент. Мы даём пользователям Pro и Max Claude Code три бесплатных ultrareview для пробы. Кроме того, мы расширили авто-режим на пользователей Max. Авто-режим — это новая опция разрешений, при которой Claude принимает решения за вас, позволяя выполнять более длительные задачи с меньшим количеством прерываний — и с меньшим риском, чем при полном отключении всех разрешений.

Миграция с Opus 4.6 на Opus 4.7

Opus 4.7 — прямое обновление Opus 4.6, но два изменения стоит учесть при планировании, поскольку они влияют на расход токенов. Во-первых, Opus 4.7 использует обновлённый токенизатор, улучшающий обработку текста моделью. Компромисс в том, что один и тот же ввод может отображаться на большее число токенов — примерно 1,0–1,35× в зависимости от типа контента. Во-вторых, Opus 4.7 больше рассуждает на высоких уровнях усилий, особенно на поздних ходах в агентных сценариях. Это повышает надёжность на сложных задачах, но означает, что модель генерирует больше выходных токенов.

Пользователи могут контролировать расход токенов различными способами: через параметр уровня усилий, настройку бюджетов задач или промптинг модели на большую лаконичность. В нашем собственном тестировании чистый эффект положительный — расход токенов на всех уровнях усилий улучшился на внутренней оценке программирования, как показано ниже — но мы рекомендуем измерять разницу на реальном трафике. Мы подготовили руководство по миграции с дополнительными рекомендациями по обновлению с Opus 4.6 на Opus 4.7.

Score on an internal agentic coding evaluation as a function of token usage at each effort level. In this evaluation, the model works autonomously from a single user prompt, and results may not be representative of token usage in interactive coding. See the migration guide for more on tuning effort levels.

Примечания

1 Это изменение на уровне модели, а не параметр API, поэтому изображения, отправляемые пользователями в Claude, будут просто обрабатываться с более высокой детализацией. Поскольку изображения более высокого разрешения потребляют больше токенов, пользователи, которым не нужна дополнительная детализация, могут уменьшать разрешение изображений перед отправкой модели.

Для GPT-5.4 и Gemini 3.1 Pro в таблицах и графиках мы сравнивали с лучшей доступной через API версией модели.MCP-Atlas: оценка Opus 4.6 обновлена с учётом пересмотренной методологии оценки от Scale AI.SWE-bench Verified, Pro и Multilingual: наши проверки на запоминание выявляют подмножество задач в этих оценках SWE-bench. При исключении любых задач, показывающих признаки запоминания, преимущество Opus 4.7 над Opus 4.6 сохраняется.Terminal-Bench 2.0: мы использовали обвязку Terminus-2 с отключённым мышлением. Все эксперименты использовали выделение ресурсов 1× гарантированных / 3× максимальных с усреднением по пяти попыткам на задачу.CyberGym: оценка Opus 4.6 обновлена с изначально опубликованных 66,6 до 73,8, так как мы обновили параметры обвязки для лучшего выявления кибервозможностей.SWE-bench Multimodal: мы использовали внутреннюю реализацию как для Opus 4.7, так и для Opus 4.6. Результаты не сопоставимы напрямую с публичными таблицами лидеров.

4 мая 2026 г.: обновлён график Document reasoning с учётом обновлённых результатов OfficeQA Pro для Opus 4.7.

Связанные материалы

PwC внедряет Claude для создания технологий, проведения сделок и трансформации корпоративных функций для клиентов

PwC развернёт Claude Code и Cowork, начав с команд в США и расширяясь на глобальный штат из сотен тысяч специалистов, создаст совместный Центр компетенций и обучит и сертифицирует 30 000 специалистов PwC по работе с Claude.

Anthropic заключает партнёрство на $200 миллионов с Gates Foundation

Представляем Claude для малого бизнеса

Мы запускаем Claude для малого бизнеса — набор коннекторов и готовых рабочих процессов, которые интегрируют Claude в инструменты, используемые малым бизнесом каждый день.