rss_feedEthan Mollick — One Useful Thing ·25.02.2025 open_in_newОригинал

A new generation of AIs: Claude 3.7 and Grok 3

#AI Agents #LLM Engineering #Prompt Engineering

auto_awesomeКраткое саммари

Итан Моллик описывает впечатления от нового поколения ИИ-моделей — Claude 3.7 и Grok 3 — отмечая резкий скачок в сложных задачах, математике и программировании. Автор объясняет два закона масштабирования: рост вычислительных мощностей при обучении (Gen3-модели используют свыше 10^26 FLOPS, в 10 раз больше GPT-4) и масштабирование во время инференса через Reasoners. Grok 3 от xAI стал первой публичной Gen3-моделью благодаря крупнейшему кластеру, Claude 3.7 пока не Gen3, но показывает заметный прогресс, а нераскрытая o3 от OpenAI также относится к новому поколению. Способности ИИ растут, а стоимость падает: Gemini 1.5 Flash стоит около 12 центов за миллион токенов против ~50 долларов у изначального GPT-4. Моллик призывает руководителей отказаться от «мышления автоматизации» и рассматривать ИИ как интеллектуального партнёра для задач уровня PhD. В завершение он советует экспериментировать самостоятельно с Claude 3.7 и Grok 3, отмечая разницу в приватности и подходах компаний.

translate EN + RU EN RU

A new generation of AIs: Claude 3.7 and Grok 3

Новое поколение ИИ: Claude 3.7 и Grok 3

Yes, AI suddenly got better... again

Да, ИИ снова внезапно стал лучше... опять

Note: After publishing this piece, I was contacted by Anthropic who told me that Sonnet 3.7 would not be considered a 10^26 FLOP model and cost a few tens of millions of dollars to train, though future models will be much bigger. I updated the post with that information. The only significant change is that Claude 3 is now referred to as an advanced model but not a Gen3 model.

Примечание: после публикации этой статьи со мной связались представители Anthropic и сообщили, что Sonnet 3.7 не считается моделью на 10^26 FLOP и его обучение стоило несколько десятков миллионов долларов, хотя будущие модели будут значительно крупнее. Я обновил пост с учётом этой информации. Единственное существенное изменение — Claude 3 теперь называется продвинутой моделью, но не моделью Gen3.

I have been experimenting with the first of a new generation AI models, Claude 3.7 and Grok 3, for the last few days. Grok 3 is the first model that we know trained with an order of magnitude more computing power of GPT-4, and Claude includes new coding and reasoning capabilities, so they are not just interesting in their own right but also tell us something important about where AI is going.

Последние несколько дней я экспериментирую с первыми моделями нового поколения ИИ — Claude 3.7 и Grok 3. Grok 3 — первая известная нам модель, обученная с использованием на порядок большей вычислительной мощности, чем GPT-4, а Claude получил новые возможности в кодировании и рассуждениях, так что они интересны не только сами по себе, но и говорят нам нечто важное о том, куда движется ИИ.

Before we get there, a quick review: this new generation of AIs is smarter and the jump in capabilities is striking, particularly in how these models handle complex tasks, math and code. These models often give me the same feeling I had when using ChatGPT-4 for the first time, where I am equally impressed and a little unnerved by what it can do. Take Claude's native coding ability, I can now get working programs through natural conversation or documents, no programming skill needed.

Прежде чем мы дойдём до этого, краткий обзор: новое поколение ИИ умнее, и скачок в возможностях впечатляет, особенно в том, как эти модели справляются со сложными задачами, математикой и кодом. Эти модели часто вызывают у меня то же ощущение, что и при первом использовании ChatGPT-4, когда я одновременно впечатлён и немного обеспокоен тем, что он умеет. Возьмём, например, нативную способность Claude к программированию: теперь я могу получать рабочие программы через обычный разговор или документы, без каких-либо навыков программирования.

For example, giving Claude a proposal for a new AI educational tool and engaging in conversation where it was asked to “display the proposed system architecture in 3D, make it interactive,” resulted in this interactive visualization of the core design in our paper, with no errors. You can try it yourself here, and edit or change it by asking the AI. The graphics, while neat, are not the impressive part. Instead, it was that Claude decided to turn this into a step-by-step demo to explain the concepts, which wasn’t something that it was asked to do. This anticipation of needs and consideration of new angles of approach is something new in AI.

Например, отдав Claude предложение нового ИИ-инструмента для образования и попросив его «отобразить предложенную архитектуру системы в 3D, сделать её интерактивной», я получил интерактивную визуализацию ключевого дизайна из нашей статьи, без единой ошибки. Вы можете попробовать её сами здесь и редактировать или менять, попросив ИИ. Графика, хоть и аккуратная, — не самое впечатляющее. Главное — что Claude решил превратить это в пошаговую демонстрацию для объяснения концепций, о чём его не просили. Такое предвосхищение потребностей и рассмотрение новых углов подхода — нечто новое в ИИ.

Or, for a more playful example, I told Claude “make me an interactive time machine artifact, let me travel back in time and interesting things happen. pick unusual times I can go back to…” and “add more graphics.” What emerged after just those two prompts was a fully functional interactive experience, complete with crude but charming pixel graphics (which are actually surprisingly impressive- the AI has to 'draw' these using pure code, without being able to see what it's creating, like an artist painting blindfolded but still getting the picture right).

Или, для более игрового примера, я сказал Claude: «сделай мне интерактивный артефакт «машина времени», позволь мне путешествовать в прошлое, чтобы происходили интересные события. выбери необычные моменты, в которые я могу вернуться…» и «добавь больше графики». Всего после двух промптов получился полностью функциональный интерактивный опыт, дополненный грубой, но обаятельной пиксельной графикой (которая на самом деле удивительно впечатляет — ИИ приходится «рисовать» её чистым кодом, не видя, что он создаёт, как художник, рисующий с завязанными глазами, но всё равно правильно передающий картину).

To be clear, these systems are far from perfect and make mistakes, but they are getting much better, and fast. To understand where things are and where they are going,

Чтобы было ясно: эти системы далеки от совершенства и делают ошибки, но они становятся намного лучше, и быстро. Чтобы понять, где мы сейчас и куда движемся,

The Two Scaling Laws

Два закона масштабирования

Though they may not look it, these may be the two most important graphs in AI. Published by OpenAI, they show the two “Scaling Laws,” which tell you how to increase the ability of the AI to answer hard questions, in this case to score more highly on the famously difficult American Invitational Mathematics Examination (AIME).

Хотя они могут так не выглядеть, это, возможно, два самых важных графика в ИИ. Опубликованные OpenAI, они показывают два «закона масштабирования», которые говорят, как повысить способность ИИ отвечать на сложные вопросы — в данном случае получать более высокие баллы на знаменитой своей сложностью American Invitational Mathematics Examination (AIME).

The left-hand graph is the training Scaling Law. It shows that larger models are more capable. Training these larger models requires increasing the amount of computing power, data, and energy used, and you need to do so on a grand scale. Typically, you need a 10x increase in computing power to get a linear increase in performance. Computing power is measured in FLOPs (Floating Point Operations) which are the number of basic mathematical operations, like addition or multiplication, that a computer performs, giving us a way to quantify the computational work done during AI training.

Левый график — это закон масштабирования при обучении. Он показывает, что более крупные модели обладают большими возможностями. Обучение таких более крупных моделей требует увеличения вычислительной мощности, объёма данных и энергии, причём в огромных масштабах. Как правило, нужно увеличить вычислительную мощность в 10 раз, чтобы получить линейный прирост производительности. Вычислительная мощность измеряется в FLOP (Floating Point Operations) — количестве базовых математических операций, таких как сложение или умножение, выполняемых компьютером, что даёт нам способ количественно оценить вычислительную работу при обучении ИИ.

We are now seeing the first models of a new generation of AIs, trained with over 10x the computing power of GPT-4 and its many competitors. These models use over 10^26 FLOPS of computing power in training. This is a staggering amount of computing power, equivalent to running a modern smartphone for 634,000 years or the Apollo Guidance Computer that took humans to the moon for 79 trillion years. Naming 10^26 is awkward, though - it is one hundred septillion FLOPS, or, taking a little liberty with standard unit names, a HectoyottaFLOP. So, you can see why I just call them Gen3 models, the first set of AIs that were trained with an order of magnitude more computing power than GPT-4 (Gen2).

Сейчас мы видим первые модели нового поколения ИИ, обученные более чем с 10-кратной вычислительной мощностью по сравнению с GPT-4 и его многочисленными конкурентами. Эти модели используют более 10^26 FLOPS вычислительной мощности при обучении. Это ошеломляющий объём вычислительной мощности, эквивалентный работе современного смартфона в течение 634 000 лет или Apollo Guidance Computer, который доставил людей на Луну, — в течение 79 триллионов лет. Назвать 10^26 неловко — это сто септиллионов FLOPS, или, если немного вольно обращаться со стандартными названиями единиц, HectoyottaFLOP. Поэтому вы понимаете, почему я просто называю их моделями Gen3 — первым набором ИИ, обученным с использованием на порядок большей вычислительной мощности, чем GPT-4 (Gen2).

xAI, Elon Musk's AI company, made the first public move into Gen3 territory with Grok 3, which is unsurprising given their strategy. xAI is betting big on the idea that bigger (way bigger) is better. xAI built the world’s largest computer cluster in record time, and that meant Grok 3 was the first AI model to show us whether the Scaling Law would hold up for a new generation of AI. It seems that it did, as Grok 3 had the highest benchmark scores we've seen from any base model. Today, Claude 3.7 was released, though not yet a Gen3 model, it also shows substantial improvements in performance over previous AIs. While it is similar in benchmarks to Grok 3, I personally find it more clever for my use cases, but you may find otherwise. The still unreleased o3 from OpenAI also seems to be a Gen3 model, with excellent performance. It is likely this is just the beginning - more companies are gearing up to launch their own models at this scale, including Anthropic.

xAI, ИИ-компания Илона Маска, сделала первый публичный шаг на территорию Gen3 с Grok 3, что неудивительно, учитывая их стратегию. xAI делает большую ставку на идею, что больше (намного больше) — значит лучше. xAI построила крупнейший в мире вычислительный кластер в рекордные сроки, и это означало, что Grok 3 стал первой ИИ-моделью, которая показала нам, выдержит ли закон масштабирования новое поколение ИИ. Похоже, что выдержал — у Grok 3 были самые высокие баллы в бенчмарках, которые мы когда-либо видели у базовой модели. Сегодня вышел Claude 3.7, и хотя это пока не модель Gen3, он также демонстрирует существенные улучшения в производительности по сравнению с предыдущими ИИ. Хотя по бенчмаркам он схож с Grok 3, лично я нахожу его более умным для моих сценариев использования, но у вас может быть иначе. Ещё не выпущенная o3 от OpenAI, по-видимому, также является моделью Gen3 с отличной производительностью. Вероятно, это только начало — больше компаний готовятся запустить собственные модели такого масштаба, включая Anthropic.

You might have noticed I haven’t yet mentioned the second graph, the one on the right. While the first Scaling Law is about throwing massive computing power at training (basically, building a smarter AI from the start), this second one revealed something surprising: you can make AI perform better simply by giving it more time to think. OpenAI discovered that if you let a model spend more computing power working through a problem (what they call test-time or inference-time compute), it gets better results - kind of like giving a smart person a few extra minutes to solve a puzzle. This second Scaling Law led to the creation of Reasoners, which I wrote about in my last post. The new generation of Gen3 models will all operate as Reasoners when needed, so they have two advantages: larger scale in training, and the ability to scale when actually solving a problem.

Вы могли заметить, что я ещё не упомянул второй график, тот, что справа. Если первый закон масштабирования — это направление огромных вычислительных мощностей на обучение (по сути, создание более умного ИИ с самого начала), то второй раскрывает нечто удивительное: можно заставить ИИ работать лучше, просто дав ему больше времени на размышление. OpenAI обнаружила, что если позволить модели потратить больше вычислительной мощности на проработку проблемы (то, что они называют test-time или inference-time compute), она получит лучшие результаты — что-то вроде того, как дать умному человеку несколько дополнительных минут для решения головоломки. Этот второй закон масштабирования привёл к созданию Reasoners, о которых я писал в прошлом посте. Новое поколение моделей Gen3 будут работать как Reasoners по мере необходимости, так что у них есть два преимущества: больший масштаб при обучении и возможность масштабироваться при фактическом решении задачи.

An example of three different models using reasoning

Together, these two trends are supercharging AI abilities, and also adding others. If you have a large, smart AI model, that can be used to create smaller, faster, cheaper models that are still quite smart, if not as much as their parent. And if you add Reasoner capabilities to even small models, they get even smarter. What that means is that AI abilities are getting better even as costs are dropping. This graph shows how quickly this trend has advanced, mapping the capability of AI on the y axis and the logarithmically decreasing costs on the x axis. When GPT-4 came out it was around $50 per million tokens (roughly a word), now it costs around 12 cents per million tokens to use Gemini 1.5 Flash, an even more capable model than the original GPT-4.

Вместе эти два тренда суперзаряжают возможности ИИ, а также добавляют другие. Если у вас есть большая, умная модель ИИ, её можно использовать для создания меньших, более быстрых и дешёвых моделей, которые всё ещё довольно умны, хоть и не настолько, как их «родитель». А если добавить возможности Reasoner даже к маленьким моделям, они становятся ещё умнее. Это значит, что возможности ИИ растут одновременно со снижением стоимости. Этот график показывает, насколько быстро развивался этот тренд: способность ИИ — по оси Y, а логарифмически снижающаяся стоимость — по оси X. Когда вышел GPT-4, он стоил около $50 за миллион токенов (примерно за слово), а теперь использование Gemini 1.5 Flash, ещё более способной модели, чем исходный GPT-4, стоит около 12 центов за миллион токенов.

The Graduate-Level Google-Proof Q&A test (GPQA) is a series of very hard multiple-choice problems designed to test advanced knowledge. PhDs with access to the internet get 34% right on this test outside their specialty, 81% inside their specialty. The cost per million tokens is the cost of using the model (Gemini Flash Thinking Costs are estimated). Data based on my research, but Epoch and Artificial Analysis were good sources, and Latent Space offers its own more comprehensive graph of costs across many models.

You can see the intelligence of models is increasing, and their cost is decreasing over time. That has some pretty big implications for all of us.

Видно, что интеллект моделей растёт, а их стоимость со временем снижается. У этого есть довольно серьёзные последствия для всех нас.

Taking Scale Seriously

Воспринимать масштаб всерьёз

A lot of the focus on AI use, especially in the corporate world, has been stuck in what I call the “automation mindset” - viewing AI primarily as a tool for speeding up existing workflows like email management and meeting transcription. This perspective made sense for earlier AI models, but it's like evaluating a smartphone solely on its ability to make phone calls. The Gen3 generation give the opportunity for a fundamental rethinking of what's possible.

Большая часть фокуса на использовании ИИ, особенно в корпоративном мире, застряла в том, что я называю «мышлением автоматизации», — представлении об ИИ прежде всего как об инструменте ускорения существующих рабочих процессов вроде обработки почты и расшифровки встреч. Эта перспектива имела смысл для более ранних моделей ИИ, но это всё равно что оценивать смартфон исключительно по его способности совершать телефонные звонки. Поколение Gen3 даёт возможность фундаментально переосмыслить, что вообще возможно.

As models get better, and as they apply more tricks like reasoning and internet access, they hallucinate less (though they still make mistakes) and they are capable of higher order “thinking.” For example, in this case we gave Claude a 24 page academic paper outlining a new way of creating teaching games with AI, along with some unrelated instruction manuals for other games. We asked the AI to use those examples and write a customer-friendly guide for a game based on our academic paper. The results were extremely high-quality. To do this, the AI needed to both abstract out the ideas in the paper, and the patterns and approaches from other instruction manuals, and build something entirely new. This would have been a week of PhD-level work, done in a few seconds. And, on the right, you can also see an excerpt from another PhD-level task, reading a complex academic paper and checking the math and logic, as well as the implications for practice.

По мере того как модели становятся лучше и применяют больше приёмов вроде рассуждений и доступа в интернет, они меньше галлюцинируют (хотя всё ещё делают ошибки) и способны на «мышление» более высокого порядка. Например, в одном случае мы дали Claude 24-страничную академическую статью, описывающую новый способ создания обучающих игр с ИИ, вместе с не связанными с ней инструкциями для других игр. Мы попросили ИИ использовать эти примеры и написать удобное для пользователя руководство для игры на основе нашей академической статьи. Результаты оказались чрезвычайно качественными. Чтобы это сделать, ИИ должен был и абстрагировать идеи из статьи, и паттерны и подходы из других руководств, и построить нечто совершенно новое. Это была бы неделя работы уровня PhD, выполненная за несколько секунд. А справа вы также можете видеть отрывок из другой задачи уровня PhD — чтения сложной академической статьи и проверки математики и логики, а также практических импликаций.

Managers and leaders will need to update their beliefs for what AI can do, and how well it can do it, given these new AI models. Rather than assuming they can only do low-level work, we will need to consider the ways in which AI can serve as a genuine intellectual partner. These models can now tackle complex analytical tasks, creative work, and even research-level problems with surprising sophistication. The examples I've shared - from creating interactive 3D visualizations of academic concepts to performing PhD-level analysis - demonstrate that we're moving beyond simple automation into the realm of AI-powered knowledge work. These systems are still far from flawless, nor do they beat human experts consistently across a wide range of tasks, but they are very impressive.

Менеджерам и руководителям нужно будет обновить свои представления о том, что может делать ИИ и насколько хорошо он это делает, учитывая эти новые модели ИИ. Вместо того чтобы предполагать, что они способны только на низкоуровневую работу, нам придётся рассматривать, как ИИ может служить настоящим интеллектуальным партнёром. Эти модели теперь способны браться за сложные аналитические задачи, творческую работу и даже исследовательские проблемы с удивительной изощрённостью. Примеры, которыми я поделился — от создания интерактивных 3D-визуализаций академических концепций до выполнения анализа уровня PhD — демонстрируют, что мы выходим за рамки простой автоматизации в область интеллектуальной работы, основанной на ИИ. Эти системы всё ещё далеки от безупречности и не превосходят последовательно человеческих экспертов в широком спектре задач, но они очень впечатляют.

This shift has profound implications for how organizations should approach AI integration. First, the focus needs to move from task automation to capability augmentation. Instead of asking "what tasks can we automate?" leaders should ask "what new capabilities can we unlock?" And they will need to build the capacity in their own organizations to help explore, and develop these changes.

Этот сдвиг имеет глубокие последствия для того, как организациям следует подходить к интеграции ИИ. Во-первых, фокус нужно сместить с автоматизации задач на расширение возможностей. Вместо вопроса «какие задачи мы можем автоматизировать?» лидерам следует спрашивать: «какие новые возможности мы можем открыть?» И им нужно будет построить в собственных организациях компетенции, которые помогут исследовать и развивать эти изменения.

Second, the rapid improvement in both capabilities and cost efficiency means that any static strategy for AI implementation will quickly become outdated. Organizations need to develop dynamic approaches that can evolve as these models continue to advance. Going all-in on a particular model today is not a good plan in a world where both Scaling Laws are operating.

Во-вторых, быстрое улучшение как возможностей, так и эффективности затрат означает, что любая статичная стратегия внедрения ИИ быстро устареет. Организациям необходимо разрабатывать динамические подходы, которые могут эволюционировать по мере дальнейшего развития этих моделей. Сделать ставку всё на одну модель сегодня — плохой план в мире, где действуют оба закона масштабирования.

Finally, and perhaps most importantly, we need to rethink how we measure and value AI contributions. The traditional metrics of time saved or costs reduced may miss the more transformative impacts of these systems - their ability to generate novel insights, synthesize complex information, and enable new forms of problem-solving. Moving too quickly to concrete KPIs, and leaving behind exploration, will blind companies to what is possible. Worse, they encourage companies to think of AI as a replacement for human labor, rather than exploring ways in which human work can be boosted by AI.

Наконец, и, возможно, самое важное: нам нужно переосмыслить, как мы измеряем и оцениваем вклад ИИ. Традиционные метрики сэкономленного времени или сокращённых затрат могут упустить более трансформационные эффекты этих систем — их способность генерировать новые инсайты, синтезировать сложную информацию и открывать новые формы решения проблем. Слишком быстрый переход к конкретным KPI и отказ от исследования ослепит компании в отношении того, что возможно. Хуже того, это побуждает компании думать об ИИ как о замене человеческого труда, а не исследовать способы, как человеческую работу можно усилить с помощью ИИ.

Exploring for Yourself

Исследование на собственном опыте

With that serious warning out of the way, I want to leave you with a suggestion. These new models are clever, but they are also friendly and more engaging to use. They are likely to ask you questions or push your thinking in new directions, and tend to be good at two-way conversation. The best way to understand their capabilities, then, is to explore them yourself. Claude 3.7 is available for paying customers and has a neat feature where it can run the code it writes for you, as you have seen throughout this post. It does not train on your uploaded data. Grok 3 is free and has a wider range of features, including a good Deep Research option, but is harder for amateurs to use for coding. It is not as good as Claude 3.7 for the tasks I have tried, but the Xai commitment to scaling means it will improve rapidly. You should also note that Grok does train on your data, but that can be turned off for paying customers.

С этим серьёзным предупреждением в стороне, я хочу оставить вам совет. Эти новые модели умны, но они также дружелюбны и более увлекательны в использовании. Они склонны задавать вам вопросы или подталкивать ваше мышление в новых направлениях и хорошо ведут двусторонний разговор. Лучший способ понять их возможности — исследовать их самостоятельно. Claude 3.7 доступен платным пользователям и имеет интересную функцию: он может запускать код, который пишет для вас, как вы видели на протяжении этого поста. Он не обучается на ваших загруженных данных. Grok 3 бесплатный и имеет более широкий набор функций, включая хорошую опцию Deep Research, но любителям сложнее использовать его для программирования. Он не так хорош, как Claude 3.7, для задач, которые я пробовал, но приверженность xAI масштабированию означает, что он будет быстро улучшаться. Также стоит отметить, что Grok обучается на ваших данных, но это можно отключить для платных пользователей.

Regardless of what model you pick, you should experiment. Ask the model to code something for you by just asking for it (I asked Claude for a video game with unique mechanics based on the Herman Melville story “Bartleby the Scrivner” - and it did so based on a single prompt), feed it a document and ask it for an infographic summary, or ask it to comment on an image you upload. If this is too playful, follow the advice in my book and just use it for work tasks, taking into account the privacy caveat above. Use it to brainstorm new ideas, ask it how a news article or analyst report might affect your business, or ask it to create a financial dashboard for a new product or startup concept. You will likely find cases that amaze you, and others where the new models are not yet good enough to be helpful.

Независимо от того, какую модель вы выберете, экспериментируйте. Попросите модель закодить что-то для вас, просто запросив это (я попросил Claude сделать видеоигру с уникальной механикой по мотивам рассказа Германа Мелвилла «Bartleby the Scrivener» — и он сделал это по одному промпту), скормите ей документ и попросите инфографическое резюме, или попросите её прокомментировать загруженное вами изображение. Если это слишком игриво, следуйте совету из моей книги и просто используйте её для рабочих задач, учитывая упомянутую выше оговорку о приватности. Используйте её, чтобы провести мозговой штурм новых идей, спросите, как новостная статья или отчёт аналитика могут повлиять на ваш бизнес, или попросите создать финансовый дашборд для новой продуктовой или стартап-концепции. Вы, вероятно, найдёте случаи, которые вас поразят, и другие, где новые модели пока недостаточно хороши, чтобы быть полезными.

The limitations of these models remain very real, but the fact that Gen3 AIs are better than Gen2, due to both the first and second Scaling Law shows us something essential. These laws aren't fundamental constants of the universe - they're observations about what happens when you throw massive resources at AI development. The computing power keeps growing, the capabilities keep improving, and this cycle accelerates with each generation. As long as they continue to hold, AIs will keep getting better. Now we know that the next generation of AIs will continue to offer rapid improvements, suggesting that there is a good chance that AI capabilities may continue to increase into the future.

Ограничения этих моделей остаются вполне реальными, но факт того, что Gen3 ИИ лучше, чем Gen2, благодаря и первому, и второму закону масштабирования показывает нам нечто важное. Эти законы не являются фундаментальными константами Вселенной — это наблюдения за тем, что происходит, когда вы направляете огромные ресурсы на разработку ИИ. Вычислительная мощность продолжает расти, возможности продолжают улучшаться, и этот цикл ускоряется с каждым поколением. Пока они продолжают действовать, ИИ будет становиться всё лучше. Теперь мы знаем, что следующее поколение ИИ продолжит предлагать быстрые улучшения, что говорит о хороших шансах, что возможности ИИ могут продолжить расти в будущем.