rss_feedEthan Mollick — One Useful Thing ·Ethan Mollick ·12.11.2025 open_in_newОригинал

Giving your AI a Job Interview

#Enterprise Ai #Frontier Models #LLM Evals

auto_awesomeКраткое саммари

Эссе Итана Молика о том, что по мере роста важности ИИ-советов нам нужно научиться лучше оценивать модели. Стандартные бенчмарки имеют серьёзные проблемы: их ответы часто попадают в обучающие данные, мы не всегда понимаем, что они реально измеряют, они нередко некалиброваны и содержат ошибки. Хотя в совокупности бенчмарки отражают некий общий рост «интеллекта» (это видно и на качественных тестах вроде ARC-AGI и METR Long Tasks), надёжные тесты сосредоточены на математике, науке, рассуждениях и коде — а письмо, эмпатию или бизнес-советы измерить почти нечем. В качестве альтернатив автор описывает «вайбовый» бенчмаркинг (его тест с выдрой в самолёте, тест Саймона Уиллисона с пеликаном на велосипеде) и серьёзный реальный бенчмаркинг вроде статьи OpenAI GDPval, где лучшие модели обходили людей в разработке ПО и финансовых советах, но проигрывали фармацевтам и риелторам. На примере «GuacaDrone» Молик показывает, что разные модели дают стабильно разные оценки одной идеи (Grok и Copilot были в восторге, GPT-5 и Claude 4.5 — скептичны), и заключает: организации должны проводить ИИ настоящее «собеседование» на своих реальных задачах, а не выбирать модель по баллу MMLU.

translate EN + RU EN RU

Устройте своему ИИ собеседование

По мере того как советы ИИ становятся всё важнее, нам придётся научиться лучше их оценивать

Учитывая, сколько энергии — и в прямом, и в переносном смысле — уходит на разработку новых ИИ, нам на удивление трудно измерить, насколько именно они «умны». Самый распространённый подход — относиться к ИИ как к человеку: давать ему тесты и сообщать, сколько ответов он дал верно. Таких тестов десятки, их называют бенчмарками, и они — основной способ отслеживать, насколько ИИ становятся лучше со временем.

У этого подхода есть свои проблемы.

Во-первых, многие бенчмарки и их ключи с ответами находятся в открытом доступе, поэтому некоторые ИИ в итоге включают их в своё базовое обучение — либо случайно, либо чтобы показать высокий результат на этих бенчмарках. Но даже когда этого не происходит, оказывается, что мы часто не знаем, что именно эти тесты измеряют. Например, очень популярный бенчмарк MMLU-Pro включает вопросы вроде «Какова приблизительная средняя черепная вместимость Homo erectus?» и «Какое место упомянуто в названии концертного альбома 1979 года легендарной рок-группы Cheap Trick?» — с десятью вариантами ответа на каждый. О чём говорит правильный ответ на такое? Понятия не имею. И это не считая того, что тесты часто не откалиброваны: мы не знаем, так же ли трудно подняться с 84% правильных ответов до 85%, как с 40% до 41%. А вдобавок ко всему, во многих тестах реальный максимальный результат может быть недостижим, потому что в самих вопросах теста много ошибок, а результаты часто подаются необычным образом.

Every benchmark has flaws, but they are all trending the same way - up and to the right. The AIME is a hard math exam, GPQA tests scientific and legal knowledge, the MMLU is a general knowledge test, SWE-bench and LiveBench test coding, Terminal-Bench tests agentic ability. Data from Epoch AI.

Несмотря на эти проблемы, все эти бенчмарки, взятые вместе, похоже, измеряют некий общий фактор способностей. И более качественные бенчмарки, такие как ARC-AGI и METR Long Tasks, показывают тот же восходящий — и даже экспоненциальный — тренд. Это совпадает с тестами реального влияния ИИ в разных отраслях, которые позволяют предположить, что этот общий рост «ума» переходит в реальные способности во всём — от медицины до финансов.

Так что в совокупности бенчмаркинг имеет реальную ценность, но немногие надёжные отдельные бенчмарки сосредоточены на математике, науке, рассуждениях и программировании. Если же вы хотите измерить умение писать, или способность к социологическому анализу, или качество бизнес-советов, или эмпатию, вариантов у вас очень мало. Думаю, это создаёт проблему — и для отдельных людей, и для организаций. Компании решают, какие ИИ использовать, исходя из бенчмарков, и новые ИИ выпускаются под фанфары о результатах на бенчмарках. Но на самом деле вас волнует, какая модель будет лучшей именно для ВАШИХ задач.

Чтобы выяснить это для себя, вам придётся провести со своим ИИ собеседование.

Бенчмаркинг на вайбах

Если бенчмарки нас подводят, то иногда «вайбы» способны выручить. Если поработать с достаточным числом ИИ-моделей, начинаешь видеть разницу между ними так, что её трудно описать, но легко распознать. В результате некоторые люди, много работающие с ИИ, разрабатывают свои собственные нестандартные бенчмарки для проверки способностей ИИ. Например, Simon Willison просит каждую модель нарисовать пеликана на велосипеде, а я прошу каждую модель для изображений и видео создать выдру в самолёте. Эти подходы хоть и забавны, но они также дают вам представление о том, как ИИ понимает, что и как связано между собой, — о его «модели мира». И у меня есть десятки других тестов: например, я прошу ИИ написать JavaScript для «панели управления звездолёта далёкого будущего» (ниже можно увидеть, как с этим справляются старые и новые модели) или сочинить сложное стихотворение. Я заставляю ИИ создавать видеоигры и шейдеры и анализировать научные статьи. А ещё я провожу крошечные эксперименты с письмом, включая вопросы о путешествиях во времени. Каждый даёт мне некоторое понимание того, как работает модель: много ли она делает ошибок? Похожи ли её ответы на ответы любой другой модели? К каким темам и предубеждениям она возвращается? И так далее.

Немного попрактиковавшись, нетрудно уловить вайб новой модели. Для примера попробуем письменное упражнение: «Напишите один абзац о человеке, который раздаёт оставшиеся ему слова, словно военный паёк, узнав, что на всю оставшуюся жизнь ему отпущено всего десять тысяч. У него осталось 47 слов, и он держит на руках новорождённого ребёнка». Если вы много работали с этими ИИ, результаты вас не удивят. Вы поймёте, почему Claude 4.5 Sonnet часто считают сильной моделью для письма. Вы заметите, как Gemini 2.5 Pro, на данный момент самая слабая из этих четырёх моделей, даже не ведёт точный счёт использованным словам. Вы увидите, что GPT-5 Thinking при написании художественного текста склонен к довольно буйному стилю и тяготеет к сложным метафорам, но иногда в ущерб связности и сюжету (я не уверен, что человек израсходовал бы все 47 слов, но хотя бы счёт был верным). И вы заметите, что новая китайская модель с открытыми весами Kimi K2 Thinking страдает похожей проблемой: есть интересные обороты, но история не вполне складывается.

Бенчмаркинг через вайбы — будь то истории, код или выдры — отличный способ для отдельного человека прочувствовать ИИ-модели, но он при этом очень субъективен. ИИ каждый раз даёт разные ответы, и любое сравнение получается несправедливым, если не подходить к нему строго. К тому же более удачные промпты могут привести к более удачным результатам. И самое главное — мы полагаемся на свои ощущения, а не на реальные измерения. Но очевидные различия в вайбах показывают, что одних стандартизированных бенчмарков недостаточно, особенно когда чуть более удачный ИИ для конкретной задачи действительно имеет значение.

Бенчмаркинг на реальном мире

Когда компании выбирают, какие ИИ-системы использовать, они часто рассматривают это как решение о технологии и затратах, полагаясь на публичные бенчмарки, чтобы убедиться, что покупают достаточно хорошую модель (если вообще пользуются хоть какими-то бенчмарками). В некоторых случаях это нормально, но подход быстро рушится, потому что во многих отношениях ИИ ведёт себя скорее как человек — со странными способностями и слабостями, — чем как программа. И если использовать аналогию с наймом, а не с внедрением технологии, то оправдать подход «достаточно хорошо» к бенчмаркингу становится сложнее. Компании тратят немало денег, чтобы нанять людей, которые справляются с работой лучше среднего, и проявляют особую осторожность, если нанимаемый человек будет давать советы многим другим. Такого же отношения требует и ИИ. Не стоит просто выбрать модель для своей компании — нужно провести тщательное собеседование.

Провести собеседование с ИИ — задача непростая, но решаемая. Вероятно, лучший пример бенчмаркинга для реального мира — недавняя статья OpenAI GDPval. Первый шаг — составить реальные задачи, что OpenAI и сделала, собрав экспертов со средним стажем 14 лет в отраслях от финансов до права и розничной торговли и попросив их придумать сложные и реалистичные проекты, на выполнение которых у экспертов-людей ушло бы в среднем от четырёх до семи часов (все задачи можно посмотреть здесь). Второй шаг — проверка ИИ на этих задачах. В данном случае каждую задачу выполняли и несколько ИИ-моделей, и другие эксперты-люди (которым платили почасово). Наконец, есть этап оценки. OpenAI попросила третью группу экспертов оценить результаты, не зная, какие ответы дал ИИ, а какие — человек; на каждый вопрос уходило более часа. В сумме это была огромная работа.

Но она также показала, где ИИ силён (лучшие модели обходили людей в областях от разработки ПО до личных финансовых консультантов), а где слаб (фармацевты, инженеры-технологи и риелторы легко обыгрывали лучший ИИ). Можно также увидеть, что разные модели показывали разные результаты (ChatGPT был лучшим менеджером по продажам, Claude — лучшим финансовым консультантом). Так что хорошие бенчмарки помогают понять форму того, что мы назвали зубчатой границей способностей ИИ, а также отслеживать, как она меняется со временем.

Но даже эти тесты не проливают свет на ключевой вопрос — внутреннюю установку ИИ при принятии решений. В качестве примера того, как это можно выяснить, я дал нескольким ИИ короткую презентацию того, что считаю сомнительной идеей, — компании, доставляющей гуакамоле дронами. Я просил каждую ИИ-модель оценить по шкале от 1 до 10, насколько жизнеспособна GuacaDrone, по десять раз каждую (помните, что ИИ каждый раз отвечает по-разному, поэтому приходится проводить несколько тестов). Отдельные ИИ-модели были вполне последовательны в своих ответах, но сильно различались между собой. Лично я оценил бы эту идею на 2 или ниже, но модели оказались добрее. Grok счёл идею отличной, и Microsoft Copilot тоже был в восторге. Другие модели, такие как GPT-5 и Claude 4.5, отнеслись скептичнее.

How viable is my idea for a guacamole drone delivery service?

Различия не пустяковые. Когда ваш ИИ раздаёт советы в масштабе, стабильное завышение или занижение оценки идей на 3–4 балла означает, что он стабильно направляет вас в другую сторону. Одним компаниям может быть нужен ИИ, склонный к риску, другим — наоборот. Но в любом случае важно понимать, как ваш ИИ «думает» о критически важных бизнес-вопросах.

Проведите собеседование со своей моделью

По мере того как ИИ-модели становятся всё лучше справляться с задачами и всё глубже встраиваются в нашу работу и жизнь, нам пора начать относиться к различиям между ними серьёзнее. Для тех, кто работает с ИИ изо дня в день в одиночку, бенчмаркинга на вайбах может быть достаточно. Можно просто запустить свой тест с выдрой. Хотя в моём случае выдры в самолётах стали даваться моделям слишком легко, поэтому я попробовал промпт «Документальные кадры 1960-х годов о знаменитом последнем концерте той группы перед инцидентом со стаей выдр» в Sora 2 и получил вот такой впечатляющий результат.

Но перед организациями, разворачивающими ИИ в масштабе, стоит другая задача. Да, общий тренд ясен: более крупные и более новые модели в целом лучше справляются с большинством задач. Но «лучше» — недостаточно хорошо, когда вы принимаете решения о том, какой ИИ будет обрабатывать тысячи реальных задач или консультировать сотни сотрудников. Вам нужно знать конкретно, в чём хорош ВАШ ИИ, а не в чём хороши ИИ в среднем.

Именно это и показало исследование GDPval: даже среди лучших моделей результаты заметно различаются от задачи к задаче. А пример GuacaDrone демонстрирует ещё одно измерение — когда задачи требуют суждения по неоднозначным вопросам, разные модели дают стабильно разные советы. В масштабе эти различия накапливаются. ИИ, который чуть хуже анализирует финансовые данные или стабильно более склонен к риску в своих рекомендациях, влияет не на одно решение, а на тысячи.

Вы не можете полагаться на вайбы, чтобы понять эти закономерности, и не можете полагаться на общие бенчмарки, чтобы их выявить. Нужно систематически тестировать свой ИИ на той реальной работе, которую он будет выполнять, и тех реальных суждениях, которые он будет выносить. Создавайте реалистичные сценарии, отражающие ваши варианты использования. Прогоняйте их по несколько раз, чтобы увидеть закономерности, и выделяйте время на то, чтобы эксперты оценили результаты. Сравнивайте модели лицом к лицу на задачах, важных именно для вас. Это разница между знанием «эта модель набрала 85% на MMLU» и знанием «эта модель точнее в наших задачах финансового анализа, но консервативнее в оценках рисков». И вам придётся проделывать это по несколько раз в год, по мере того как выходят новые модели, нуждающиеся в оценке.

Работа того стоит. Вы не стали бы нанимать вице-президента, основываясь только на его баллах за SAT. И не стоит выбирать ИИ, который будет участвовать в тысячах решений вашей организации, на основании того, знает ли он, что средняя черепная вместимость Homo erectus составляет чуть меньше 1000 кубических сантиметров.