rss_feedHamel Husain ·15.08.2025 open_in_newОригинал

Q: What are LLM Evals? – Hamel’s Blog - Hamel Husain

#Error Analysis #LLM Evals #Llm Judge

auto_awesomeКраткое саммари

Это вводный материал из FAQ Хамеля Хусейна об оценке LLM (LLM evals), посвящённый именно продуктовым оценкам, а не бенчмаркам базовых моделей. Автор отсылает к трём своим статьям: «Your AI Product Needs Eval» — о трёх уровнях оценки (юнит-тесты, оценка человеком и моделью, A/B-тестирование) на примере риелторского AI-ассистента Lucy; «Creating a LLM-as-a-Judge That Drives Business Results» — пошаговый процесс построения LLM-судьи через привлечение профильного эксперта и анализ ошибок; и «A Field Guide to Rapidly Improving AI Products». Ключевые идеи: анализ ошибок выявляет улучшения с наибольшим ROI, простой просмотрщик данных — важнейшая инвестиция, а дорожная карта AI-продукта должна измеряться экспериментами, а не функциями.

translate EN + RU EN RU

If you are completely new to product-specific LLM evals (not foundation model benchmarks), see these posts: part 1, part 2 and part 3. Otherwise, keep reading.

Если вы совсем не знакомы с продуктовыми оценками LLM (а не с бенчмарками базовых моделей), посмотрите эти посты: часть 1, часть 2 и часть 3. В противном случае читайте дальше.

Your AI Product Needs Eval (Evaluation Systems)

Вашему AI-продукту нужны Eval (системы оценки)

Contents:

Содержание:

Motivation

Iterating Quickly == Success

Case Study: Lucy, A Real Estate AI Assistant

The Types Of Evaluation

Level 1: Unit Tests
Level 2: Human & Model Eval
Level 3: A/B Testing
Evaluating RAG

Eval Systems Unlock Superpowers For Free

Fine-Tuning
Data Synthesis & Curation
Debugging

Мотивация Быстрое итерирование == Успех Кейс: Lucy, AI-ассистент в сфере недвижимости Типы оценки Уровень 1: Юнит-тесты Уровень 2: Оценка человеком и моделью Уровень 3: A/B-тестирование Оценка RAG Системы оценки бесплатно открывают суперспособности Дообучение Синтез и подготовка данных Отладка

Creating a LLM-as-a-Judge That Drives Business Results

Создание LLM-as-a-Judge, который приносит бизнес-результаты

Contents:

Содержание:

The Problem: AI Teams Are Drowning in Data

Step 1: Find The Principal Domain Expert

Step 2: Create a Dataset

Step 3: Direct The Domain Expert to Make Pass/Fail Judgments with Critiques

Step 4: Fix Errors

Step 5: Build Your LLM as A Judge, Iteratively

Step 6: Perform Error Analysis

Step 7: Create More Specialized LLM Judges (if needed)

Recap of Critique Shadowing

Resources

Проблема: AI-команды тонут в данных Шаг 1: Найдите главного профильного эксперта Шаг 2: Создайте набор данных Шаг 3: Направьте профильного эксперта выносить вердикты «прошёл/не прошёл» с критическими замечаниями Шаг 4: Исправьте ошибки Шаг 5: Постройте свой LLM-судью итеративно Шаг 6: Проведите анализ ошибок Шаг 7: Создайте более специализированных LLM-судей (при необходимости) Краткий обзор «теневого критикования» (critique shadowing) Ресурсы

A Field Guide to Rapidly Improving AI Products

Практическое руководство по быстрому улучшению AI-продуктов

Contents:

Содержание:

How error analysis consistently reveals the highest-ROI improvements

Why a simple data viewer is your most important AI investment

How to empower domain experts (not just engineers) to improve your AI

Why synthetic data is more effective than you think

How to maintain trust in your evaluation system

Why your AI roadmap should count experiments, not features

Как анализ ошибок стабильно выявляет улучшения с наибольшим ROI Почему простой просмотрщик данных — ваша важнейшая инвестиция в AI Как дать возможность улучшать ваш AI профильным экспертам (а не только инженерам) Почему синтетические данные эффективнее, чем вы думаете Как сохранять доверие к вашей системе оценки Почему ваша дорожная карта по AI должна считать эксперименты, а не функции

↩︎ Back to main FAQ

↩︎ Назад к основному FAQ

This article is part of our AI Evals FAQ, a collection of common questions (and answers) about LLM evaluation. View all FAQs or return to the homepage.

Эта статья — часть нашего AI Evals FAQ, сборника частых вопросов (и ответов) об оценке LLM. Посмотреть все вопросы или вернуться на главную.