newsmode
search
Меню
Категории
Теги (топ-30)
Источники
Прогресс перевода 190/2283 · 8%

Все · 2283

rss_feed Latent Space translateRU

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

OpenAI официально прекращает использовать SWE-Bench Verified как ключевой бенчмарк для оценки кодинг-агентов. Mia Glaese (VP of Research) и Olivia Watkins из команды Frontier Evals объясняют решение:

Ai Safety Frontier Models LLM Evals
6238 сл.