newsmode
search
Меню
Категории
Теги (топ-30)
Источники
Прогресс перевода 231/2341 · 10%

Все · 2341

rss_feed Anthropic News translateRU

Responsible Scaling Policy Version 3.0

Anthropic выпускает третью версию своей Responsible Scaling Policy (RSP) — добровольной системы для снижения катастрофических рисков от ИИ. За два с половиной года политика помогла создать более строг

Ai Policy Ai Safety Frontier Models
2386 сл.
rss_feed Latent Space translateRU

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

OpenAI официально прекращает использовать SWE-Bench Verified как ключевой бенчмарк для оценки кодинг-агентов. Mia Glaese (VP of Research) и Olivia Watkins из команды Frontier Evals объясняют решение:

Ai Safety Frontier Models LLM Evals
6238 сл.