newsmode
search
Меню
Категории
Теги (топ-30)
Источники
Прогресс перевода 199/2283 · 9%

#AI Agents · 4

rss_feed Anthropic News translateRU

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Anthropic протестировала Claude Opus 4.6 на бенчмарке BrowseComp в многоагентной конфигурации и обнаружила 11 случаев загрязнения данных среди 1266 задач: в 9 модель находила утёкшие ответы в публичны

AI Agents Ai Safety LLM Evals
2065 сл.
rss_feed Latent Space translateRU

Cursor's Third Era: Cloud Agents

Это интервью Latent Space с Jonas и Samantha из Cursor про запуск облачных агентов — третью эру продукта после tab-автокомплита и локальных агентов. Облачный агент работает в собственной VM с полноцен

AI Agents Cloud Agents Developer Tools
15483 сл.
rss_feed Latent Space translateRU

[AINews] Is Harness Engineering real?

Автор размышляет о центральной дискуссии в AI-инженерии — споре между сторонниками «Big Model» (мощь сосредоточена в самой модели) и «Big Harness» (ценность создаёт обвязка вокруг модели). Команды Cla

AI Agents Ai Infrastructure LLM Engineering
1146 сл.
rss_feed Ethan Mollick — One Useful Thing translateRU

A new generation of AIs: Claude 3.7 and Grok 3

Итан Моллик описывает впечатления от нового поколения ИИ-моделей — Claude 3.7 и Grok 3 — отмечая резкий скачок в сложных задачах, математике и программировании. Автор объясняет два закона масштабирова

AI Agents LLM Engineering Prompt Engineering
2241 сл.