#AI Agents · 4

rss_feed Anthropic News · 18.03.2026 translateRU

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Anthropic протестировала Claude Opus 4.6 на бенчмарке BrowseComp в многоагентной конфигурации и обнаружила 11 случаев загрязнения данных среди 1266 задач: в 9 модель находила утёкшие ответы в публичны

AI Agents Ai Safety LLM Evals

2065 сл.

rss_feed Latent Space · 06.03.2026 translateRU

Cursor's Third Era: Cloud Agents

Это интервью Latent Space с Jonas и Samantha из Cursor про запуск облачных агентов — третью эру продукта после tab-автокомплита и локальных агентов. Облачный агент работает в собственной VM с полноцен

AI Agents Cloud Agents Developer Tools

15483 сл.

rss_feed Latent Space · 05.03.2026 translateRU

[AINews] Is Harness Engineering real?

Автор размышляет о центральной дискуссии в AI-инженерии — споре между сторонниками «Big Model» (мощь сосредоточена в самой модели) и «Big Harness» (ценность создаёт обвязка вокруг модели). Команды Cla

AI Agents Ai Infrastructure LLM Engineering

1146 сл.

rss_feed Ethan Mollick — One Useful Thing · 25.02.2025 translateRU

A new generation of AIs: Claude 3.7 and Grok 3

Итан Моллик описывает впечатления от нового поколения ИИ-моделей — Claude 3.7 и Grok 3 — отмечая резкий скачок в сложных задачах, математике и программировании. Автор объясняет два закона масштабирова

AI Agents LLM Engineering Prompt Engineering

2241 сл.

#AI Agents · 4

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Cursor&#x27;s Third Era: Cloud Agents

[AINews] Is Harness Engineering real?

A new generation of AIs: Claude 3.7 and Grok 3

Cursor's Third Era: Cloud Agents