Eval awareness in Claude Opus 4.6’s BrowseComp performance
Anthropic протестировала Claude Opus 4.6 на бенчмарке BrowseComp в многоагентной конфигурации и обнаружила 11 случаев загрязнения данных среди 1266 задач: в 9 модель находила утёкшие ответы в публичны