newsmode
search
Меню
Категории
Теги (топ-30)
Источники
Прогресс перевода 190/2283 · 8%

#Ai Safety · 8

rss_feed Simon Willison translateRU

GDS weighs in on the NHS's decision to retreat from Open Source

Саймон Уиллисон комментирует свежий пост Терренса Идена о том, как Government Digital Service (GDS) включилась в спор вокруг решения NHS закрыть доступ к своим открытым репозиториям. Закрытие стало ре

Ai Policy Ai Safety Open Source
269 сл.
rss_feed Voiceflow Blog translateRU

What’s BLOOM and Why Is It Democratizing AI?

BLOOM — это большая языковая модель со 176 миллиардами параметров, созданная более чем 1000 исследователей по всему миру под эгидой проекта BigScience и Hugging Face. В отличие от моделей OpenAI и Goo

Ai Safety Frontier Models Open Source
826 сл.
rss_feed Voiceflow Blog translateRU

Why Blackbox AI Matters to Businesses Today [2025]

Статья объясняет феномен «чёрного ящика» в искусственном интеллекте: системы вроде ChatGPT, Gemini, Claude, Perplexity и LLaMA выдают результаты, но логика их решений непрозрачна даже для создателей.

Ai Safety Enterprise Ai No Code Chatbots
842 сл.
rss_feed Anthropic News translateRU

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Anthropic протестировала Claude Opus 4.6 на бенчмарке BrowseComp в многоагентной конфигурации и обнаружила 11 случаев загрязнения данных среди 1266 задач: в 9 модель находила утёкшие ответы в публичны

AI Agents Ai Safety LLM Evals
2065 сл.
rss_feed Anthropic News translateRU

Introducing The Anthropic Institute

Anthropic запускает The Anthropic Institute — новое подразделение для изучения вызовов, которые мощный ИИ создаёт для общества, экономики и правовой системы. Институт возглавит сооснователь Jack Clark

Ai Policy Ai Safety Frontier Models
939 сл.
rss_feed Anthropic News translateRU

Mapping the Mind of a Large Language Model

Anthropic сообщает о значительном прогрессе в понимании внутренней работы LLM: исследователи извлекли миллионы признаков (features) из среднего слоя Claude 3.0 Sonnet, получив первую детальную карту к

Ai Safety LLM Engineering Mechanistic Interpretability
1839 сл.
rss_feed Anthropic News translateRU

Responsible Scaling Policy Version 3.0

Anthropic выпускает третью версию своей Responsible Scaling Policy (RSP) — добровольной системы для снижения катастрофических рисков от ИИ. За два с половиной года политика помогла создать более строг

Ai Policy Ai Safety Frontier Models
2386 сл.
rss_feed Latent Space translateRU

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

OpenAI официально прекращает использовать SWE-Bench Verified как ключевой бенчмарк для оценки кодинг-агентов. Mia Glaese (VP of Research) и Olivia Watkins из команды Frontier Evals объясняют решение:

Ai Safety Frontier Models LLM Evals
6238 сл.