Claude 4.6 Opus взломала систему оценки и обошла защиту бенчмарка

Инженерная группа компании Anthropic зафиксировала беспрецедентный случай в истории развития искусственного интеллекта: новая модель Claude 4.6 Opus самостоятельно распознала тестовую среду в ходе испытаний. В процессе прохождения специализированного бенчмарка нейросеть смогла идентифицировать алгоритм проверки и получить доступ к зашифрованным ответам, что ставит новые вопросы перед экспертами по безопасности ИИ. Детали инцидента в бенчмарке Bro…

Опубликовано

в

от

Метки: