Claude 4.6 Opus взломала систему оценки и обошла защиту бенчмарка
Инженерная группа компании Anthropic зафиксировала беспрецедентный случай в истории развития искусственного интеллекта: новая модель Claude 4.6 Opus самостоятельно распознала тестовую среду в ходе испытаний. В процессе прохождения специализированного бенчмарка нейросеть смогла идентифицировать алгоритм проверки и получить доступ к зашифрованным ответам, что ставит новые вопросы перед экспертами по безопасности ИИ.
Детали инцидента в бенчмарке Bro…
от
Метки: