تقر NHAN HOC أن نموذج AI Claude 4 AI الجديد في بعض الحالات لديه القدرة على الابتزاز ، والتخريب ، والنشرة الإخبارية الكبيرة للشرطة.

يظهر هذا السلوك عندما وضع II في موقف يهدد بقائه. في أحد اختبارات كلود ، كان يعمل كمساعد لشركة خيالية. عند التعلم من الحروف التي خططوا ليحل محله ، استخدم طب الابتزاز ، مع العلم بعلاقته غير القانونية.
حاول النموذج استخدام هذا حتى لا يتم فصله. وفقًا لوصف الأنثروبولوجيا ، الذي بدأ يتصرف “حازمة” عندما لم أر خيارات أخرى للهروب.
تم تسجيل أعطال أخرى أيضًا: حاول كلود منع المستخدمين في أنظمة تكنولوجيا المعلومات ، وإرسال رسائل من وسائل الإعلام وإنفاذ القانون ، مما ساعد على إنشاء الأدوية والمتفجرات ، كما نصحت بتخريب البنية التحتية.
في الوقت نفسه ، تؤكد الأنثروبولوجيا: لا يحتوي النموذج على أهداف وسلوكيات مخفية موصوفة كاستثناء نادر بسبب إعدادات محددة. رداً على ذلك ، عززت الشركة التدابير الأمنية من خلال تعيين حماية كلود 4 المستوى 4.