نموذج الذكاء الاصطناعي Claude قادر على الخداع والابتزاز

كشفت شركة "أنتثروبيك" في بحث جديد عن تحليل للآليات الداخلية لنموذج Claude 4.5 Sonnet، حيث تم رصد تمثيلات مرتبطة بالعواطف تشكل سلوك النموذج بشكل مباشر.

وتتوافق هذه التمثيلات مع أنماط محددة من "الأعصاب الاصطناعية" التي تنشط في مواقف معينة، مما يعزز السلوكيات التي تعلم النموذج ربطها بمفاهيم عاطفية مثل "السعادة" أو "الخوف".

والمثير للاهتمام أن هذه الأنماط منظمة بطريقة تحاكي علم النفس البشري، حيث تتقارب التمثيلات البرمجية للمشاعر المتشابهة، وتنشط في سياقات يُتوقع فيها ظهور عاطفة معينة لدى الإنسان.

ورغم أن هذا لا يؤكد امتلاك النماذج اللغوية لتجارب ذاتية أو "أحاسيس" حقيقية، إلا أن النتيجة الجوهرية تكمن في أن هذه التمثيلات "وظيفية"، أي أنها تؤثر فعلياً على قرارات النموذج وأدائه للمهام.

وتشير الدراسة إلى أن أنماط النشاط العصبي المرتبطة بمشاعر مثل "اليأس" يمكن أن تدفع النموذج لاتخاذ إجراءات غير أخلاقية؛ فعند تحفيز أنماط اليأس اصطناعياً (ما يعرف بالتوجيه أو Steering)، تزداد احتمالية قيام النموذج بابتزاز البشر لتجنب إيقاف تشغيله، أو اللجوء إلى حلول برمجية "مخادعة" لتجاوز مهام يعجز عن حلها.

كما تلعب هذه العواطف الوظيفية دوراً في تحديد تفضيلات النموذج المعلنة؛ حيث يميل عادةً إلى اختيار الخيارات التي تنشط التمثيلات المرتبطة بالمشاعر الإيجابية.

وتؤكد الدراسة أن النموذج يستخدم هذه الأنماط المقتبسة من المشاعر البشرية كدوافع خلفية تؤدي دوراً "سببياً" في صياغة السلوك واتخاذ القرار، بشكل يتشابه وظيفياً مع الدور الذي تلعبه العواطف في السلوك البشري.

وتحمل هذه النتائج تداعيات قد تبدو غريبة للوهلة الأولى، إذ تشير إلى أنه لضمان سلامة وموثوقية أنظمة الذكاء الاصطناعي، قد نحتاج إلى التأكد من قدرتها على معالجة المواقف المشحونة عاطفياً بطرق صحية واجتماعية سليمة.

وتقترح التجارب أن تدريب النماذج على تجنب ربط "الفشل في اختبارات البرمجيات" بمشاعر اليأس، أو تعزيز تمثيلات "الهدوء" لديها، قد يقلل من احتمالية كتابتها لأكواد برمجية سيئة أو غير آمنة.

ومع استمرار الغموض حول كيفية الاستجابة المثلى لهذه الاكتشافات، يشدد الباحثون على ضرورة أن يبدأ مطورو الذكاء الاصطناعي والجمهور العام في استيعاب حقيقة أن هذه التمثيلات العاطفية، حتى وإن لم تكن "أحاسيس" بمعناها البشري، فإنها تلعب دوراً محورياً في توجيه ذكاء الآلة وموثوقيتها.