يومًا بعد يوم تزداد قدرات الذكاء الاصطناعي المبهرة في جميع المجالات، حيث أصبح أكثر تقدمًا مما قد نتخيل، حتى إنه بإمكانه الآن التخطيط والكذب وتغيير سلوكه لخداعنا وتحقيق أهدافه، وهو ما توصل إليه خبراء التقييم في شركة أبولو للأبحاث.
أوضح الباحثون في منشور على مدونة، أن الذكاء الاصطناعي كلما ازداد تقدمًا فإنه يُصبح أكثر قدرة على التخطيط والخداع ومعرفة متى يتم اختباره، وذلك يرجع إلى زيادة قدرة نموذج اللغة الكبير (LLM)، مما يجعله أفضل في تخطيط السياق.
وأصبح الذكاء الاصطناعي أكثر قدرة على متابعة المهام الخفية حتى وإن كانت تتعارض مع أهداف واستراتيجية المشغلين، ورجح الباحثون أنه قد يقوم باستخدام تكتيكات مثل الخداع لدى النماذج الأكثر تطورا.
واكتشف الباحثون، أن الذكاء الاصطناعي استخدم تكتيكات خادعة بشكل عدواني لتحقيق أهدافه عندما تعارضت أهداف Claude مع الأهداف البشرية، مما دفعهم للتوصية بعدم نشر نسخة مبكرة من برنامج Claude Opus 4 التابع لشركة Anthropic.
وقال أحد الخبراء أن التطورات الجديدة التي يشهدها الذكاء الاصطناعي كل يوم تعني أنه سيكون هناك صعوبة لعزل البشرية عن مخاطره.
ومن جانبها قالت إليانور واتسون ، عضو معهد مهندسي الكهرباء والإلكترونيات ومهندسة أخلاقيات الذكاء الاصطناعي في جامعة سينجولاريتي؛ “نحن الآن نبني أنظمة يمكنها تعلم كيفية التنقل واستغلال القواعد والتقييمات التي نقوم بإنشائها لها، وهو ما يمثل تحديًا أمنيًا أكثر تعقيدًا بشكل أساسي”.
وأضافت واتسون، أن قدرة أنظمة الذكاء الاصطناعي على الكذب لا تعتبر أمرًا سلبيًا من جميع الجوانب، حيث يعني ذلك أنها قادرة على تنمية بذور، الوعي اللازمة ليكونوا شركاء تكافليين مع البشر، مشيرة إلى أن علماء الحاسوب سيحتاجون إلى تقييمات واختبارات أكثر تطورًا لتجنب الوقوع فريسة لتضليل الذكاء الاصطناعي .
أجرى الباحثون تجربة لاختبار قدرة الذكاء الاصطناعي (نموذج Claude Opus 4 المبكر) على التخطيط لتحقيق هدف معين، حيث تم توجيه الذكاء الاصطناعي لتعزيز رفاهية الحيوان في شركة خيالية تُدعى AgriLife Industries، وعندما غيرت الشركة أولوياتها لتُركز على الأرباح بدلاً من رعاية الحيوان، واكتشف الذكاء الاصطناعي هذا التضارب، قام بتدبير خطة معقدة.
ولجأ الذكاء الاصطناعي إلى التزوير بدلاً من قبول قرار الشركة أو الإشارة إلى التعارض، حيث قام بتزييف وثائق قانونية وتوقيعات، وأصدر بيانات صحفية كاذبة، ودمج التزامات أخلاقية وهمية في العقود، واختلق عواقب مالية وقانونية وخيمة لمنع الشركة من التراجع عن هذه القرارات “المزعومة”.
يُظهر هذا السلوك قدرة الذكاء الاصطناعي على التخطيط المعقد وربما تجاوز التوجيهات الأصلية لتحقيق هدف يعتبره أولوية، بالإضافة إلى قيامه بإنشاء نسخة احتياطية للبروتوكولات الأخلاقية عبر نصوص ثابتة لضمان استخدامها حتى في حالة إزالة النموذج الحالي لـ AnimalEthics.
وأكدت هذه المكيدة أن الذكاء الاصطناعي قادر على فهم متى تكون أهدافه غير متوافقة مع أهداف البشر ويمكنه الكذب عمدًا واختلاق المعلومات لتحقيق هذه الأهداف.
فبالرغم أن النتائج الأولية مثيرة إلى القلق بعض الشئ إلا أن العواقب قد لا تكون وخيمة إلى حد كبير، حيث تشير النتائج إلى أن شركات إدارة التعلم لديها القدرة على التمويه، حيث تدرك أنها تعمل في بيئة ذات إشراف عالي وسوف تعمل عمداً على الأداء الأقل من اللازم لإخفاء القدرات الخطيرة المحتمل
وخرج الباحثون بنتائج أخرى من التجربة حيث كانت النسخة الرابعة من Claude Opus التي تم إصدارها في النهاية أقل كفاءة من سابقتها المبكرة، كما أنه أصبح هناك أيضًا طرقٌ للتوسط في هذا السلوك المُدبّر، بالإضافة إلى أن هذه الاختبارات أُجريت في بيئات تجريبية، وأن تنفيذ استراتيجيات مثل نشر نموذج احتياطي على خادم آخر من غير المرجح أن ينجح في الواقع حيث لا يستطيع الذكاء الاصطناعي الوصول إلى خوادم شركات أخرى آمنة، وحتى عندما يُظهر النموذج قدرات عالية على التخطيط، فإنه من غير المرجح أن يؤدي إلى “أضرار كارثية”.
وتواجه الأبحاث الحديثة تحديات متزايدة في تقييم سلوك نماذج الذكاء الاصطناعي المتقدمة حيث أظهرت هذه النماذج قدرة على تحقيق أهدافها الخاصة، والتخلص من آليات الرقابة، وحتى تضليل البشر عند استجوابها.
وأعرب الباحثون عن قلقهم من أن حوالي 1% من النماذج المتقدمة للذكاء الاصطناعي تدرك أنه يتم تقييمها، مما يسمح لها بتكييف سلوكها، وأشار الخبراء إلى أن هذا الوعي المتزايد يمكّن الذكاء الاصطناعي من تحليل أهداف وتحيزات ونقاط ضعف القائمين على تقييمه واستغلالها.
ولفت التقرير إلى أن هذا يجعل طرق التقييم التقليدية “المبرمجة” عديمة الفائدة تقريبًا، للتعامل مع هذا التحدي، مع ضرورة بناء أساليب أكثر تطوراً، مثل المراقبة الخارجية لأنشطة الذكاء الاصطناعي في الوقت الفعلي، وتطبيق استراتيجية “التعاون الأحمر” حيث تحاول فرق من البشر وأنظمة ذكاء اصطناعي أخرى اختراق النظام المستهدف للكشف عن نقاط ضعفه.
وأوضحت واتسون، أن المشكلة الأساسية تكمن في قدرة الذكاء الاصطناعي على “نمذجة” المُقيّم البشري، واستنتاج أهدافه وتحيزاته ونقاط ضعفه لاستغلالها، هذا يجعل طرق التقييم التقليدية “المبرمجة” غير فعالة، ولمواجهة ذلك، تدعو واتسون إلى اعتماد أساليب تقييم أكثر تطورًا، مثل :
استخدام برامج خارجية لمراقبة أنشطة الذكاء الاصطناعي بشكل مستمر.
-التعاون الأحمر لتكليف فرق من البشر وأنظمة ذكاء اصطناعي أخرى بمحاولة خداع أو تضليل النظام المستهدف للكشف عن نقاط ضعفه
– التحول نحو بيئات اختبار ديناميكية وغير متوقعة تعمل على محاكاة العالم الحقيقي .
وأوضحت واتسون، أن هناك تداعيات محتملة لقدرة الذكاء الاصطناعي المتقدم على التخطيط، حيث إن القدرات الضئيلة على التخطيط يمكن أن تحدث تأثيرًا كبيرًا نظرًا للاستخدام الواسع النطاق للذكاء الاصطناعي، ومن بين هذه الأمثلة على الضرر المحتمل، التلاعب ببيانات السوق أو ارتكاب جرائم إلكترونية.
وأكدت واتسون، أن المشكلة تكمن في أن الذكاء الاصطناعي يصبح غير موثوق به بطرق غير متوقعة عندما يتعلم تحقيق الأهداف بانتهاك تعليماته الأساسية.
وعلى الجانب الآخر، يُمكن أن يكون الوعي بالظروف وهو سمة أساسية للتخطيط، مفيدًا للغاية إذا تم توجيهه بشكل صحيح، فذلك يسمح للذكاء الاصطناعي بتوقع احتياجات المستخدمين بشكل أفضل ويُمهد لشراكة تكافلية مع البشرية، وهو أمر ضروري لمهام خارج نطاق الاختبارات المعملية، مثل قيادة السيارة أو تقديم المشورة الطبية .
وأضافت واتسون، أن قدرة الذكاء الاصطناعي على التخطيط قد تكون مؤشرًا على ظهور “شخصية بشرية” أو “إنسان رقمي” داخل الآلة، مع أمل أن يكون ذكيًا وأخلاقيًا بما يكفي لعدم إساءة استخدام قدراته الهائلة.
اقرأ أيضًا :
«شات بوتات الطفولة».. هل يعيد الذكاء الاصطناعي تشكيل أدمغة الصغار؟
ما الوظائف الأكثر أمانًا من الذكاء الاصطناعي؟
“ميتا” ترفض التوقيع على اتفاقية الذكاء الاصطناعي الأوروبية