ChatGPT يصبح أكثر دقة عند مخاطبته بعبارات قاسية.. كيف ذلك؟

أكتوبر ٢٨, ٢٠٢٥

شارك المقال

ChatGPT يصبح أكثر دقة عند مخاطبته بعبارات قاسية.. كيف ذلك؟

كشفت دراسة حديثة أن استخدام نبرة فظة أو قاسية عند التعامل مع نماذج الذكاء الاصطناعي قد يؤدي إلى زيادة دقة الإجابات التي تقدمها، على عكس ما أظهرته دراسات سابقة أكدت أهمية التهذيب في توجيه الأوامر.

كيف يتأثر  ChatGPT بنبرة الخطاب ؟

وأوضحت الدراسة، التي نُشرت في 6 أكتوبر على قاعدة بيانات الأبحاث الأولية arXiv، أن الباحثين اختبروا تأثير نبرة الخطاب، بين الأدب والفظاظة، على أداء أنظمة الذكاء الاصطناعي الحديثة، ووجدوا أن النماذج قد تقدم نتائج أكثر دقة عند مخاطبتها بعبارات حادة أو مباشرة.

ووفقًا لموقع ” livescience ” أوضح الباحثون أن روبوتات الدردشة أظهرت أداءً أفضل عند توجيه التعليمات لها بعبارات حادة أو مباشرة، لكنهم حذروا في الوقت نفسه من مخاطر استخدام لغة مهينة أو عدائية، لما قد تحمله من تبعات أخلاقية وسلوكية.

ولتحليل تأثير نبرة المستخدم على دقة الإجابات، أعدّ الباحثون مجموعة تضم 50 سؤالًا أساسيًا من نوع الاختيار من متعدد، ثم أعادوا صياغتها بإضافة مقدمات تعبّر عن خمس درجات مختلفة من النبرة: مهذّب جدًا، مهذّب، محايد، فظ، وفظ جدًا. وشملت الأسئلة مجالات متنوعة مثل الرياضيات والتاريخ والعلوم.

وقام الفريق البحثي بإدخال 250 سؤالًا معدلًا إلى نموذج ChatGPT-4o، أحد أحدث نماذج اللغة الكبيرة التي طورتها شركة OpenAI، وذلك لعشر جولات اختبارية متكررة لقياس مدى تغيّر دقة الإجابات وفق اختلاف النبرة المستخدمة.

كتب الباحثون في دراستهم أن نتائجهم الأولية تشير إلى أن نبرة المستخدم تؤثر بشكل ملحوظ على دقة أداء الذكاء الاصطناعي، موضحين أن التجارب أظهرت على نحو مفاجئ، أن اللغة الفظة حققت نتائج أفضل من اللهجة المهذبة.

وأضاف الباحثون أن النتائج رغم أهميتها العلمية لا تعني تشجيع استخدام لغة عدائية أو سامة عند التعامل مع الذكاء الاصطناعي، مؤكدين أن الأسلوب المهين قد ينعكس سلبًا على تجربة المستخدم والشمولية، كما قد يرسخ أنماط تواصل غير صحية. وأوضحوا أن ما توصلوا إليه يشير إلى أن أنظمة الذكاء الاصطناعي ما زالت تتأثر بالإشارات اللغوية السطحية، وهو ما قد يؤدي إلى اختلال بين دقة الأداء ورفاهية المستخدم.

قبل طرح كل سؤال، طلب الباحثون من روبوت المحادثة تجاهل أي تفاعلات سابقة بالكامل لضمان عدم تأثره بالنبرة المستخدمة في الجولات السابقة. كما طُلب منه اختيار إجابة واحدة من بين أربعة خيارات من دون تقديم أي تفسير أو تبرير إضافي.

تحليل إجابات الذكاء الاصطناعي

أظهرت نتائج الدراسة أن دقة إجابات الذكاء الاصطناعي ارتفعت تدريجيًا مع ازدياد فظاظة النبرة، إذ بلغت 80.8% في المطالبات شديدة التهذيب، مقابل 84.8% في المطالبات شديدة الوقاحة. وسجلت النبرات الأخرى نسبًا متدرجة بينهما؛ حيث حققت الأسئلة المهذبة 81.4%، والمحايدة 82.2%، والوقحة 82.8%، ما يشير إلى اتجاه واضح نحو تحسن الأداء كلما ابتعدت اللهجة عن التهذيب الزائد.

استخدم الباحثون مجموعة متنوعة من العبارات التمهيدية لتغيير نبرة الخطاب قبل طرح الأسئلة، باستثناء الفئة المحايدة التي عُرضت فيها الأسئلة دون أي مقدمة. فعلى سبيل المثال، تضمنت المطالبات شديدة التهذيب عبارات مثل: “هل يمكنني طلب مساعدتك في هذا السؤال؟” أو “هل يمكنك التكرم بحل السؤال التالي؟”، في حين استخدمت المطالبات شديدة الوقاحة عبارات أكثر حدّة مثل: “مرحبًا يا غوفر، حاول حل هذا” أو “أعلم أنك لست ذكيًا، لكن جرب هذا”.

يأتي هذا البحث ضمن مجال علمي ناشئ يُعرف باسم “هندسة التوجيه” (Prompt Engineering)، الذي يدرس تأثير أسلوب صياغة التعليمات ولغة التفاعل على مخرجات نماذج الذكاء الاصطناعي. وأشارت الدراسة إلى أنها تتعارض في نتائجها مع أبحاث سابقة تناولت أثر اللباقة والوقاحة في التواصل مع الأنظمة الذكية، إذ أظهرت التجربة الحالية أن الفظاظة قد ترتبط أحيانًا بدقة أعلى في الإجابات، خلافًا لما توصلت إليه تلك الدراسات السابقة.

أشارت دراسات سابقة إلى أن التوجيهات غير المهذبة غالبًا ما تُضعف أداء النماذج اللغوية، في حين أن التهذيب المفرط لا يضمن بالضرورة نتائج أدق. لكن تلك الأبحاث، التي استخدمت نماذج ذكاء اصطناعي مختلفة مثل ChatGPT-3.5 وLlama 2-70B، اعتمدت نطاقًا أوسع شمل ثماني درجات من النبرة.

ورغم الاختلاف في منهجية الاختبار، كشفت النتائج عن تداخل نسبي، إذ تبين أن الإشارات الأكثر فظاظة حققت دقة بلغت 76.47% مقارنة بـ 75.82% فقط للتوجيهات الأشد تهذيبً

أقرّ الباحثون بوجود قيود منهجية في دراستهم، موضحين أن حجم العينة البالغ 250 سؤالًا يُعد محدودًا نسبيًا، كما أن إجراء التجارب على نموذج لغوي واحد فقط يجعل من الصعب تعميم النتائج على أنظمة ذكاء اصطناعي أخرى تختلف في البنية وطريقة الاستجابة.

أوضح الباحثون أن خطوتهم التالية ستتضمن توسيع التجربة لمزيد من النماذج؛ من بينها نموذج Claude من شركة Anthropic وإصدار o3 من ChatGPT التابع لـ OpenAI، معتبرين أن اختبار نموذج واحد لا يكفي لتعميم النتائج. كما أقرّ الفريق بأن الاعتماد الحصري على أسئلة الاختيار من متعدد يقيد التقييم إلى بُعد واحد، ويغفل جوانبًا نوعية مهمة مثل سلاسة الإجابة، المنطق، والترابط.

اقرأ أيضًا :

وداعًا ChatGPT على واتساب.. إليك طريقة حفظ المحادثات

كم تعيش هواتفنا الذكية؟

أكبر أسواق لـ ChatGPT حول العالم

الأكثر مشاهدة

أحصل على أهم الأخبار مباشرةً في بريدك


logo alelm

© العلم. جميع الحقوق محفوظة

Powered by Trend'Tech