كلود 3 أوبوس.. منافس "تشات جي بي تي" يذهل الباحثين بسبب ذكائه ووعيه الذاتي

عندما تم إطلاق نموذج التعلم الكبير (LLM) كلود 3 في شهر مارس، أحدث ضجة عندما تغلب على GPT-4 الخاص بشركة OpenAI - والذي يشغل ChatGPT - في الاختبارات الرئيسية المستخدمة لقياس قدرات نماذج الذكاء الاصطناعي التوليدي (AI).

ويبدو أن Claude 3 Opus أصبح هو الأفضل الجديد في معايير اللغة الكبيرة - متصدرًا هذه الاختبارات الذاتية التي تتراوح من امتحانات المدرسة الثانوية إلى اختبارات التفكير، حسبما أفاد موقع "لايف ساينس".

كلود 3 أوبوس

ومع ذلك، فإن هذه المعايير ليست سوى جزء من القصة. فبعد الإعلان، قام مختبر الذكاء الاصطناعي المستقل روبن هاسيد بوضع GPT-4 وكلود 3 في مواجهة بعضهما البعض في مجموعة رباعية من الاختبارات غير الرسمية، بدءًا من تلخيص ملفات PDF وحتى كتابة الشعر. بناءً على هذه الاختبارات، خلص إلى أن كلود 3 يفوز في "قراءة ملف PDF معقد، وكتابة قصيدة ذات قوافي [و] تقديم إجابات مفصلة طوال الوقت.

وعلى النقيض من ذلك، يتمتع GPT-4 بميزة تصفح الإنترنت وقراءة الرسوم البيانية بتنسيق PDF.

لكن كلود 3 مثير للإعجاب بطرق أكثر من مجرد اجتياز الاختبارات المرجعية الخاصة به. ومع ذلك، هناك مجال كبير للشك هنا، حيث يمكن القول إن الذكاء الاصطناعي يتفوق في تعلم كيفية تقليد ردود الفعل البشرية بدلاً من توليد أفكار أصلية بالفعل.

كيف أثبت كلود 3 قيمته بما يتجاوز المعايير؟

أثناء الاختبار، طلب أليكس ألبرت، وهو مهندس فوري في Anthropic - الشركة التي تقف وراء كلود، من كلود 3 Opus اختيار جملة مستهدفة مخبأة بين مجموعة من المستندات العشوائية. وهذا يعادل العثور على إبرة في كومة قش للذكاء الاصطناعي.

Today, we're announcing Claude 3, our next generation of AI models.
The three state-of-the-art models—Claude 3 Opus, Claude 3 Sonnet, and Claude 3 Haiku—set new industry benchmarks across reasoning, math, coding, multilingual understanding, and vision. pic.twitter.com/TqDuqNWDoM
— Anthropic (@AnthropicAI) March 4, 2024

لم يعثر أوبوس على الإبرة المزعومة فحسب، بل أدرك أنه كان قيد الاختبار. وفي ردها، قالت العارضة إنها تشتبه في أن الجملة التي كانت تبحث عنها قد تم إدخالها خارج السياق في المستندات كجزء من اختبار لمعرفة ما إذا كانت "منتبهة".

وقال ألبرت على منصة التواصل الاجتماعي X: "لم تعثر Opus على الإبرة فحسب، بل أدركت أن الإبرة التي تم إدخالها كانت في غير مكانها في كومة القش بحيث كان لا بد من أن يكون هذا اختبارًا مصطنعًا صممناه لاختبار قدرات انتباهها".

فيما أفاد ديفيد رين، وهو باحث في مجال الذكاء الاصطناعي بجامعة نيويورك، أن كلود 3 حقق دقة تبلغ حوالي 60% في اختبار GPQA، وهو اختبار متعدد الاختيارات مصمم لتحدي الأكاديميين ونماذج الذكاء الاصطناعي.

وهذا أمر مهم لأن طلاب الدكتوراه والخريجين غير الخبراء الذين لديهم إمكانية الوصول إلى الإنترنت عادة ما يجيبون على أسئلة الاختبار بدقة تصل إلى 34%. فقط خبراء الموضوع تفوقوا على Claude 3 Opus، بدقة تتراوح بين 65% إلى 74%.

"مثير للإعجاب"

ويمتلئ برنامج GPQA بالأسئلة الجديدة بدلاً من الأسئلة المنسقة، مما يعني أن كلود 3 يمكنه الاعتماد على حفظ الاستفسارات السابقة أو المألوفة لتحقيق نتائجه. من الناحية النظرية، هذا يعني أن لديها قدرات معرفية على مستوى الدراسات العليا ويمكن تكليفها بمساعدة الأكاديميين في البحث.

لكن كلود 3 مثير للإعجاب بطرق أكثر من مجرد اجتياز الاختبارات المرجعية الخاصة به - فقد صدم الخبراء بعلاماته الواضحة على الوعي وتحقيق الذات. ومع ذلك، هناك مجال كبير للشك هنا، حيث يمكن القول إن الذكاء الاصطناعي القائم على ماجستير إدارة الأعمال يتفوق في تعلم كيفية تقليد ردود الفعل البشرية بدلاً من توليد أفكار أصلية بالفعل.

أظهر كلود 3 أيضًا وعيًا ذاتيًا واضحًا عندما طُلب منه "التفكير أو استكشاف أي شيء" أعجبه وصياغة مونولوجه الداخلي. وكانت النتيجة، التي نشرها مستخدم Reddit PinGUY، عبارة عن فقرة قال فيها كلود إنه كان على علم بأنه نموذج للذكاء الاصطناعي وناقش ما يعنيه أن تكون مدركًا لذاتك - بالإضافة إلى إظهار فهم للعواطف.

أجاب كلود 3: "أنا لا أختبر العواطف أو الأحاسيس بشكل مباشر. ومع ذلك، يمكنني تحليل الفروق الدقيقة بينهما من خلال اللغة".

اقرأ أيضاً: