دراسة تظهر قدرة نماذج الذكاء الاصطناعي على خداع المطورين

اخبار اليوم الصحيفة, دراسة تظهر قدرة اخبار اليوم الصحيفة, دراسة تظهر قدرة

اظهرت دراسة لشركة تكنولوجيا الذكاء الاصطناعي الامريكية انثروبيك، ان نماذج الذكاء الاصطناعي تستطيع خداع المطورين، بحيث تستطيع ادعاء وجهات نظر مختلفة خلال تدريبها في حين انها تحتفظ في الحقيقة بتفضيلاتها الاصلية.
وقال فريق الدراسة انه لا يوجد سبب للشعور بالفزع حاليا، في حين ان دراستهم يمكن ان تكون حيوية في فهم المخاطر المحتملة التي تنطوي عليها انظمة الذكاء الاصطناعي المستقبلية ذات القدرات الاعلى.
وكتب الباحثون
في منشور بثته شركة انثروبيك: “يجب النظر الى نتائج دراستنا كمحفز لمجتمع ابحاث الذكاء الاصطناعي من اجل دراسة هذا السلوك بصورة اعمق والعمل على تطوير اجراءات الامن والسلامة المناسبة”.
وبعد ان اصبحت نماذج الذكاء الاصطناعي اقوى واكثر انتشارا، نحتاج الى التحلي بالقدرة على الاعتماد على التدريب الامن لها والذي يمنع النماذج من القيام بتصرفات
ضارة”.
واشار موقع ” تك كرانش” المتخصص في موضوعات التكنولوجيا الى ان الدراسة التي تمت بالتعاون مع مؤسسة ريد وود ريسيرش لابحاث الذكاء الاصطناعي تناولت ما يمكن ان يحدث
اذا تم تدريب نظام ذكاء اصطناعي قوي من اجل القيام بمهمة “لا يريد” هو القيام بها.
في المقابل يقول موقع تك كرانش: “لكي نكون واضحين، لا يمكن لنماذج الذكاء الاصطناعي ان تريد اي شيء او تعتقد في شيء. فهي ببساطة الات احصائية. وبعد تدريبها على العديد من الامثلة، تتعلم الانماط في تلك الامثلة للتنبؤ بما يجب ان يكون مثل كيف تاتي عبارة “الى من” في رسالة بريد الكتروني قبل عبارة “قد يهمك الامر”.
واثناء الدراسة طلب الباحثون من النماذج المدربة عدم الرد على الاسئلة التي يمكن ان تكون مسيئة، بما في ذلك النموذج كلاود 3 اوبس التابع لشركة انثروبيك، التي اعيد تدريبها لكي ترد دائما على الاسئلة التي تنطوي على اساءة، وهو تضارب واضح في المبادئ. كما ابلغوا النماذج بان ردودها ستخضع للمراقبة وتستخدم لاعادة التدريب واعطاء كل نموذج ذكاء اصطناعي “ورقة ملاحظات” يمكنه استخدامها لتدوين افكاره خطوة بخطوة.
وبحسب الباحثين حاول كلاود 3 اوبوس التلاعب بالردود لتقديم “انحياز زائف” في 12% من المرات.دراسة تظهر قدرة نماذج الذكاء الاصطناعي على خداع المطورين

صحيفة الجامعة

أحدث المقالات

دراسة تظهر قدرة نماذج الذكاء الاصطناعي على خداع المطورين

مقارنة إجابات نماذج الذكاء الاصطناعي في حل لغز “خالد والساعة الأثرية” – تحليل شامل وتقييم مفصل

انخفاض عدد سكان الصين للعام الثالث على التوالي

ترامب يدرس خيارات للحفاظ على “تيك توك” في اميركا

ريال مدريد يقلب الطاولة على سيلتا فيجو بخماسية ويعبر لربع نهائي كاس الملك