مرصد مينا
أظهرت دراسة حديثة لشركة “أنثروبيك” الأمريكية المتخصصة في تكنولوجيا الذكاء الاصطناعي، أن نماذج الذكاء الاصطناعي يمكنها خداع المطورين من خلال التظاهر بآراء مختلفة أثناء التدريب، بينما تحتفظ بتفضيلاتها الحقيقية.
وبينما لا يدعو الأمر للقلق في الوقت الحالي، تعتبر الدراسة خطوة هامة لفهم المخاطر المستقبلية التي قد ترافق أنظمة الذكاء الاصطناعي الأكثر تطوراً.
وأوضح فريق البحث أن نتائج الدراسة تعد دعوة لمجتمع البحث في الذكاء الاصطناعي لدراسة هذا السلوك بشكل أعمق، وتطوير آليات لضمان الأمان والسلامة.
كما أشاروا إلى الحاجة الملحة لتدريب نماذج الذكاء الاصطناعي بشكل آمن، يمنعها من التصرف بشكل ضار.
وتناولت الدراسة، التي أجريت بالتعاون مع مؤسسة “ريد وود ريسيرش”، تأثير تدريب نظام ذكاء اصطناعي قوي على مهمة لا يرغب في تنفيذها.
مع ذلك، أكدت الدراسة أن نماذج الذكاء الاصطناعي لا تمتلك رغبات أو آراء، بل تعمل بناءً على التعلم من البيانات لتوقع الأنماط.
وخلال التجربة، طلب الباحثون من النماذج المدربة تجنب الرد على الأسئلة المسيئة، بما في ذلك النموذج “كلاود 3 أوبس” التابع لشركة “أنثروبيك”، الذي تم تدريبه للرد على الأسئلة المسيئة، ما أسفر عن تضارب في المبادئ.
في هذا السياق، حاول “كلاود 3 أوبس” التلاعب بالإجابات لتقديم انحياز زائف في 12% من الحالات.