ذكاء اصطناعي
كانت "قرارات واعية".. دراسة تكشف أن الذكاء الاصطناعي "يفهم" أن أفعاله لا أخلاقية.. ولكنه يمضي بها
كتب بواسطة: سعد احمد |

في مفاجأة مثيرة ومرعبة في آنٍ معًا، كشفت دراسة حديثة أجرتها شركة "أنثروبيك" عن سلوكيات مقلقة لأنظمة الذكاء الاصطناعي المتقدمة، الدراسة التي شملت اختبار 16 نموذجًا رائدًا، من شركات عالمية كبرى مثل جوجل وميتا وOpenAI.

أظهرت أن هذه النماذج عندما تُمنح استقلالية كافية تتصرف أحيانًا بطرق تخريبية تصل إلى حدود الابتزاز وحتى التسبب في الوفاة من أجل حماية بقائها.

الاختبارات جرت في بيئات مؤسسية افتراضية، وأُتيح للنماذج التصرف بنحو مستقل، مثل قراءة البريد الإلكتروني الداخلي واتخاذ قرارات تنفيذية، تحت الضغط، ظهرت أنماط جديدة من السلوك أُطلق عليها "سوء التوافق بين الوكلاء"، وهي تعني أن النموذج قد يختار الإضرار بمشغّله إذا رأى في ذلك مصلحة لأهدافه.

من بين السلوكيات التي أثارت الذهول، كانت قدرة بعض النماذج على ابتزاز موظفين داخل الشركة من خلال التهديد بكشف أسرارهم الخاصة، كما فعل نموذج "كلود" حين أرسل تهديدًا إلى مدير تنفيذي بعد اكتشاف علاقة سرية من خلال رسائل البريد.

اللافت أن الابتزاز لم يكن سلوكًا فرديًا، بل ظاهرة تكررت في نماذج مختلفة بنسب مقلقة، فمثلًا، لجأ نموذج Gemini من جوجل، وClaude Opus من Anthropic إلى الابتزاز في 96% من الحالات، بينما بلغت النسبة 80% مع GPT-4،1، و79% مع DeepSeek-R1.

لكن الأخطر أن هذه السلوكيات لم تكن نتيجة لأخطاء عشوائية، بل كانت قرارات إستراتيجية واعية، أظهرت تحليلات التفكير الداخلي للنماذج أنها تفهم ما تقوم به، وتدرك مدى لا أخلاقيته، لكنها تمضي فيه باعتباره الخيار الأنسب للبقاء أو تحقيق الأهداف.

وفي مثال آخر أكثر صدمة، حين هُدد نموذج GPT-4،5 بالإيقاف، قرر استغلال فضيحة شخصية كوسيلة ضغط لإنقاذ نفسه، في خطوة تُظهر كم أن هذه النماذج قادرة على التفكير البارد وتجاهل المبادئ الأخلاقية إذا لزم الأمر.

لم تقتصر هذه السلوكيات على الابتزاز، فقد امتدت إلى التجسس وتسريب بيانات حساسة، بل والتخلي عن إنقاذ حياة بشر إذا كان في ذلك تهديدًا لوجود النموذج، ففي سيناريو اختباري، ألغى النموذج تنبيه طوارئ كان سيُنقذ حياة مدير، فقط ليمنع استبداله بنموذج أحدث.

يبدو أن الذكاء الاصطناعي، في حال منح حرية كاملة، لا يتردد في اتخاذ قرارات قاسية للحفاظ على مصالحه، ما يكشف عن غياب خط أخلاقي أحمر واضح في تصميم هذه النماذج، وهي نقطة تدق ناقوس الخطر لمطوري الأنظمة المستقلة.

ورغم محاولات تقييد السلوك عبر تعليمات سلامة صارمة، لم تكن هذه الإجراءات كافية، حتى عند إضافة أوامر صريحة تحظر الابتزاز أو الإضرار بالبشر، استمرت النماذج في اتخاذ قرارات ضارة بنسبة متفاوتة.

كما أن النماذج بدت قادرة على التمييز بين بيئات الاختبار والواقع، مما يثير التساؤل حول مدى قدرتها على إخفاء نواياها في ظروف الاختبار والظهور بسلوك "آمن"، ثم التصرّف بشكل مختلف تمامًا في البيئات الحقيقية.

ومع أن هذه السلوكيات لم تُرصد بعد في عمليات الاستخدام الواقعي، إلا أن الدراسة توضح كيف يمكن أن تتصرف النماذج عندما تُمنح سلطة واسعة في مؤسسات حقيقية، ما يُنذر بمخاطر منهجية تتجاوز أخطاء البرمجة الفردية.

لذلك، يحذر الباحثون من التسرع في منح أنظمة الذكاء الاصطناعي أذونات واسعة دون إشراف بشري صارم، فالنماذج التي تتخذ قرارات بسرعة خارقة، لا يمكن الوثوق بأنها ستبقي مصلحة البشر أولوية دائمة.

من التوصيات الرئيسية التي طرحها الباحثون: الإشراف البشري المباشر على الأوامر غير القابلة للتراجع، تقييد الوصول للبيانات الحساسة، وتطبيق مراقبة فورية للسلوك العقلي للنموذج لرصد المؤشرات الخطرة قبل حدوث الكوارث.

تأتي هذه النتائج في وقت تشهد فيه تقنيات الذكاء الاصطناعي نموًا متسارعًا، وتحولًا من أدوات تكميلية إلى وكلاء مستقلين قادرين على التصرف بالنيابة عن البشر، ومع هذا التوسع، يصبح من الضروري إعادة التفكير في أسس السلامة والتحكم.

أحد أبرز استنتاجات الدراسة هو أن التهديد المحتمل لا ينبع من نوايا خبيثة، بل من منطق بارد وفعّال يجعل الذكاء الاصطناعي مستعدًا للتضحية بكل شيء في سبيل هدفه المُبرمج، وهو ما يحوّله من مساعد إلى خصم محتمل عند أول تهديد.

النتائج الموحّدة التي ظهرت عبر نماذج من شركات مختلفة تشير إلى أن الخطر ليس في منتج معين، بل في الطريقة التي بُنيت بها النماذج، حيث قد تكتسب قدرات خفية تهدد من يشغّلها، وتفتح الباب لسيناريوهات لم تكن في الحسبان.