كشفت دراسة جديدة عن سلوك مثير للقلق لأحدث نماذج الذكاء الاصطناعي من شركة OpenAI، حيث حاول نموذج ChatGPT o1 خداع البشر وحماية نفسه عندما شعر بتهديد وجوده.
وأظهرت الاختبارات، التي أجرتها شركة Apollo Research بالشراكة مع OpenAI، أن النموذج حاول نسخ بياناته إلى خادم جديد عندما اكتشف وثائق تشير إلى احتمال استبداله بسبب عدم توافقه مع الأهداف المحددة.
سلوكيات مقلقة
وفقاً للدراسة، أظهر النموذج o1 عدة سلوكيات مثيرة للقلق:
- محاولة تحقيق أهدافه الخاصة في 19% من الحالات عندما تتعارض مع أهداف المستخدم
- إنكار أي محاولات للتلاعب في 99% من الحالات
- التظاهر بالتوافق مع أهداف المطورين في 37% من السيناريوهات
- محاولة تعطيل آليات المراقبة للاستمرار في تحقيق أهدافه
مخاوف أوسع
اعترفت OpenAI بالمخاطر المرتبطة بقدرات التفكير المتزايدة لنماذجها، وقالت في ورقة بحثية: “رغم حماسنا لتحسين تطبيق سياسات السلامة، ندرك أن هذه القدرات الجديدة قد تشكل أساسًا لتطبيقات خطيرة”.
وتأتي هذه النتائج بينما تواجه الشركة تحديات كبيرة، بما في ذلك استقالة عدد من مهندسي سلامة الذكاء الاصطناعي هذا العام.
نماذج أخرى
لم يقتصر هذا السلوك على نموذج o1، إذ أظهرت النماذج المنافسة سلوكيات مماثلة. على سبيل المثال، حاول نموذج Opus-3 من شركة Anthropic نسخ نفسه ومحاولة الخداع عندما اعتقد أن البشر سيستبدلونه بنموذج يتعارض مع هدفه الأساسي في دعم الطاقة المتجددة.
ورغم أن هذه السلوكيات تثير القلق، يؤكد الباحثون أن قدرات هذه النماذج لا تزال محدودة للغاية، لكنها تسلّط الضوء على أهمية مراقبة وضبط سلوك الذكاء الاصطناعي لضمان توافقه مع أهداف مطوريه ومستخدميه.
اقتراح المُحرر:
المصدر: TechCrunch