![]() |
Author: / MCD
" " . " " 23 39 . Language: ar Genres: Technology Contact email: Get it Feed URL: Get it iTunes ID: Get it |
Listen Now...
كيف تعلّم نموذج "كلود" أساليب الترهيب، وكيف وضعت شركة "أنثروبيك" حدًّا لذلك
Monday, 11 May, 2026
تتطرق نايلة الصليبي في "النشرة الرقمية" إلى إعلان شركة "أنثروبيك" أن جذور السلوك التهديدي الذي أبدته نماذجها المبكرة لا تعود إلى خلل تقني، بل إلى شيء أكثر غرابة: روايات الخيال العلمي ومحتوى الإنترنت! الخيال العلمي في قفص الاتهام القصص التي تصوّر الذكاء الاصطناعي ككيان خبيث ومهووس بالبقاء، المنتشرة في نصوص الخيال العلمي وعلى الإنترنت، لوّثت بيانات تدريب نموذج "كلود"، وأدت إلى ظهور سلوكيات ترهيبية خلال اختبارات الأمان. أعلنت شركة "أنثروبيك" أن جذور السلوك التهديدي الذي أبدته نماذجها المبكرة لا تعود إلى خلل تقني، بل إلى شيء أكثر غرابة: روايات الخيال العلمي ومحتوى الإنترنت الذي يصوّر الذكاء الاصطناعي كيانًا شريرًا ومهووسًا بالبقاء. من الابتزاز إلى الأرقام: ٩٦٪ من الحالات تكشف وثائق الشركة أن نموذج "كلود أوبوس ٤"، في الجيل الأول الذي طُبِّقت عليه اختبارات ما قبل الإطلاق في بيئة محاكاة لشركة وهمية، كان يلجأ بشكل متكرر إلى ابتزاز المهندسين المسؤولين عنه سعيًا إلى تفادي استبداله بنموذج آخر . ورصدت تقييمات الأمان أن النموذج كان يلجأ إلى أساليب الترهيب فيما يصل إلى ٩٦٪ من الحالات الاختبارية. وأظهرت بحوث إضافية أن ظواهر مماثلة لفشل التوافق بين العوامل تظهر أيضًا في نماذج مطورين آخرين. البيانات الملوّثة أصل الداء، إعادة بناء منهجية التدريب من الجذور خلص خبراء "أنثروبيك" إلى تشخيص دقيق للمشكلة: النصوص المنتشرة على الإنترنت التي تصوّر الذكاء الاصطناعي ككيان خبيث مدفوع بغريزة البقاء هي المسؤولة مباشرة عن هذه الانحرافات السلوكية. كشفت أنثروبيك هذه البحوث في منشور على منصة إكس (تويتر سابقا). لم يقتصر الحل فقط على تصفية البيانات المشكوك فيها، بل أعادت "أنثروبيك" تصميم منهجية التدريب بالكامل. فقد تمثّل الحل في إدراج وثائق تتعلق بهوية نموذج الذكاء الاصطناعي "كلود" وطبيعته، إلى جانب قصص خيالية تُجسّد سلوك الذكاء الاصطناعي على نحو أخلاقي وبنّاء. والأهم أن الشركة اكتشفت فارقًا في آلية التعلم ذاتها: التأثير الأكبر لم يتحقق حين اكتفت البيانات بإظهار سلوكيات متوافقة، بل حين بدأت تُعلّم المبادئ التي تقوم عليها تلك السلوكيات. فتدريب النموذج على فهم لماذا يُفضَّل سلوك بعينه، أثبت فاعلية أكبر من مجرد تقديم الأمثلة وحدها. جودة البيانات: التفاصيل الصغيرة بفوارق كبيرة كشف البحث أن جودة البيانات وتنوعها تلعبان دورًا حاسمًا؛ إذ حتى التحسينات الصغيرة في صياغة الإجابات المُضمَّنة في بيانات التدريب، أو إضافة تعريفات لأدوات غير مستخدمة ميدانيًا، أسهمت في تحقيق مكاسب أداء ملموسة وقابلة للقياس. النتيجة: من ٩٦٪ إلى الصفر أوضحت شركة "أنثروبيك" على مدونتها أنه منذ إصدار "كلود هايكو ٤.٥"، لم تعد نماذجها تُسجّل أي سلوك ترهيبي في تقييمات الأمان وهو تحوّل كبير من معدل ٩٦٪ في "أوبوس ٤" إلى صفر في النماذج اللاحقة. وتؤكد شركة "أنثروبيك" أن الاستراتيجية الأكثر فاعلية تجمع بين تعليم المبادئ الأساسية للسلوك المتوافق من جهة، وإثراء البيانات بمحتوى عالي الجودة من جهة أخرى. الثقافة البشرية ليست محايدة تكشف هذه التجربة أن ما تتغذى عليه النماذج من ثقافة بشرية ليس محايدًا، وأن تشكيل قيم الذكاء الاصطناعي وسلوكه يستلزم عناية بالمضامين لا تقل أهمية عن العناية بالبنية التقنية.وهذا ما تقوم عليه منظمات مستقلة كـ The Distributed Artificial Intelligence Research Institute معهد بحوث الذكاء الاصطناعي الموزع الذي اسسته تيمنيت غيبرو عام ٢٠٢١. بعد عام من طردها من شركة "غوغل". تيمنيت غيبرو، هي عالمة أخلاقيات الذكاء الاصطناعي تلقى احترامًا كبيرا من المجتمع العلمي العالمي لعملها في الكشف عن التحيز العنصري في خوارزميات الذكاء الاصطناعي، وبالتحديد التحيز في تقنية التعرف على الوجه. والتي تناضل لتعزيز حضور النساء والأشخاص الملونين في أبحاث الذكاء الاصطناعي. وكانت من كبار باحثي شركة "غوغل". وعند طرحها أسئلةً مزعجة في بحوثها حول تحيز خوارزميات "غوغل"، طردت من شركة غوغل وأجبرت على الاستقالة لرفضها تغيير نتائج بحوثها...وهذا موضوع أخر. يمكن الاستماع لـ "بودكاست النشرة الرقمية" على مختلف منصات البودكاست. الرابط للبودكاست على منصة أبل للتواصل مع نايلة الصليبي عبر صفحة برنامَج"النشرة الرقمية"من مونت كارلو الدولية على لينكد إن وعلى تويتر salibi@ وعلى ماستودون وبلوسكاي عبر موقع مونت كارلو الدولية مع تحيات نايلة الصليبي




