تتصاعد التحذيرات في ظل التسارع غير المسبوق في تطوير تقنيات الذكاء الاصطناعي واعتمادها المتزايد في مختلف القطاعات، من تهديد جديد قد يقوض موثوقية تلك الأنظمة من الداخل دون الحاجة إلى اختراق تقليدي.ويعرف هذا التهديد بـ”تسميم البيانات”؛ حيث يتم التلاعب بمدخلات التدريب نفسها، ما يفتح الباب أمام التأثير على سلوك النماذج ونتائجها بشكل يصعب اكتشافه، ويثير مخاوف متزايدة في الأوساط التقنية والأكاديمية.
ما المقصود بتسميم بيانات الذكاء الاصطناعي؟
يشير مصطلح “تسميم البيانات” إلى إدخال معلومات مضللة أو خبيثة داخل بيانات تدريب نماذج الذكاء الاصطناعي، بهدف التأثير على مخرجاتها أو توجيه سلوكها بشكل غير طبيعي. ويُصنّف هذا النوع من الهجمات ضمن ما يُعرف بـ”التعلّم الآلي العدائي”، وهو مجال بحثي يركّز على دراسة كيفية استغلال نقاط ضعف النماذج.
تحذيرات دولية
وبحسب تقرير لصحيفة “وول ستريت جورنال”، حذّر باحثونمن أن الاعتماد المتزايد على البيانات المفتوحة من الإنترنت يجعل نماذج الذكاء الاصطناعي عرضة للتلاعب؛ حيث يمكن إدخال بيانات مضللة ضمن مجموعات التدريب دون اكتشافها بسهولة.ولفت التقرير إلى أن تلك الهجمات قد تؤدي إلى تغيير سلوك النماذج وإنتاج معلومات غير دقيقة، فضلًا عن احتمالية تسريب بيانات حساسة، في ظل صعوبة التحقق من جودة البيانات المستخدمة في التدريب.وأظهرت دراسة حديثة بعنوان”How Many Malicious Docs Does It Take to Poison an LLM?”، أن نماذج الذكاء الاصطناعي يمكن التأثير عليها باستخدام عدد محدود للغاية من البيانات الخبيثة.ووفقًا لنتائج الدراسة، فإن إدخال نحو 250 مستندًا فقط ضمن بيانات التدريب قد يكون كافيًا للتأثير على سلوك النموذج، حتى وإن كانت هذه البيانات تمثل نسبة ضئيلة للغاية لا تتجاوز 0.00016% من إجمالي البيانات.
تراجع الدقة
وبينما في دراسة أكاديمية منشورة على منصة أركايف بعنوان”“Detecting and Preventing Data Poisoning Attacks on AI Models”، أشار الباحثون إلى أن هجمات تسميم البيانات قد تؤدي إلى انخفاض دقة النماذج بنسبة تصل إلى 27%.وأوضحت الدراسة أن تلك الهجمات تتم عبر إدخال بيانات مزيفة أو معدّلة خلال مرحلة التدريب، ما يؤدي إلى انحراف النموذج عن الأداء المتوقع، ويجعل اكتشاف هذا التلاعب أكثر تعقيدًا، خاصة في النماذج الكبيرة.
معضلة البيانات المفتوحة
تعتمد النماذج الحديثة على كميات ضخمة من البيانات المستمدة من الإنترنت، وهو ما يعزز قدرتها على التعلّم والتطور، لكنه في الوقت ذاته يفتح الباب أمام إدخال بيانات غير موثوقة.ويرى خبراء أن هذه البيئة المفتوحة، رغم أهميتها، تمثل نقطة ضعف يمكن استغلالها لتنفيذ هجمات تسميم البيانات دون رصد فوري، ما يفرض تحديات متزايدة أمام تطوير أنظمة ذكاء اصطناعي أكثر أمانًا وموثوقية.