عناصر المقال
لقد قطع التعلم العميق شوطًا طويلاً منذ الأيام التي كان يمكنه فيها القيام بوظائف بسيطة فقط مثل التعرف على الأحرف المكتوبة بخط اليد على الشيكات والمغلفات. اليوم، أصبحت الشبكات العصبية العميقة مكونًا رئيسيًا للعديد من تطبيقات الرؤية الحاسوبية، من محرري الصور والفيديو إلى البرامج الطبية والسيارات ذاتية القيادة.
تقريبًا على غرار بنية الدماغ، اقتربت الشبكات العصبية من رؤية العالم كما نفعل نحن البشر. لكن لا يزال أمامهم طريق طويل ليقطعوه ويرتكبوا أخطاء في مواقف لن يخطئها البشر أبدًا.
هذه المواقف – المعروفة عمومًا بأمثلة الخصومة – تغير سلوك نموذج الذكاء الاصطناعي بطرق مربكة. ويعد التعلم الآلي العدائي أحد أكبر التحديات التي تواجه أنظمة الذكاء الاصطناعي الحالية. يمكنهم قيادة نماذج التعلم الآلي التي تفشل بطرق غير متوقعة أو تصبح عرضة للهجمات الإلكترونية.
مثال عدائي: تؤدي إضافة طبقة غير محسوسة من الضوضاء إلى صورة الباندا هذه إلى اعتقاد الشبكة العصبية التلافيفية على أنها شيء آخر بالخطأ.
وأصبح إنشاء أنظمة ذكاء اصطناعي تتسم بالمرونة ضد الهجمات العدائية مجالًا نشطًا للبحث وموضوعًا ساخنًا للنقاش في مؤتمرات الذكاء الاصطناعي. في رؤية الكمبيوتر (Computer Vision) تتمثل إحدى الطرق المثيرة للاهتمام لحماية أنظمة التعلم العميق ضد الهجمات العدائية، تتمثل في تطبيق النتائج في علم الأعصاب لسد الفجوة بين الشبكات العصبية ونظام رؤية الثدييات.
باستخدام هذا النهج، وجد الباحثون في MIT و MIT-IBM Watson AI Lab أن التعيين المباشر لميزات القشرة البصرية للثدييات على الشبكات العصبية العميقة يخلق أنظمة ذكاء اصطناعي أكثر قابلية للتنبؤ في سلوكها وأكثر قوة للاضطرابات العدائية. وفي ورقة بحثية نُشرت على bioRxiv preprint server، قدم الباحثون VOneNet، وهي بنية تجمع بين تقنيات التعلم العميق الحالية والشبكات العصبية المستوحاة من علم الأعصاب.
وتم قبول العمل، الذي تم بمساعدة العلماء في جامعة ميونيخ وجامعة لودفيغ ماكسيميليان وجامعة أوغسبورغ في “NeurIPS 2020” أحد المؤتمرات السنوية البارزة للذكاء الاصطناعي.
اقرأ أيضًا: 4 تطورات في قطاع الضيافة بفضل الذكاء الاصطناعي
الشبكات العصبية التلافيفية
البنية الرئيسية المستخدمة في رؤية الكمبيوتر اليوم هي الشبكات العصبية التلافيفية (CNN). وعند تكديسها فوق بعضها البعض، يمكن تدريب طبقات تلافيفية متعددة لتعلم واستخراج الميزات الهرمية من الصور. وتجد الطبقات السفلية أنماطًا عامة مثل الزوايا والحواف، وتصبح الطبقات العليا تدريجيًا بارعة في العثور على أشياء أكثر تحديدًا مثل الكائنات والأشخاص.
ستقوم كل طبقة من الشبكة العصبية باستخراج ميزات محددة من الصورة المدخلة.
بالمقارنة مع الشبكات التقليدية المتصلة بالكامل، أثبتت ConvNets أنها أكثر قوة وفعالية من الناحية الحسابية. ومع ذلك، لا تزال هناك اختلافات جوهرية بين الطريقة التي تعالج بها الشبكات العصبية التلافيفية والنظام البصري البشري المعلومات.
قال ديفيد كوكس مدير IBM في مختبرات الذكاء الاصطناعي MIT-IBM Watson “ظهرت الشبكات العصبية العميقة (والشبكات العصبية التلافيفية على وجه الخصوص) كنماذج جيدة مدهشة للقشرة البصرية، والمثير للدهشة أنها تميل إلى ملاءمة البيانات التجريبية التي تم جمعها من الدماغ بشكل أفضل من النماذج الحسابية المصممة خصيصًا لشرح بيانات علم الأعصاب.
“ولكن لا تتطابق كل شبكة عصبية عميقة مع بيانات الدماغ بشكل متساوٍ، وهناك بعض الفجوات المستمرة حيث يختلف الدماغ والشبكات العصبية العميقة”.
وأبرز هذه الفجوات هي الأمثلة المتنازعة، حيث يمكن أن تتسبب الاضطرابات الدقيقة مثل رقعة صغيرة أو طبقة من الضوضاء غير المحسوسة في قيام الشبكات العصبية بتصنيف مدخلاتها بشكل خاطئ. تمر هذه التغييرات في الغالب دون ملاحظة من العين البشرية.
اقرأ أيضًا: ما هي تطبيقات الذكاء الاصطناعي في الهندسة
اكتشف باحثو الذكاء الاصطناعي أنه من خلال إضافة ملصقات صغيرة بالأبيض والأسود إلى علامات التوقف، يمكنهم جعلها غير مرئية لخوارزميات رؤية الكمبيوتر (المصدر: arxiv.org)
يقول كوكس: “من المؤكد أن الصور التي تخدع DNNs لن تخدع أبدًا أنظمتنا البصرية […] أيضًا أن DNN هشة بشكل مدهش ضد التدهور الطبيعي (على سبيل المثال، إضافة الضوضاء) للصور، لذلك يبدو أن المتانة بشكل عام مشكلة مفتوحة لشبكات DNN. مع وضع هذا في الاعتبار، شعرنا أن هذا كان مكانًا جيدًا للبحث عن الاختلافات بين العقول و DNNs التي قد تكون مفيدة”.
وكان كوكس يستكشف التقاطع بين علم الأعصاب والذكاء الاصطناعي منذ أوائل العقد الأول من القرن الحادي والعشرين، عندما كان طالبًا لجيمس ديكارلو، أستاذ علم الأعصاب في معهد ماساتشوستس للتكنولوجيا. واستمر الاثنان في العمل معًا منذ ذلك الحين.
يقول كوكس: “الدماغ عبارة عن آلة معالجة معلومات قوية وفعالة بشكل لا يصدق، ومن المحير أن نسأل عما إذا كان بإمكاننا تعلم حيل جديدة منه يمكن استخدامها لأغراض عملية. في الوقت نفسه، يمكننا استخدام ما نعرفه عن الأنظمة الاصطناعية لتقديم نظريات إرشادية وفرضيات يمكن أن تقترح تجارب لمساعدتنا على فهم الدماغ”.
شبكات عصبية تشبه الدماغ
بالنسبة للبحث الجديد، انضم كوكس وديكارلو إلى جويل دابيلو وتياجو ماركيز، المؤلفين الرئيسيين للورقة، لمعرفة ما إذا كانت الشبكات العصبية أصبحت أكثر قوة في مواجهة الهجمات العدائية عندما كانت عمليات تنشيطها مماثلة لنشاط الدماغ. اختبر باحثو الذكاء الاصطناعي العديد من بُنى CNN الشهيرة المدربة على مجموعة بيانات ImageNet، بما في ذلك AlexNet و VGG وأشكال مختلفة من ResNet. كما تضمنت أيضًا بعض نماذج التعلم العميق التي خضعت لـ “تدريب الخصومة”، وهي عملية يتم فيها تدريب الشبكة العصبية على أمثلة معادية لتجنب سوء تصنيفها”.
وقام العالم بتقييم نماذج الذكاء الاصطناعي باستخدام مقياس “BrainScore”، الذي يقارن التنشيطات في الشبكات العصبية العميقة والاستجابات العصبية في الدماغ. ثم قاموا بقياس متانة كل نموذج عن طريق اختباره ضد هجمات معادية الصندوق الأبيض، حيث يكون لدى المهاجم معرفة كاملة ببنية ومعلمات الشبكات العصبية المستهدفة.
يقول كوكس: “لدهشتنا، كلما كان النموذج أكثر تشابهًا مع الدماغ، كان النظام أكثر قوة ضد الهجمات العدائية […] بناءً على ذلك، سألنا عما إذا كان من الممكن تحسين القوة (بما في ذلك قوة الخصومة) عن طريق إضافة محاكاة أكثر صدقًا للقشرة البصرية المبكرة – بناءً على تجارب علم الأعصاب – إلى مرحلة الإدخال في الشبكة”.
تظهر الأبحاث أن الشبكات العصبية ذات أعلى درجات BrainScores هي أكثر قوة لهجمات معادية الصندوق الأبيض.
اقرأ أيضًا: الذكاء الاصطناعي يمكنه مساعدتك في الكتابة أسرع.. لكن كيف؟
VOneNet و VOneBlock
لمزيد من التحقق من صحة النتائج التي توصلوا إليها، طور الباحثون VOneNet، وهي بنية تعليمية عميقة هجينة تجمع بين شبكات CNN القياسية وطبقة من الشبكات العصبية المستوحاة من علم الأعصاب.
ويستبدل VOneNet الطبقات القليلة الأولى من CNN بـ VOneBlock، وهي بنية شبكة عصبية تم تشكيلها على أساس القشرة البصرية الأولية للقرود، والمعروفة أيضًا باسم منطقة V1. هذا يعني أن بيانات الصورة تتم معالجتها أولاً بواسطة VOneBlock قبل تمريرها إلى بقية الشبكة.
ويتكون VOneBlock نفسه من Gabor filter bank وخلايا غير خطية بسيطة ومعقدة، وعشوائية الخلايا العصبية. يشبه GFB الطبقات التلافيفية الموجودة في الشبكات العصبية الأخرى. ولكن في حين أن الشبكات العصبية الكلاسيكية ذات قيم المعلمات العشوائية يتم ضبطها أثناء التدريب، يتم تحديد قيم معلمات GFB وتثبيتها بناءً على ما نعرفه عن التنشيطات في القشرة البصرية الأولية.
VOneBlock هي بنية شبكة عصبية تحاكي وظائف القشرة البصرية الأساسية
يقول تياجو ماركيز الدكتور والزميل في مؤسسة PhRMA في معهد MIT والمؤلف المشارك في الورقة: “”تم تصميم أوزان GFB والخيارات المعمارية الأخرى لـ VOneBlock وفقًا لعلم الأحياء. هذا يعني أن جميع الخيارات التي اتخذناها لـ VOneBlock كانت مقيدة بفسيولوجيا الأعصاب. بمعنى آخر، قمنا بتصميم VOneBlock لتقليد القشرة البصرية الأولية للرئيسيات قدر الإمكان (المنطقة V1). لقد درسنا البيانات المتاحة التي تم جمعها على مدى العقود الأربعة الماضية من عدة دراسات لتحديد معلمات VOneBlock “.
وفي حين أن هناك اختلافات كبيرة في القشرة البصرية للرئيسيات المختلفة، هناك أيضًا العديد من الميزات المشتركة، خاصة في منطقة V1.
ويضيف ماركيز: “لحسن الحظ، يبدو أن الاختلافات بين الرئيسيات طفيفة، وفي الواقع هناك الكثير من الدراسات التي تظهر أن قدرات التعرف على الأشياء لدى القرود تشبه قدرات البشر. في نموذجنا باستخدام البيانات المتاحة المنشورة المستخدمة والتي تميز استجابات الخلايا العصبية V1 للقرود. في حين أن نموذجنا لا يزال مجرد تقريب لـ V1 الرئيسيات (لا يشمل جميع البيانات المعروفة وحتى تلك البيانات محدودة نوعًا ما – هناك الكثير الذي ما زلنا لا نعرفه عن معالجة V1). فهو تقريب جيد”.
خارج طبقة GFB، تمنح الخلايا البسيطة والمعقدة في VOneBlock مرونة الشبكة العصبية لاكتشاف الميزات في ظل ظروف مختلفة. يقول ماركيز: “في النهاية، الهدف من التعرف على الأشياء هو تحديد وجود الأشياء بشكل مستقل عن شكلها الدقيق، وحجمها، وموقعها، وميزات أخرى منخفضة المستوى […] في VOneBlock، يبدو أن الخلايا البسيطة والمعقدة تخدم أدوارًا تكميلية في دعم الأداء في ظل اضطرابات مختلفة في الصورة. وكانت الخلايا البسيطة مهمة بشكل خاص للتعامل مع حالات الفساد الشائعة بينما الخلايا المعقدة ذات الهجمات العدائية ذات الصندوق الأبيض”.
اقرأ أيضًا: كيف يمكن أن يساعد الذكاء الاصطناعي في تشخيص المرض العقلي
VOneNet قيد العمل
تتمثل إحدى نقاط القوة في VOneBlock في توافقه مع بنى CNN الحالية. يقول ماركيز: “تم تصميم VOneBlock ليكون له وظيفة التوصيل والتشغيل. هذا يعني أنه يحل مباشرة محل طبقة الإدخال لبنية CNN القياسية. وتضمن الطبقة الانتقالية التي تتبع جوهر VOneBlock إمكانية جعل مخرجاتها متوافقة مع بقية بنية CNN”.
وقام الباحثون بتوصيل VOneBlock بالعديد من هياكل CNN التي تعمل بشكل جيد على مجموعة بيانات ImageNet. ومن المثير للاهتمام، أن إضافة هذه الكتلة البسيطة أدت إلى تحسن كبير في القوة لهجمات معادية الصندوق الأبيض وتفوق على أساليب الدفاع القائمة على التدريب.
كتب الباحثون في ورقتهم “محاكاة معالجة الصور للقشرة البصرية الأولية للرئيسيات في مقدمة البنى القياسية لشبكة CNN تحسن بشكل كبير من قوتها في مواجهة اضطرابات الصورة، حتى أنها تجعلها تتفوق على أحدث أساليب الدفاع”.
تظهر التجارب أن الشبكات العصبية التلافيفية التي تم تعديلها لتشمل VOneBlock هي أكثر مرونة ضد هجمات معادية الصندوق الأبيض.
يقول كوكس: “نموذج V1 الذي أضفناه هنا في الواقع بسيط للغاية – فنحن نغير فقط المرحلة الأولى من النظام ، بينما نترك بقية الشبكة كما هي ، ولا يزال الإخلاص البيولوجي لنموذج V1 بسيطًا للغاية”. مضيفًا أن هناك الكثير من التفاصيل والفروق الدقيقة التي يمكن للمرء أن يضيفها إلى مثل هذا النموذج لجعله يتطابق بشكل أفضل مع ما هو معروف عن الدماغ.
وأضاف كوكس: “البساطة هي القوة في بعض النواحي، لأنها تعزل مجموعة أصغر من المبادئ التي قد تكون مهمة، ولكن سيكون من المثير للاهتمام استكشاف ما إذا كانت الأبعاد الأخرى للإخلاص البيولوجي قد تكون مهمة”.
تتحدى الورقة الاتجاه الذي أصبح شائعًا جدًا في أبحاث الذكاء الاصطناعي في السنوات الماضية. بدلاً من تطبيق أحدث نتائج آليات الدماغ في أبحاثهم، يركز العديد من علماء الذكاء الاصطناعي على قيادة التقدم في هذا المجال من خلال الاستفادة من توافر موارد الحوسبة الضخمة ومجموعات البيانات الكبيرة لتدريب شبكات عصبية أكبر وأكبر.
تمت ترجمة هذا المقال من Ben Dickson ويمكنك العثور على المقال الأصلي هنا.