Machine Learning and DeepLearning for Autism Spectrum Disorder (ASD) detection
Loading...
Files
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Unuversity Setif 1 Ferhat Abbas . Faculty of Sciences
Abstract
AutismSpectrumDisorder(ASD)isaneurodevelopmentaldisordercharacterizedbydifficul- tieswithsocialinteraction,communication,andbehavior.Earlyidentificationensurestimely interventionandimprovesqualityoflife.Thepresentstudyproposesatwo-modalitybinary classificationapproachforASDdetectionbasedonfacialimagedataandmovementdata.The imagedatasetconsistsoffacialphotosofchildrenlabeledasASDornon-ASD.Themovement data,capturedusingaKinectv2sensor,comprises1,259featurespersubjectderivedfrom3D jointpositions and gait metrics, with a total of 800 samples.
ADenseNet121convolutionalneuralnetwork(CNN)wasemployedforimages,achieving89% accuracy.Grad-CAMwasusedtoprovidevisualexplanationsbyhighlightingimportantre- gionsintheimages.Forthemovementmodality,aMulti-LayerPerceptron(MLP)trainedon featureslearnedviaanautoencoderachieved99.38%accuracy,withShapleyAdditiveexPla- nations (SHAP) applied to identify key features influencing model decisions.Finally, a late fusion mechanism combining both models was evaluated, resulting in 88.12% accuracy.Results highlighttheeffectivenessofunimodalsolutions,particularlytheMLPwithautoencoder,and indicatethatmultimodalfusionrequiresfurtheroptimizationforenhancedoverallperformance.
Description
اضطراب طيف التوحد (ASD) هو اضطراب في النمو العصبي يتميز بصعوبات في التفاعل الاجتماعي والتواصل والسلوك. يتيح التشخيص المبكر التدخل السريع وتحسين جودة الحياة. تقترح هذه الدراسة منهجًا ثنائيًا للتصنيف للكشف عن اضطراب طيف التوحد، يعتمد على صور الوجه وبيانات الحركة. تتضمن مجموعة بيانات الصور صورًا لوجوه أطفال، سواء تم تشخيصهم أم لا. أما بيانات الحركة، التي تم التقاطها باستخدام مستشعر Kinectv2، فتتكون من 1259 خاصية لكل فرد، مستخرجة من مواضع المفاصل ثلاثية الأبعاد ومقاييس المشي، بإجمالي 800 عينة.
استُخدمت مصفوفة عصبية التفافية، DenseNet121، لمعالجة الصور، محققةً دقة بلغت 89%. وقد مكّن برنامج Grad-CAM من تقديم شروحات مرئية من خلال تسليط الضوء على مناطق الصورة المهمة. بالنسبة لنمط الحركة، حقق نموذج الشبكة العصبية متعددة الطبقات (MLP) المدرب على خصائص مستخرجة عبر مُشفِّر تلقائي دقة بلغت 99.38%، وذلك بتطبيق تفسيرات شابلي الإضافية (SHAP) لتحديد الخصائص الرئيسية المؤثرة على قرارات النموذج. وأخيرًا، تم تقييم آلية دمج متأخرة تجمع بين النموذجين، مما أسفر عن دقة بلغت 88.12%. تؤكد هذه النتائج فعالية الحلول أحادية النمط، ولا سيما نموذج الشبكة العصبية متعددة الطبقات مع المُشفِّر التلقائي، وتشير إلى أن دمج الأنماط المتعددة يتطلب مزيدًا من التحسين لرفع الأداء العام.
