Machine Learning and DeepLearning for Autism Spectrum Disorder (ASD) detection

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Unuversity Setif 1 Ferhat Abbas . Faculty of Sciences

Abstract

AutismSpectrumDisorder(ASD)isaneurodevelopmentaldisordercharacterizedbydifficul- tieswithsocialinteraction,communication,andbehavior.Earlyidentificationensurestimely interventionandimprovesqualityoflife.Thepresentstudyproposesatwo-modalitybinary classificationapproachforASDdetectionbasedonfacialimagedataandmovementdata.The imagedatasetconsistsoffacialphotosofchildrenlabeledasASDornon-ASD.Themovement data,capturedusingaKinectv2sensor,comprises1,259featurespersubjectderivedfrom3D jointpositions and gait metrics, with a total of 800 samples. ADenseNet121convolutionalneuralnetwork(CNN)wasemployedforimages,achieving89% accuracy.Grad-CAMwasusedtoprovidevisualexplanationsbyhighlightingimportantre- gionsintheimages.Forthemovementmodality,aMulti-LayerPerceptron(MLP)trainedon featureslearnedviaanautoencoderachieved99.38%accuracy,withShapleyAdditiveexPla- nations (SHAP) applied to identify key features influencing model decisions.Finally, a late fusion mechanism combining both models was evaluated, resulting in 88.12% accuracy.Results highlighttheeffectivenessofunimodalsolutions,particularlytheMLPwithautoencoder,and indicatethatmultimodalfusionrequiresfurtheroptimizationforenhancedoverallperformance.

Description

اضطراب طيف التوحد (ASD) هو اضطراب في النمو العصبي يتميز بصعوبات في التفاعل الاجتماعي والتواصل والسلوك. يتيح التشخيص المبكر التدخل السريع وتحسين جودة الحياة. تقترح هذه الدراسة منهجًا ثنائيًا للتصنيف للكشف عن اضطراب طيف التوحد، يعتمد على صور الوجه وبيانات الحركة. تتضمن مجموعة بيانات الصور صورًا لوجوه أطفال، سواء تم تشخيصهم أم لا. أما بيانات الحركة، التي تم التقاطها باستخدام مستشعر Kinectv2، فتتكون من 1259 خاصية لكل فرد، مستخرجة من مواضع المفاصل ثلاثية الأبعاد ومقاييس المشي، بإجمالي 800 عينة. استُخدمت مصفوفة عصبية التفافية، DenseNet121، لمعالجة الصور، محققةً دقة بلغت 89%. وقد مكّن برنامج Grad-CAM من تقديم شروحات مرئية من خلال تسليط الضوء على مناطق الصورة المهمة. بالنسبة لنمط الحركة، حقق نموذج الشبكة العصبية متعددة الطبقات (MLP) المدرب على خصائص مستخرجة عبر مُشفِّر تلقائي دقة بلغت 99.38%، وذلك بتطبيق تفسيرات شابلي الإضافية (SHAP) لتحديد الخصائص الرئيسية المؤثرة على قرارات النموذج. وأخيرًا، تم تقييم آلية دمج متأخرة تجمع بين النموذجين، مما أسفر عن دقة بلغت 88.12%. تؤكد هذه النتائج فعالية الحلول أحادية النمط، ولا سيما نموذج الشبكة العصبية متعددة الطبقات مع المُشفِّر التلقائي، وتشير إلى أن دمج الأنماط المتعددة يتطلب مزيدًا من التحسين لرفع الأداء العام.

Citation

Endorsement

Review

Supplemented By

Referenced By