Beta
407366

Grid Search Evaluation of ML Algorithms for Early Disease Detection in Imbalanced Medical Datasets

Article

Last updated: 09 Mar 2025

Subjects

-

Tags

-

Abstract

مع تزايد عدد الأمراض المزمنة في العالم، يصبح التعرف المبكر عليها ضرورة أساسية لبدء استخدام طُرق العلاج المناسبة، حيث يمكن أن تتحول هذه الأمراض إلى حالات خطيرة لا يمكن علاجها. لهذا السبب، تلعب تقنيات التعلم الآلي دورًا حيويًّا في تحليل البيانات الطبية بشكل متقدم، مما يتيح اكتشاف العلاقات المعقدة والأنماط الخفية التي قد يصعب تحديدها من قبل الأطباء بالوسائل التقليدية. وتستعرض هذه الورقة البحثية تطبيق مجموعة من نماذج التعلم الآلي مثل الانحدار اللوجستي، والشبكات العصبية الاصطناعية، وأشجار القرار، مع التركيز على كيفية التعامل مع مجموعات بيانات غير متوازنة تم جمعها من مستودع جامعة كاليفورنيا للتعلم الآلي ومنصة.Kaggleلكل نموذج قدراته الخاصة التي تمكنه من التعامل مع تعقيدات البيانات الطبية، وتتمثل التحديات الأساسية في تحسين دقة هذه النماذج لتحقيق أداء فاعل يتوافق مع متطلبات التنبؤ الطبي المبكر. وتمثل تقنية البحث الشبكي (Grid Search) خطوة مهمة في تحسين أداء النماذج المختارة؛ حيث يتم استكشاف مجموعة واسعة من معلمات النماذج لتحديد القيم المثلى التي تؤدي إلى تحسين الأداء. وتعتمد الدراسة بشكل خاص على معالجة مشكلة توازن الفئات في مجموعات البيانات الطبية؛ حيث تم تطبيق تقنيات مثل SMOTE لتحقيق توازن أفضل بين الفئات وزيادة دقة التنبؤ بالفئة الأقل تمثيلًا (فئة المرضى). ومن خلال تحليل مسبق للبيانات، مثل معالجة القيم المفقودة واختيار الميزات الأكثر تأثيرًا، يتم إعداد البيانات لاستخدامها بكفاءة في النماذج المختلفة. تُختتم الدراسة بتقييم شامل لأداء النماذج؛ حيث يتم اختيار النموذج الأفضل دقة بناءً على معايير مثل الدقة، الاستدعاء، وF1-score، مع التركيز على تحسين عملية اتخاذ القرار الطبي باستخدام البحث الشبكي. توصي الدراسة باستخدام تقنيات تحسين المعلمات الفائقة مثل البحث الشبكي (Grid Search) لتحسين أداء النماذج على مجموعات البيانات الطبية غير المتوازنة، مع التركيز على تقليل النتائج السلبية الكاذبة التي قد تؤدي إلى عواقب خطيرة في التطبيقات السريرية. كما تُبرز أهمية الاعتماد على مقاييس تقييم شاملة، مثل الاسترجاع والدقة و (F1-Score)لضمان تقييم دقيق لأداء النماذج. وتوصي الدراسة أيضًا بتوظيف نماذج قوية مثل XGBoost  وغابة القرارات العشوائية (Random Forest)، حيث إن الأولى توفر توازنًا بين الأداء وسرعة التنفيذ  في حين تُحقق الثانية أعلى دقة على حساب وقت التنفيذ.

DOI

10.21608/ijppe.2025.407366

Keywords

الأمراض المزمنة, التعلم الآلي, مجموعات البيانات غير المتوازنة, البحث الشبكي

Authors

First Name

إيمان محمود

Last Name

كامل

MiddleName

-

Affiliation

مركز المعلومات ودعم اتخاذ القرار، رئاسة مجلس الوزراء المصري، مصر

Email

eng.emanmahmoud01@gmail.com

City

-

Orcid

-

First Name

شادي يحيى

Last Name

المشد

MiddleName

-

Affiliation

كلية الهندسة بشبرا، جامعة بنها وجامعة بنها الاهلية، مصر

Email

-

City

-

Orcid

-

First Name

إسلام عبد الغفار

Last Name

الشعراوي

MiddleName

-

Affiliation

كلية الهندسة بشبرا، جامعة بنها، مصر

Email

islam.elshaarawy@feng.bu.edu.eg

City

-

Orcid

-

Volume

4

Article Issue

1

Related Issue

53350

Issue Date

2025-01-01

Receive Date

2025-01-27

Publish Date

2025-01-01

Page Start

120

Page End

144

Print ISSN

2812-4758

Online ISSN

2812-4766

Link

https://ijppe.journals.ekb.eg/article_407366.html

Detail API

http://journals.ekb.eg?_action=service&article_code=407366

Order

407,366

Type

المقالة الأصلية

Type Code

2,157

Publication Type

Journal

Publication Title

المجلة الدولية للسياسات العامة في مصر

Publication Link

https://ijppe.journals.ekb.eg/

MainTitle

Grid Search Evaluation of ML Algorithms for Early Disease Detection in Imbalanced Medical Datasets

Details

Type

Article

Created At

01 Feb 2025