مروری بر روش های مبتنی بر درخت تصمیم جهت پیش بینی بیماری دیابت

مروری بر روش های مبتنی بر درخت تصمیم جهت پیش بینی بیماری دیابت


  • 497 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

داده کاوی چیست؟

مقدمه ای بر داده کاوی سلامت 

ابزارهای داده کاوی

در این مقاله ابتدا به تعاریف مربوط بیماری دیابت ، انواع آن و آمار ها اخیر پرداخته شد. سپس در مورد داده کاوی در حوزه پزشکی ، انواع درختان تصمیم ، روشهای القای آنها و معایب و مزایای آنها توضیحاتی داده شد. به مقایسه ۷ مورد از کارهای اخیر در زمینه پیش بینی دیابت بوسیله طبقه بند درخت تصمیم پرداخته شد. در مطالعه اول تعداد رکوردها و ویژگی های کمی بررسی شده است ولی بخاطر پیش پردازش مناسبی که روی داده ها انجام شده، صحت مناسبی از مدل را شاهد بودیم. در مطالعه دوم تعداد نمونه ها یکی بیشتر از مطالعه اول بوده و تعداد ویژگی ها برابر مطالعه اول بوده است ولی با تغییر تکنیک شکاف داده حدود ۱۰٪ کاهش صحت طبقه بند را شاهد بودیم. یکی از دلایل آن می تواند خصوصیت Gain Ratio باشد که در مجموعه داده های کوچک صحت کمتری نسبت به مجموعه داده ها و مسائل بزرگتر دارد. در مطالعه سوم به همراه افزایش تعداد نمونه ها نسبت به دو مطالعه قبلی تعداد فاکتور های ریسک نیز افزایش پیدا کردند. بعضی از این فاکتور ها مثل سطح تحصیل و نوشیدن قهوه ارتباطی با بیماری دیابت نداشتند . یکی از دلایل کاهش صحت طبقه بندی نسبت به ۲ کار قبلی می تواند افزایش تعداد فاکتور های نامربوط به بیماری در مدل پیش گیری باشد. در مطالعه چهارم از طبقه بند مجموعه ترکیب استفاده شده است که یک طبقه بند کار آمد به حساب می آید و صحت خوبی را بدست آورده است. در این مطالعه از تعداد نمونه ها و ویژگی ها صحبتی نشده است و از این جنبه نمی توانیم اظهار نظری داشته باشیم. در مطالعه پنجم نمونه های مجموعه داده افراد غیر دیابتی بوده اند و هدف پیش بینی دیابت برای افرادی بوده است که ریسک پایینی در ابتلا به این بیماری دارند. بنابراین تعداد افراد غیر دیابتی بالا باعت افزایش مقدار TN و کاهش مقدار TP می شود. مقدار پایین TP نسبت به FN  تاثیر مستقیمی روی کاهش Sensitivity می گذارد و میزان آن با مقدار ۳۱.۱ ٪ ثبت می شود. افزایش تعداد متغیرها نسبت به مقالات قبلی تأثیری در افزایش صحت نداشته است ولی در مورد افزایش تعداد نمونه ها نمی توانیم این ادعا را داشته باشیم. در مطالعه ششم ۱۳ طبقه بند مختلف مورد آزمایش قرار گرفت که درخت تصمیم با اختلاف بسیار ناچیز دومین صحت بالای این مطالعه را بدست آورد. از مطالعه ششم نتیجه می گیریم که طبقه بند های ترکیبی تاثیر مثبتی در بهبود نتایج طبقه بندی و پیش گیری الگوریتم های طبقه بندی مجزا دارند. مطالعه هفتم با اختلاف ۲٪ و میزان 95.03 ٪ دومین صحت بالای طبقه بندی را در مقایسه با شبکه عصبی در مطالعه مربوطه بدست آورد. این عدد بیشترین مقدار در مقایسه تحلیلی ما در این مقاله می باشد. تفاوت ویژگی ها و فاکتور های ریسک در مقاله هفتم با بقیه کارهای بررسی شده استفاده از ویژگی هایی مربوط به دیابت بارداری می باشد. در نهایت نتیجه می گیریم که افزایش تعداد ویژگی های مورد بررسی تأثیر زیادی در افزایش صحت نداشته، افزایش تعداد نمونه های مورد بررسی در کل در بهبود صحت پیش گیری موثر است و بهترین روش شکاف داده با توجه به ارزیابی کلی ,Specificity Sensitivity, Accuracy در این مطالعه به Information Gain اختصاص می یابد.

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به پژوهش در حوزه استفاده از داده کاوی برای پیش بینی بیماری علاقه مند هستید توصیه می شود حتما مجموعه استثنائی و بی نظیر مجموعه مقالات فارسی شامل بیش از دویست مقاله در مورد پیش بینی و تشخیص بیماری دیابت  و مجموعه های مشابه  را تهیه بفرمایید.

اگر در زمینه استفاده از داده کاوی برای پیش بینی بیماری در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.