انتخاب ویژگی بهینه برای داده های بزرگ با استفاده از بازی های همکارانه و الگوریتم F- Score

انتخاب ویژگی بهینه برای داده های بزرگ با استفاده از بازی های همکارانه و الگوریتم F- Score


  • 200 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده 
امروزه با پیشرفت فناوری، مجموعه داده های بزرگ دارای ویژگی های زیاد و پیچیدگی محاسباتی بالا به وجود آمده اند. از این رو، انتخاب زیرمجموعه ویژگی با کمترین ویژگی، سرعت بیشتر و کارایی بالا امر بسیار مهمی می باشد. الگوریتم های رایج انتخاب ویژگی با بررسی نکردن روابط میان ویژگیها، کاهش دقت را به وجود می آورند. لذا، محققان برای بررسی روابط میان ویژگی ها و رسیدن به دقت بیشتر، روان انتخاب ویژگی متنی را تئوری بازی ها را ارائه داده اند که در داده ها با تعداد زیاد ویژگی، پیچیدگی محاسباتی بیشتری دارند لذا افزایش سرعت انتخاب، ویژگی مبنی بر بازی های همکارانه در کنار دقت بالا می تراند برای انتخاب زیر مجموعه ویژگی بهینه برای داده های بزرگ استفاده شود. در این مقاله، الگوریتم FSCG ارائه شده است که ابتدا با محاسبه F-Score ویژگیها مرتب شده و سپس برای هر ویژگی ارزش شپلی- شوبیک محاسبه می شود. لذا F-Score با تشخیص ویژگی های بین دو کلاس، نقطه ضعف ارزش شپلی-شوبیک که بار محاسباتی بالا به خاطر تعداد زیاد انتخاب ویژگی های جفت با ائتلاف های بین ویژگی ها است را | می پوشاند و ارزش شپلی شوبیک با مشخص کردن سهم هر ویژگی در یک همکاری نقطه ضعف F- Score را پیدا می کند. این الگوریتم روی تعدادی از مجموعه داده های UCI پیاده سازی و ارزیابی ویژگی های انتخابی برای مجموعه داده ها با استفاده از دسته بند ماشین بردار پشتیبان (SVM) انجام شده است. تعداد ویژگی های انتخاب شده، دقت و زمان اجرای روش FSCG با روش های بدون کاهش ویژگی و روش Shaply Value Embedded Genetic Algorithm) SVEGA) مقایسه شده است. نتایج نشان می دهد که روش FSCG بر روی داده ها با تعداد ویژگی های زیاد با انتخاب زیر مجموعه ویژگی بهینه، علاوه بر دقت، بار محاسباتی کمتر و سرعت بیشتر را ارائه داده است.

نتیجه گیری 
با توجه به اینکه روز به روز به ابعاد داده ها افزوده می شود. مسئله انتخاب ویژگی به یک موضوع بسیار مهم برای محققان تبدیل شده است. انتخاب ویژگی برای کاهش تعداد ویژگی هایی که دارای ویژگی های زیادی هستند، به کار برده می شود. مسئله انتخاب ویژگی، یکی از مسائلی است که در بسیاری از کاربردها به خصوص طبقه بندی در مبحث یادگیری ماشین و همچنین شناسایی آماری الگو اهمیت فراوانی دارد، زیرا در این کاربر تنها تعداد زیادی ویژگی وجود دارد که بسیاری از آن ها یا بلااستفاده هستند و یا اینکه بار اطلاعاتی چندانی ندارند. حذف نکردن این ویژگی ها مشکلی از لحاظ اطلاعاتی ایجاد نمی کنند ولی بار محاسباتی را برای کاربرد مورد نظر بالا می برده و علاوه بر این باعث می شود که اطلاعات غير مفيد زیادی را به همراه داده های مقید ذخیره کنیم. برای مسئله انتخاب ویژگی، راه حل ها و الگوریتم های متعددی ارائه شده است که ممکن است برخی از ویژگی های مهم را افزونگی حساب کرده و آن را از بین ببرند شناسایی زیر مجموعه ویژگی بهینه نقش بسیار مهمی در کارایی مسائل طبقه بندی، ایفا می کنند.
در این مقاله، برای رفع مشکلات روش های انتخاب ویژگی معمول و رسیدن به صحت بیشتر در کنار سرعت بالا و بار محاسباتی که در داده - های با حجم بالا، روش انتخاب ویژگی بهبود یافته مبتنی بر نظریه ی بازی های همکارانه به نام FSC پیشنهاد شده است. این روش ترکیب روش F - Scare و محاسبه ارزش شپلی-شوبیک می باشد. FSCG ابتدا با استفاده از روش F - Score ویژگی های بین کلاس ها را تشخیص داده و سپس سهم هر ویژگی را با محاسبه ارزش شپلی-شوبیک محاسبه می کند. به منظور محاسبه میزان دقت، از طبقه بند SVM بر روی هفت مجموعه داده پزشکی از UCI استفاده شده است. نتایج نشان می دهند که روش پیشنهادی با کاهش ویژگی، توانسته زیر مجموعه ویژگی های مناسبی را انتخاب نماید که موجب افزایش دقت طبقه بند شده است همچنین در داده های بزرگ بالا علاوه بر افزایش دقت، بار محاسباتی کمتر و سرعت بیشتر را ارائه دهد.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی در مورد کلان داده و بیگ دیتا که شامل صد 100 مقاله فارسی در مورد الگوریتم ها و روش های کلان داده و بیگ دیتا است به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.