کاهش ابعاد در داده کاوی

کاهش ابعاد در داده کاوی


  • 3,198 بازدید

به طور کلی هر چه ابعاد یا همان تعداد ویژگی های مسأله مورد کاوش بالاتر رود، باعث خواهد شد رکوردها در فضای جستجو پراکنده تر شوند. یکی از روش ها روش انتخاب زیر مجموعه ای از ویژگیها بود. البته در آن روش ویژگی هایی که ارزش اطلاعاتی آنها برای کاوش پایین است برای حذف شدن انتخاب خواهند شد. به همین دلیل معمولا تعداد ویژگی هایی که از این طریق نادیده گرفته میشوند خیلی زیاد نیست. بر این اساس نمی توان عملیات انتخاب زیرمجموعه ای از ویژگی ها را برای حل مشکل مسائلی که تعداد ویژگی های آنها بسیار بالاست، زیاد مؤثر دانست. همچنین در عملیات انتخاب زیرمجموعه ای از ویژگیها، حفظ ماهیت ویژگی ها برای رزرو کردن قابلیت تفسیر مدل بسیار حائز اهمیت است. این در حالی است که برای حل مشکل طلسم ابعاد بالا راهکارهایی مبتنی بر جبر خطی نیز قابل ارائه هستند که در آنها توجهی به حفظ اهمیت ویژگی ها نمی شود. در این راهکارها که به طور خاص برای داده های پیوسته ارائه می شوند، داده از یک فضای پیچیده با ابعاد بالا به فضایی ساده با ابعاد پایین تصویر می شود. از جمله ی این راهکارها می توان به روشی با نام PCA اشاره کرد.

در این روش ابتدا از روی رکوردهای موجود در مجموعه داده اصلی، ماتریس همبستگی محاسبه می شود. سپس مقادیر ویژه ای با توجه به آن ماتریس استخراج خواهند شد. این مقادیر ویژه در ادامه در ماتریس اولیه ضرب شده و در نهایت ویژگی های مساله ابتدایی به یک فضای جدید تصویر می شوند. این ویژگی های جدید در فضای جدید مرتب شده هستند و به ترتیب از مهم به کم اهمیت قرار می گیرند. در این وضعیت ممکن است با داشتن چند ویژگی اول به یک دقت خوب و بالا دست یابیم. در این روش ویژگی هایی که ایجاد می شوند همه نسبت به یکدیگر متعامد هستند، یعنی هیچ گونه همبستگی بین ویژگی ها وجود ندارد و این باعث میشود ویژگی هایی که به این روش ایجاد می شوند بیشترین میزان تفاوت را با یکدیگر داشته باشند، یعنی هر کدام از ویژگیها معنای جدیدی خواهند داشت. این روش از جمله روش های بسیار مشهور و کلاسیک است. روش دیگری که در آن از مفاهيم جبر خطی برای کاهش ابعاد استفاده می شود با نام DSV شناخته می شود. این روش که قرابت بسیار بالایی با روش PCA دارد، بیشتر در کاربردهای پردازش متون مورد استفاده قرار می گیرد.

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.