خلق ویژگی، استخراج ویژگی، تبدیل داده و ساخت ویژگی در داده کاوی

خلق ویژگی، استخراج ویژگی، تبدیل داده و ساخت ویژگی در داده کاوی


  • 2,286 بازدید

خلق ویژگی، عملیات عبارت است از خلق ویژگی های جدیدی که بتوانند در کنار سایر ویژگی های پیشین اطلاعات مهم موجود در یک مجموعه داده را مؤثرتر و کامل تر از ویژگیهای اولیه نمایش دهند. به طور کلی سه روش مختلف برای خلق ویژگی ها وجود دارند که عبارتند از:
استخراج ویژگی : در این روش ویژگی هایی از داده اولیه که معمولا یک داده با ماهیت مالتی مدیایی است، استخراج می شوند. این استخراج با توجه به طبیعت مسأله مورد پردازش صورت می پذیرد. معمولا کاربرد استخراج ویژگی در مواردی است که قصد جمع آوری اطلاعات از یک ورودی چندرسانه ای از جمله تصویر، صدا و فیلم را داریم. به عنوان مثال از یک تصویر اعدادی که بیانگر معانی خاصی هستند، واکشی خواهند شد. یک مثال دقیق تر می تواند تشخیص هویت از روی تصویر چهره افراد باشد. در این مثال فاصله بین چشم ها می تواند یک ویژگی مهم باشد که می بایست از تصویر هر شخص از هر رکورد استخراج شود. 
ساخت ویژگی: در این روش با ترکیب کردن ویژگی ها، ویژگی های جدیدی ایجاد می شوند که بار اطلاعاتی بیشتری دارند. به عنوان مثال در رکوردهای بیماران دیابتی یک بیمارستان، می توانیم یک ویژگی جدید بسازیم که نرخ فراوانی بیماران دیابتی در استان محل زندگی بیمار را نشان بدهد. این ویژگی از تقسیم تعداد بیماران دیابتی استان محل زندگی بیمار به کل بیماران دیابتی کشور محاسبه می شود. ممکن است این ویژگی جدید بتواند نظم حاکم بر بیماران دیابتی را به نحو بهتری نشان داده و دقت نهایی دسته بندی را برای این بیماران افزایش دهد. خلق ویژگی از این طریق نسبت به روش استخراج ویژگی ساده تر است. چرا که در این روش نیازی به داشتن دانش از مسأله مورد کاوش نداریم. ولی روش ساخت ویژگی به دلیل افزایش همبستگی مجموعه ویژگیهای مسأله نسبت به روش استخراج ویژگی ضعیف تر می باشد. 

تبدیل داده: در صورتی که از عملیات تبدیل داده استفاده نماییم و ویژگی تبدیل یافته را به عنوان یک ویژگی جدید به مجموعه ویژگی های قبلی اضافه کنیم (ویژگی تبدیل شده را حذف ننماییم) در این صورت یک ویژگی جدید خلق کرده ایم. به هر حال باید توجه کنیم که خلق ویژگی از این طریق منجر به تولید ویژگی میشود که همبستگی بسیار بالایی را با ویژگی های قبلی خواهد داشت. این روش خلق ویژگی حتی از روش ساخت ویژگی نیز ضعیف تر است. زیرا میزان همبستگی ویژگی خلق شده با ویژگی تبدیل یافته بسیار بالاتر از ویژگی است که در روش ساخت ویژگی تولید می شود. دلیل آن هم کاملا روشن است چرا که در روش ساخت ویژگی از مقادیر، چندین رکورد در ساخت ویژگی جدید مورد استفاده قرار می گیرند. در حالی که در روش تبدیل ویژگی تنها از مقادیر ویژگی های یک رکورد که مربوط به یک شیء مشخص است بهره برداری می شود. بدیهی است که همبستگی میان ویژگی های یک رکورد بسیار بیشتر از همبستگی میان یک رکورد بسیار بیشتر از همبستگی میان ویژگی های چندین رکورد است.

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.