داده کاوی علمی است که به دنبال پیدا کردن الگوی نهفته از داده های خام است. ولی این الگوی نهفته چگونه و با چه ابزاری باید از داده خام استخراج شود؟
نرم افزار رپیدماینر
نرم افزار رپیدماینر بسیار محبوب است زیرا توانسته برای پیاده سازی مسائل مختلف داده کاوی راه حل های مفیدی ارائه دهد. هزاران مقاله در زمینه داده کاوی با استفاده از رپیدماینر پیاده سازی شده اند که در وب سایت دیتاهارت دهها مقاله فارسی در مورد داده کاوی که با رپیدماینر پیاده سازی شده اند به صورت رایگان در اختیار علاقه مندان داده کاوی قرار داده است که می توانید آن ها را دانلود کنید. خواندن این مقالات به شما این امکان را می دهد که با قابلیت های نرم افزار رپیدماینر بیشتر آشنا شوید. در این سلسله مقالات ابزار داده کاوی رپیدماینر به عنوان قویترین ابزار پیاده سازی آموزش داده می شود. مانند دیگر ابزارهای، ابزار داده کاویِ رپیدماینر نیز از عملگرها تشکیل شده است بدین ترتیب که با استفاده از اتصال عملگرها، مدلهای داده کاوی ایجاد شده و مورد استفاده قرار می گیرد. بدین ترتیب در ادامه مخاطب با عملگرهای رپیدماینر آشنا می گردد. لازم به ذکر است که این توضیحات از کتاب داده کاوی کاربردی صنیعی آباده برداشته شده است.
آموزش عملگر (Select Attributes ) در رپیدماینر
با استفاده از این عملگر تنها ویژگی هایی که می خواهیم عملیات مختلف روی آنها اعمال شود را در نظر می گیریم تا از انجام پردازش های اضافی که ممکن است بار پردازش روی سیستم را زیاد کرده یا موجب انحراف در نتیجه شوند، جلوگیری کنیم. با توجه به پارامترهای در دسترس این عملگر، انتخاب ویژگی ها می تواند به چندین شکل مختلف صورت پذیرد.
عملگر آن دسته از ویژگی های موجود در یک مجموعه داده که باید انتخاب شوند و آن دسته که باید حذف شوند را مشخص می کند. بنابراین امکان استفاده از چندین نوع فیلتر برای انتخاب ویژگیهای در پارامتر attribute filter type وجود دارد. تنها ویژگی های متناسب با نوع فیلتری که از پیش تعیین شده است، انتخاب خواهند شد و بقیه از مجموعه داده حذف می شوند. یک پارامتر سراسری به نام invert selection نیز برای معکوس کردن نتیجه خروجی وجود دارد. در صورتی که این پارامتر فعال باشد، تمام ویژگی هایی که با توجه به تنظیم نمودن پارامترهای قبلی می بایست حذف می شدند، نگهداری شده و ویژگی هایی که باید انتخاب می شدند حذف خواهند شد؛ به طور کلی برای معکوس کردن خروجی از این پارامتر استفاده می کنیم. انواع فیلتر ویژگی برای این عملگر و با استفاده از پارامتر attribute filter type عبارتند از: . All: در صورت انتخاب این گزینه، تمام ویژگی ها انتخاب می شوند. مقدار پارامتر attribute filter type به صورت پیش فرض All است.
Single با استفاده از این گزینه تنها یک ویژگی انتخاب می شود. در صورت انتخاب این گزینه، کادری با عنوان attribute ظاهر می شود که می توان در فیلد آن نام ویژگی مورد نظر را نوشت و یا در صورتی که فراداده برای عملگر Select Attributes مشخص شده باشد از طریق متصل نمودن خروجی مخزن به ورودی این عملگر، فراداده برای عملگر مشخص می شود می توان از طریق کادر مشخص شده در مقابل پارامتر attribute ویژگی مورد نظر را انتخاب کرد.
که از این گزینه می توان تعدادی از ویژگی ها را از میان یک لیست انتخاب نمود. این گزینه نیز در صورتی که فراداده برای عملگر مشخص شده باشد قابل استفاده است. در صورت انتخاب این گزینه، کادری با عنوان Select Attributes ظاهر خواهد شد، در این کادر تمام ویژگی های موجود در یک لیست Attributes نمایش داده می شوند که می توان هر کدام از آنها را انتخاب کرده و به لیست Selected Attributes انتقال داد.
Regular expression: با انتخاب این گزینه امکان تعریف یک عبارت منظم فراهم می شود تا هر ویژگی که نام آن شامل این عبارت منظم باشد، انتخاب شود. در صورت انتخاب این گزینه، کادری با عنوان regular expression ظاهر شده که کاربر می تواند عبارت منظم مورد نظر خود را در آن وارد نماید. استفاده از عبارت های منظم قدرت مانور بالایی را در انتخاب ویژگی در اختیار کاربر قرار میدهد.
value type: با استفاده از این گزینه می توان فقط ویژگیهای از یک نوع خاص را انتخاب کرد. با انتخاب این گزینه، کادری با عنوان value type ظاهر خواهد شد که شامل انواع مختلف ویژگیها است. به عنوان نمونه ویژگی های همچون nominal polynominal binorminal و... به صورت سلسله مراتبی در این کادر قرار دارند. در نهایت ویژگی هایی که نوع مقادیر آنها با نوع انتخابی یکی باشد، انتخاب خواهند شد.
block type: این پارامتر مشابه با value type است با این تفاوت که انتخاب ویژگیها در آن، بسته به نوع بلاک صورت خواهد پذیرفت.
no missing values: با استفاده از این گزینه تمام ویژگی هایی که شامل مقادیر null در هیچ کدام از نمونه ها نباشند، انتخاب خواهند شد. numeric value
filter: این گزینه ویژگی ها را بررسی می کند و آن ویژگی هایی را که دارای مقادیر عددی باشند و یا تمام مقادیر آنها در همه نمونه ها، با شرایط عددی مورد اشاره به صورت یک رشته در فیلد numeric condition تطابق داشته باشد، انتخاب
کند. با انتخاب این گزینه کادری با عنوان numeric condition ظاهر می شود، شرط عددی مورد نظر برای انتخاب ویژگی ها با نوشتن یک شرط در این کادر تعیین خواهد شد. به عنوان مثال شرط 6<string تمام ویژگیهای nominal و تمام ویژگیهای numeric که مقادیر آنها در تمام نمونه ها بزرگتر از 6 هستند را انتخاب می کند. می توان شرایط مختلف را نیز با یکدیگر ترکیب کرد. به عنوان نمونه شرط مورد نظر می تواند به صورت "11> && <6" و یا ".>||۵ => باشد. اما && و || نباید با یکدیگر ترکیب شوند.
آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل، آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.