آموزش عملگرهای رپیدماینر، عملگر (Read CSV)

آموزش عملگرهای رپیدماینر، عملگر (Read CSV)


  • 446 بازدید

داده کاوی علمی است که به دنبال پیدا کردن الگوی نهفته از داده های خام است. ولی این الگوی نهفته چگونه و با چه ابزاری باید از داده خام استخراج شود؟ 

چه چیزی داده کاوی نیست؟

داده کاوی چیست؟

نرم افزار رپیدماینر بسیار محبوب است زیرا توانسته برای پیاده سازی مسائل مختلف داده کاوی راه حل های مفیدی ارائه دهد. هزاران مقاله در زمینه داده کاوی با استفاده از رپیدماینر پیاده سازی شده اند که در وب سایت دیتاهارت دهها مقاله فارسی در مورد داده کاوی که با رپیدماینر پیاده سازی شده اند به صورت رایگان در اختیار علاقه مندان داده کاوی قرار داده است که می توانید آن ها را دانلود کنید. خواندن این مقالات به شما این امکان را می دهد که با قابلیت های نرم افزار رپیدماینر بیشتر آشنا شوید. 

انجام پایان نامه در حوزه متن کاوی

در این سلسله مقالات ابزار داده کاوی رپیدماینر به عنوان قویترین ابزار پیاده سازی آموزش داده می شود. مانند دیگر ابزارهای، ابزار داده کاویِ رپیدماینر نیز از عملگرها تشکیل شده است بدین ترتیب که با استفاده از اتصال عملگرها، مدلهای داده کاوی ایجاد شده و مورد استفاده قرار می گیرد. بدین ترتیب در ادامه مخاطب با عملگرهای رپیدماینر آشنا می گردد. لازم به ذکر است که این توضیحات از کتاب داده کاوی کاربردی صنیعی آباده برداشته شده است که البته ترجمه کلمه به کلمه از توضیحات داخل خود نرم افزار رپیدماینر است. 


این عملگر می تواند فایل های csv را که در آن تمامی مقادیر یک نمونه در یک خط نوشته شده اند و به کمک یک تفکیک کننده ثابت از هم جدا شده اند، بخواند. تفکیک کننده توسط پارامتر column separator  مشخص می شود. به صورت پیش فرض هر خط با ویرگول، نقطه-ویرگول و یا فضای خالی از هم جدا خواهد شد. عبارات منظم هم می توانند به صورت قرار دادی به عنوان تفکیک کننده مورد کاربرد قرار گیرند. مقادیر خالی و علامت سؤال به عنوان مقادیر از دست رفته خوانده خواهند شد. کاری می تواند مقادیری که شامل تفکیک کننده های ستونی هستند را با یک جفت علامت نقل قول به صورت (") نشان دهد. می توان علامت نقل قول را توسط یک ممیز برعکس مانند "نمایش داد. خط نخست معمولا به شکل پیش فرض برای ویژگی نام به کار می رود که با پارامتر use first row as attribute names قابل کنترل است. این عملگر سعی می کند نوع ویژگی ها را با خواندن کمترین میزان خطوط ابتدایی و با بررسی مقادیر سطرهای ابتدایی، پیش بینی کند. اگر همه مقادير اعداد صحیح باشند، ویژگی نیز به صورت عدد صحیح تعیین خواهد شد و به همین ترتیب اگر مقادیر از نوع اعشاری باشند، ویژگی ها به صورت اعداد اعشاری در نظر گرفته می شوند. ستون هایی دارای مقادیری که نمی توان آن را به صورت عددی تفسیر کرد، مادامی که مطابق با الگوهای زمانی و تاریخی قابل بررسی نباشند، از نوع سمی در نظر گرفته خواهند شد. در غیر این صورت این ستون فایل csv به طور خودکار به عنوان داده خروجی عملگر حاوی تاریخ به بخش های سال و ماه و روز تفکیک شده و ویژگی از نوع ویژگی تاریخ تعیین می شود.

مجموعه مقالات داده کاوی پیاده سازی شده توسط رپیدماینر را می توانید به صورت رایگان از وب سایت دیتاهارت دانلود کنید.  

آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل، آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.