رگرسیون درختی و طبقه بندی

رگرسیون درختی و طبقه بندی


  • 320 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده 
داده کاوی یک علم میان رشته ای با هدف استخراج دانش پنهان از میان بانک اطلاعاتی انبوه می باشد، رگرسیون درختی و طبقه بندی از روش های مهم داده کاوی است و مدلی ناپارمتریک و بدون پیش فرض خاص محسوب می شود. در این روش شاخه های دوتایی بر اساس یک متغیر مستقل ایجاد می شوند، معیار ارزیابی شاخه های گوناگونی نام دارد. برای جداسازی گره به دو زیر گره می توان از شاخص چینی یا شاخص دوتایی استفاده نمود. مهمترین و اصلی ترین معیار ارزیابی درخت ایجاد شده، معیار نرخ خطا در درخت است. به منظور محاسبه ی نرخ خطای کل درخت، مجموع وزنی نرخ خطاهای برگها بدست آورده می شود. به منظور جلوگیری از تولید قانون های بی کیفیت در برخی از شاخه ها، هرس صورت می۔ گیرد. هرچند این عمل باعث افزایش نرخ خطا می شود، اما مانع از ایجاد برخی قانون های ناکارا می شود. توجه به این نکته نیز ضروری است که هرس به نحوی صورت گیرد تا خطا از مقدار معینی بیشتر نشود. در نهایت باید توجه داشت که درختی بهینه است که کمترین هزینه ی دسته بندی اشتباه را برای داده های آزمایشی داشته باشد. 

نتیجه گیری
کارت که یک مدل ناپارامتری و بدون هرگونه پیش فرض در خصوص رابطه بین متغیرهای مستقل و متغیر هدف است و از روش های مهم داده کاوی می باشد. به طور گسترده در تجارت صنعت، مهندسی و سایر علوم استفاده می شود. الگوریتم طبقه بندی و درخت رگرسیون سه وظیفه مهم را در بر می گیرد؛ اول، این که چگونه در هر مرحله داده ها را بخش بندی نماید. دوم، چه زمانی بخش بندی را متوقف نماید. آخرین وظیفه، چگونگی پیش بینی مقدار و برای هر x در یک بخش بندی است.
عمل شاخه بندی پایه ساخت درخت است، در الگوریتم CRT هر گروه غیر برگ آن، به دو گروه دیگر تفکیک می گردد. در این مقاله، قاعدهی جینی و قاعده ی دوتایی بررسی شده است. گره ای که دارای شرایط شاخه بندی نباشد یک برگ نامیده می شود.
برای تعریف درجه توافق (قانون توقف) می توان پارامترهای خطای مجاز برای گره (مسئله PR)، واریانس مجاز (مسئله RA) | و آستانه برای مشاهدات کیفی را تعریف نمود.
معیارهای بهره اطلاعاتی، نسبت بهره و شاخص چینی برای تعیین صفتی که شکاف باید بر اساس آن انجام شود، وجود دارد مهمترین و اصلی ترین معیارها جهت کنترل کیفیت درخت ایجاد شده، معیار نرخ خطا در درخت می باشد.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.