روش های داده کاوی برای یافتن داده های تکراری در پایگاه داده های بزرگ

روش های داده کاوی برای یافتن داده های تکراری در پایگاه داده های بزرگ


  • 440 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده 
داده کاوی، پایگاهها و مجموعه های حجیم داده را برای کشف و استخراج دانش، مورد تحلیل قرار میدهد. در سال های اخیر داده کاوی، با توجه به دسترسی گسترده به مقادیر بسیار زیاد داده و نیاز به تبدیل چنین داده هایی به اطلاعات و دانش مفید، در صنعت اطلاعات و در کل جامعه، توجه زیادی را به خود جلب کرده است. اطلاعات و دانش حاصل می تواند برای برنامه های کاربردی نظیر تجزیه و تحلیل بازار، تشخیص تقلب، حفظ مشتری، کنترل تولید و اکتشاف علمی و ... استفاده شود. یکی از مشهورترین تکنیک های داده کاوی برای تصمیم گیرندگان تجاری در پایگاه داده های بزرگ استخراج قوانین وابستگی است. کشف قوانین وابستگی در قلب داده کاوی قرار دارد. پیدا کردن مجموعه داده های تکراری، فرآیند اصلی در یافتن قانون وابستگی است. 
الگوریتم های بسیار زیادی برای پیدا کردن الگوهای تکراری وجود دارند که در این مقاله تعدادی از آنها ارائه شده است. Apriori و FP -tree متداول ترین روش ها برای یافتن آیتم های مکرر هستند. روش های دیگر از جمله prior TII AIS SETM و TR - FGTN می باشند. Apriori با استفاده از تولید کاندیدا با تعداد بیشتری از اسکن های پایگاه داده، تعداد قابل ملاحظه ای یتم تکراری پیدا می کرد. FP- tree برای پیدا کردن آیتم های تکراری از دو اسکن پایگاه داده بدون استفاده از تولید کاندید استفاده می کند. روش TR- FCTM با ایجاد یکباره ی کاندیدها به منظور تشکیل جدول شمارش تکرار با یک اسکن پایگاه داده، آیتم های تکراری را پیدا می کند. بررسی ها نشان میدهد که الگوریتم TR - FCTM عملکرد بهتری نسبت به Apriori و FP- tree دارد.

نتیجه گیری و جمع بندی
داده کاوی به استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده ها در پایگاه داده های بزرگ گفته می شود. الگوریتمهای یافتن الگوهای تکراری به منظور پیدا کردن الگوهای جالب توجه در پایگاه های داده ی بزرگ بسیار مهم هستند. استخراج قوانین وابستگی یکی از مشهورترین تکنیک های داده کاوی در پایگاه داده های بزرگ است. پیدا کردن مجموعه داده های تکراری، فرآیند اصلی در یافتن قانون وابستگی است.
الگوریتم های بسیار زیادی برای پیدا کردن الگوهای تکراری و قوانین وابستگی وجود دارند که در این مقاله تعدادی از آنها از جمله SETM ، TR - FCTM Apriori TID ، FP - tree Apriori و AIS ارائه شدند. هر الگوریتم مزایا و معایب خودش را دارد. اولین الگوریتم منتشر شده برای تولید تمام مجموعه آیتم های بزرگ در تراکنشهای یک پایگاه داده الگوریتم AIS بود. الگوریتم SETM مشابه الگوریتم AIS، چندین گذر روی پایگاه داده انجام می دهد. Apriori با استفاده از تولید کاندید با تعداد زیادی اسکن روی پایگاه داده، آیتم های تکراری زیادی پیدا می کند. FP - tree برای پیدا کردن آیتم های تکراری از دو اسکن پایگاه داده استفاده می کند. الگوریتم TR- FCTM با استفاده از ادغام تراکنش ها، یافتن تعداد تکرارها و شمارش کل تکرارها برای یک مجموعه داده طراحی شده است. بررسی ها نشان میدهد که الگوریتم TR - FCTM عملکرد بهتری نسبت به الگوریتم های Apriori و FP-tree دارد.
امروزه استخراج قوانین وابستگی بین آیتم ها در تراکنش های فروش پایگاه داده های بزرگ به عنوان یک موضوع مهم تحقیقاتی در پایگاه داده ها شناخته شده است.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی در مورد کلان داده و بیگ دیتا که شامل صد 100 مقاله فارسی در مورد الگوریتم ها و روش های کلان داده و بیگ دیتا است به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.