بررسی داده کاوی توزیع شده با الگوریتم k-means

بررسی داده کاوی توزیع شده با الگوریتم k-means


  • 196 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده
اكثر الگوریتم های خوشه بندی نیاز به داده های متمرکز دارند، اما این الگوریتم ها با توسعه اینترنت و در برخورد با داده های توزیع شده ، با دو چالش روبرو شدند. اول، حجم داده های تولید شده حتی برای ابر کامپیوترها هم خیلی زیاد شده است. دوم، داده ها در چندین مکان ذخیره شده اند و متمرکز کردن آنها در یک جا بسیار پر هزینه خواهد بود، هيم چنین محدودیت پهنای باند و حریم شخصی نیز از نگرانی ها و موانع متمرکز سازی داده ها می باشد. به همین دلیل برای حل این مشکلات، داده کاوی توزیع شده یک حوزه تحقیقاتی پرطرفدار شده است. یکی از الگوریتم های خوشه بندی، الگوریتم کامینز است که به عنوان یکی از با تفود ترین الگوریتم های داده کاوی مورد استفاده قرار می گیرد و بسیار ساده و مقیاس پذیر است. در سال های اخیر نسخه هایی از این الگوریتم انتشار یافته است که می تواند در برخورد با داده های توزیع شده ، به خوبی عمل کرده و نتایج خوبی را ارائه دهد. در این الگوریتم ها ، نیازی به جمع آوری کردن اطلاعات و داده ها در یک مجموعه متمرکز نیست. در این مقاله قصد داریم که این الگوریتم ها را معرفی و بررسی کنیم.

نتیجه گیری
با توجه به رشد داده های توزیع شده و عدم جابه جایی این داده ها به یک مجموعه متمرکز ، داده کاوی توزیع شده می تواند بسیار مفید باشد. در این میان الگوریتم های متفاوتی برای این زمینه وجود دارد. در این مقاله روش های داده کاوی توزیع شده با الگوریتم کامینز را بررسی کردیم. برخی از این الگوریتم ها به دلیل اینکه به صورت موازی اجرا می گردند می توانند سرعت داده کاوی را به طور قابل ملاحظه ای افزایش دهند. هم چنین بنابر اهمیت امنیت داده در محیط های توزیع شده، الگوریتم های گروه محور می توانند بدون نیاز به جا به جا کردن اطلاعات در این محیط های داده کاوی را انجام دهند.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

​اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.