دسته بندی مشتریان هدف با استفاده از الگوریتم KNN و بهبود این روش با استفاده از مفاهیم داده های بزرگ در شبکه های اجتماعی

دسته بندی مشتریان هدف با استفاده از الگوریتم KNN و بهبود این روش با استفاده از مفاهیم داده های بزرگ در شبکه های اجتماعی


  • 188 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده
رشد سریع شبکه های اجتماعی مقدار بی سابقه ای از داده های ایجاد شده توسط کاربران را به وجود آورده است که فرصتی عالی را برای متن کاوی فراهم آورده است. شبکه های اجتماعی نظیر توییتر تبدیل به یک سرویس محبوب میکروبلاگینگ شده است که در آن کاربران پیام های وضعیت یا نظرات را ایجاد می کنند. کاربران از این نظرات به عنوان یک وسیله برای بروز آوری آنچه که در ذهنشان است استفاده می کنند. در این مقاله روشی برای شناسایی مشتریان هدف بر اساس تحليل نظرات آن ها از طریق کاوش عقاید و رضایت مندی آن ها در مورد محصولات مختلف ارائه شده است. در این روش با استفاده از الگوریتم ژنتیک، تشخیص نهایی برای دسته بندی مشتریان هدف صورت، گرفته است. روش پیشنهادی با داده های استاندارد مربوط به نظرات کاربران شبکه اجتماعی توییتر مورد ارزیابی قرار گرفته است. نتایج حاصل از طبقه بندی کننده بر روی ویژگی های استخراجی توسط الگوریتم ارائه شده، با نتایج حاصل از طبقه بندی با استفاده از تمامی ویژگیها مورد مقایسه قرار گرفته است. نتایج ارائه شده، نشان دهنده کیفیت بالای روش پیشنهادی در مقایسه با مطالعات پیشین می باشد.

نتیجه 
رشد سریع شبکه های اجتماعی مقدار بی سابقه ای از داده های ایجاد شده توسط کاربران را به وجود آورده است که فرصتی عالی را برای متن کاوی فراهم آورده است. تجزیه و تحلیل نویسنده، بخش مهمی از متن کاوی است که تلاش دارد تا درباره نویسنده متن از طريق تغييرات دقیق در سبک نوشتن که بین جنس، سن و گروه اجتماعی روی می دهد یادگیری داشته باشد. چنین اطلاعاتی کاربردهای گوناگونی دارد که شامل تبلیغات و اجرای قانون است. عملکردهای سیستم های استنتاجی موجود با محاسبه درجه صحت و درستی نتایج پیش بینی شده در مقابل نتایج تشخیصی که به عنوان مقدار پیش بینی شده مثبت ارائه شده، مورد ارزیابی قرار گرفته اند. در این تحقیق پس از پیش پردازش و پاک کردن داده های شبکه اجتماعی، یک روش اصلاح شده با استفاده از ترکیب الگوریتم ژنتیک برای انتخاب ویژگی و طبقه بندی کننده های مختلف برای کسب تشخیص نهایی در مورد دسته بندی مشتریان هدف مورد استفاده قرار گرفته است. برای افزایش دقت سیستم استنتاج، روش هایی برای کاهش تعداد فاکتورهای ورودی با رویکرد عدم کاهش دقت تشخیص، مدنظر قرار گرفتند کاهش بعد می تواند با دو رویکرد به دست آید؛ استخراج ویژگی و انتخاب ویژگی. استخراج ویژگی بیانگر تبديل خطی یا غیر خطی از فضای اصلی ویژگی به یک فضای جدید با ابعاد کمتر می باشد. از سوی دیگر، انتخاب ویژگی، زیر مجموعه ای از ویژگی را به واسطه انتخاب ویژگی های مهم از نمونه های اصلی بدون هیچ گونه تغییری، تولید می کند
ارزیابی کیفیت اهداف کارایی بیان شده بر اساس اطلاعات متقابل صورت می پذیرد تا به طور جداگانه میزان همبستگی داده ها و افزونگی زیر مجموعه ویژگی های انتخابی را اندازه گیری کند. این دو معیار هر دو کیفیت اختصاصی ویژگی های انتخاب شده و کیفیت زیر مجموعه را اندازه گیری می کنند. ویژگی های استخراج شده توسط الگوریتم ژنتیک توسط حطبقه بندی کننده K نزدیکترین همسر یه مورد استفاده قرار می گیرد. تو اور این تحیق استفاده از دو مفهوم همبستگی و افزونگی می باشد. بعد از انتخابر ویژگی های بهینه الگوریتیم ماشین از روش طبقه بندی کننده به نزدیکترین همسایه برای دسته بندی داده ها انتخاب می گردد. روش پیشنهادی با داده های استاندارد مربوط به نظرات کاربران شبکه اجتماعی توییتر مورد ارزیابی قرار گرفته است و نتایج حاصله از طبقه بندی کننده بر روی ویژگی های استخراجی توسط الگوریتم ارائه شده، با نتایج حاصل از طبقه بندی با استفاده از تمامی ویژگی های مورد مقایسه قرار گرفته است. روش پیشنهادی مورد شبیه سازی قرار گرفته است. نتایج ارائه شده، نشان دهنده کیفیت بالای روش پیشنهادی می باشد. نتایج نشان داد که روش پیشنهادی انتخاب ویژگی بر اساس الگوریتم ژنتیک بر اساس همبستگی و افزونگی داده ها، نسبت به سایر روش انتخاب ویژگی های برتری قابل توجهی دارد.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی در مورد کلان داده و بیگ دیتا که شامل صد 100 مقاله فارسی در مورد الگوریتم ها و روش های کلان داده و بیگ دیتا است به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.