ارائه روشی برای تشخیص رکوردهای مشابه در پایگاه داده های بزرگ با استفاده از شبکه عصبی

ارائه روشی برای تشخیص رکوردهای مشابه در پایگاه داده های بزرگ با استفاده از شبکه عصبی


  • 118 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده 
پایگاه داده های بزرگ معمولا شامل رکوردهایی است که به یک موجودیت یکسان اشاره دارند. استفاده از اختصار، سامانه های متنوع سازمانی، تجمیع منابع داده مختلف دلایلی هستند که منجر به رکوردهای تکراری در پایگاه داده می گردند. این مساله بخاطر اینکه تاثیر مخربی بر آمار و گزارشات و نتایج داده کاوی از پایگاه داده ها می گذارد بسیار مهم است. در این مقاله، راه حل جدیدی برای تشخیص رکوردهای مشابه در پایگاه داده های بزرگ با استفاده از شبکه عصبی MLP ارائه شده است. نتایج ارزیابی نشان می دهد در صورتی که شبکه عصبی با داده های مناسب آموزش ببیند عملکرد خوبی نسبت به روش های قبلی دارد. این روش بصورت ماژولی جهت تشخیص تکرارها، برای سیستم های برخط بزرگ مانند موتورهای جستجو قابل استفاده است.

نتیجه گیری و کارهای آتی
تشخیص و شناسایی رکوردهای تکراری در پایگاه داده های بزرگ بسیار اهمیت دارد. در این مقاله راه حل جدیدی با استفاده از شبکه عصبی MLP برای تشخیص رکوردهای تکراری استفاده ارائه شد. نتایج ارزیابی نشان می دهد در صورتی که شبکه عصبی با داده های مناسب آموزش ببیند عملکرد خوبی نسبت به روش - های قبلی دارد. تنظیم پارامترهای مختلف (تعداد ترون های پنهان، تعداد اپک های آموزش، تعداد و توزيع الگوهای داده آموزشی و غیره) چالش اصلی است. برخی از این پارامترها بر اصل سعی و خطا انتخاب می شوند. شبکه ایجاد شده همیشه راه حل بهینه نمی دهد، اما با بهبود تنظیمات درست میتواند پاسخ های بهتری تولید نماید.
یکی از جهت گیری ها برای بهبود آتی راه حل بحث شده آزمایش های بیشتر با شبکه عصبی است. شبکه عصبی می تواند از شیوه های موثرتری برای مقدار دهی اولیه وزن ها، بهبود در لایه پنهان یا توابع فعال ساز متناسب با داده ها، تکنیکهای مختلف برای پویایی در تعیین مقادیر نرخ یادگیری و ضریب ممنتم در طول آموزش استفاده نماید.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.