هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 7

هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 7


  • 154 بازدید

تاریخچه هرزنامه با تاریخچه اینترنت و وب مشابه است، از زمانی که وب وارد دنیای مجازی شد از همان زمان هرزنامه‌ها نیز وارد دنیای وب شدند. در سال های اولیه شروع وب و استفاده کاربران از ایمیل‌ها، کسانی که به دنبال تبلیغات محصول خود بودند این موضوع را فرصتی برای تبلیغ کالاهای خود دیدند، به همین دلیل در ابتدا و در دهه 90 میلادی هرزنامه‌ها بیشتر به صورت ایمیل ظاهر شدند. در این زمان کسانی که به دنبال تبلیغات محصولات خود بودند به‌راحتی ایمیل‌های تبلیغات خود را به هزاران نفر ارسال می کردند، بدین ترتیب به هدف خود که تبلیغ کالایشان بود می رسیدند. با پیشرفت وب انواع هرزنامه‌ها وارد دنیای مجازی شدند و شکل استفاده از آنها پیچیده تر شد. در ابتدا هرزنامه‌ها صرفا هدف تبلیغاتی داشتند ولی اکنون برای انتشار لینک های مخرب، تکثیر محتوای مستهجن و یا انتشار اخبار دروغ نیز استفاده می‌شود. گستردگی هرزنامه باعث شده است همچنان تحقیقات بسیاری برای متوقف کردن آن‌ها در جریان باشد. بنابر آمارهای مربوط در سال 2002 بیش از 36% از ایمیل ها را هرزنامه ها تشکیل می دادند، ولی در سال 2013 این رقم به 70% درصد افزایش پیدا کرده است.
در این قسمت مقالات مرتبط با شناسایی هرزنامه مورد اشاره قرار خواهد گرفت. شناسایی هرزنامه‌ها از زیر مجموعه های متن کاوی و کشف دانش از متن است و دارای سابقه بسیاری در بین محققین است. از زمانی که ارسال هرزنامه توسط تولید کنندگان هرزنامه شروع شد، محققین به دنبال ارائه راه‌حل‌هایی برای فیلتر کردن این هرزنامه‌ها بودند. روش ها و الگوریتم های متن کاوی در شناسایی هرزنامه ها کاربرد گسترده ای دارند و این فیلد مطالعاتی یکی از کاربردهای متن کاوی است. 
در پژوهشی دیگرآرام و همکاران به منظور بهینه سازی عملکرد شبکه عصبی مصنوعی برای تشخیص هرزنامه در محتوای انگلیسی از ترکیب شبکه عصبی مصنوعی و الگوریتم ژنتیک استفاده کردند. الگوریتم ژنتیک برای تعیین برخی پارامترهای شبکه عصبی مصنوعی به منظور ارتقاء عملکرد یادگیری شبکه عصبی مصنوعی استفاده شده بود. مجموعه داده مبتنی بر هرزنامه که در این پژوهش استفاده شده مجموعه داده هرزنامه ایمیل هاست. این مجموعه داده دارای 57 ویژگی می باشد که به سه مجموعه تقسیم بندی شده بود. هر مجموعه حاوی درصد متفاوتی از داده های هرزنامه و غیر هرزنامه بود. برای اولین مجموعه، 70 %از داده ها هرزنامه و 30 %غیر هرزنامه، در مجموعه ثانویه، 50 %از داده ها هرزنامه و 50 %غیر هرزنامه و در مجموعه آخر 30 % داده ها هرزنامه و 70 % از داده ها غیر هرزنامه بودند. آنها از 60 %هر مجموعه برای هدف آموزش و 40 % باقیمانده برای آزمایش استفاده کرده اند. در شبکه های عصبی علاوه بر لایه ورودی و خروجی، لایه های نهان دیگری نیز وجود دارد که در عملکرد موثر است. محققین بهترین تعداد لایه نهان برای مدل تشخیص هرزنامه را سه لایه عنوان کرده اند. در این آزمایش از 4661 نمونه ایمیل استفاده شده است که 39 درصد از ایمیل ها شامل 1813 هرزنامه و مابقی غیر هرزنامه بود. نتایج بدست آمده دال بر این داشت که کارایی ترکیب شبکه عصبی مصنوعی و الگوریتم ژنتیک نسبت به شبکه عصبی مصنوعی افزایش می یابد. برای نمونه، میانگین دقت کل مجموعه داده از 88.33% به 93.71 %بهبود یافته است و همچنین با استفاده از الگوریتم ژنتیک به عنوان یک روش بهینه سازی، دقت افزایش یافته و مثبت کاذب و منفی کاذب کاهش یافته اند، مثبت کاذب و منفی کاذب نشان دهنده خطاها در طبقه بندی است. مثبت کاذب زمانی رخ می دهد که ایمیل غیر هرزنامه و همه ی داده هایی که ما نیاز داریم تا آنها را در مقابل ویروسها محافظت کنیم، به عنوان هرزنامه شناسایی شده باشند. در مقابل، منفی کاذب درصد هرزنامه بودن را محاسبه می کند که به اشتباه به عنوان غیر هرزنامه طبقه بندی شده اند. در نهایت بهترین دقت حاصل شده برای روش ارائه شده 93 درصد گزارش شده است.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی و شناسایی هرزنامه ها در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.