هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 11

هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 11


  • 331 بازدید

تاریخچه هرزنامه با تاریخچه اینترنت و وب مشابه است، از زمانی که وب وارد دنیای مجازی شد از همان زمان هرزنامه‌ها نیز وارد دنیای وب شدند. در سال های اولیه شروع وب و استفاده کاربران از ایمیل‌ها، کسانی که به دنبال تبلیغات محصول خود بودند این موضوع را فرصتی برای تبلیغ کالاهای خود دیدند، به همین دلیل در ابتدا و در دهه 90 میلادی هرزنامه‌ها بیشتر به صورت ایمیل ظاهر شدند. در این زمان کسانی که به دنبال تبلیغات محصولات خود بودند به‌راحتی ایمیل‌های تبلیغات خود را به هزاران نفر ارسال می کردند، بدین ترتیب به هدف خود که تبلیغ کالایشان بود می رسیدند. با پیشرفت وب انواع هرزنامه‌ها وارد دنیای مجازی شدند و شکل استفاده از آنها پیچیده تر شد. در ابتدا هرزنامه‌ها صرفا هدف تبلیغاتی داشتند ولی اکنون برای انتشار لینک های مخرب، تکثیر محتوای مستهجن و یا انتشار اخبار دروغ نیز استفاده می‌شود. گستردگی هرزنامه باعث شده است همچنان تحقیقات بسیاری برای متوقف کردن آن‌ها در جریان باشد. بنابر آمارهای مربوط در سال 2002 بیش از 36% از ایمیل ها را هرزنامه ها تشکیل می دادند، ولی در سال 2013 این رقم به 70% درصد افزایش پیدا کرده است.
در این قسمت مقالات مرتبط با شناسایی هرزنامه مورد اشاره قرار خواهد گرفت. شناسایی هرزنامه‌ها از زیر مجموعه های متن کاوی و کشف دانش از متن است و دارای سابقه بسیاری در بین محققین است. از زمانی که ارسال هرزنامه توسط تولید کنندگان هرزنامه شروع شد، محققین به دنبال ارائه راه‌حل‌هایی برای فیلتر کردن این هرزنامه‌ها بودند. روش ها و الگوریتم های متن کاوی در شناسایی هرزنامه ها کاربرد گسترده ای دارند و این فیلد مطالعاتی یکی از کاربردهای متن کاوی است. 
هالس و همکارانش در مورد شناسایی هرزنامه در دو زبان انگلیسی و عربی تحقیقی انجام داده اند. در این تحقیق شناسایی هرزنامه به عنوان یک طبقه بندی متن در نظر گرفته شده است و برای شناسایی هرزنامه در ایمیل های هرز و سالم، شش الگوریتم یادگیری ماشین به نام های شبکه عصبی، نایوبیز، درخت تصمیم گیری، نزدیک ترین همسایه، ماکسیم انتروپی و الگوریتم ماشین بردار پشتیبان مورد استفاده قرار گرفته است. الگوریتم ماکسیمم انتروپی با 94 درصد دقت طبقه بندی بهترین مدل شناسایی هرزنامه را ارائه کرده است.
ریچارد و همکارانش سعی کرده اند برای شناسایی ایمیل های انگلیسی روش های بهتری ارائه دهند. در این تحقیق برروی روش های انتخاب ویژگی در کنار الگوریتم های یادگیری ماشین کار شده است و به این نتیجه رسیده اند که روش انتخاب ویژگی فراوانی وزنی بهتر از بقیه بوده است و دقت طبقه بندی هنگامی که از این روش استفاده می شود بهتر از بقیه روش هاست. در روش ها و الگوریتم های متن کاوی تا حدود زیادی مراحل ثابتی وجود دارد، با پیش پردازش سعی می شود داده های غیر ساخت یافته به داده های ساخت یافته تبدیل شود و متون تا بالاترین حد یکسان سازی شود. بعد از مرحله پیش پردازش مرحله استخراج و انتخاب کلمات  فرا می رسد. در این مرحله بر روی کلمات، انتخاب ویژگی اعمال شده و تعداد ویژگیها کاهش می یابد. با حاصل شدن کلمات اولویت بندی شده توسط فراوانی وزنی، مدل شناسایی هرزنامه توسط الگوریتم ها ایجاد می شود. در این بین از الگوریتم های یادگیری ماشین برای ایجاد مدل دسته بندی استفاده شده است. بر اساس ادعای نویسندگان دقت 82 درصدی برای شناسایی هرزنامه ها به دست آمده است. این میزان دقت دلیل بر موفقیت روش انتخاب ویژگی فراوانی وزنی برای شناسایی هرزنامه عنوان شده است.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی و شناسایی هرزنامه ها در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.