آکادمی داده که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم دادهکاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است. آکادمی داده امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات آکادمی داده تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم دادهکاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط آکادمی داده تهیه شده و قابل دانلود است.
چکیده
تکنیک های داده کاوی به صورت گسترده ای در دنیا در حوزه کشف تقلب مورد استفاده قرار گرفته شده است، دلیل این موضوع انطباق زیاد این فرآیند با نیازمندی های مساله کشف تقلب می باشد. در این مقاله سعی بر پیاده سازی قدم به قدم فرآیند داده کاوی بر داده های مربوط به تراکنش های کارت بانکی فردی خاص، جهت کشف رفتار مشکوک در این تراکنش ها شده است، در مرحله مدل سازی این فرآیند از تکنیک تحلیل خوشه جهت آموزش مدل هایی با پارامترها و تنظیمات متنوع (برای مثال تعداد خوشه های مختلف، تعداد ترون های مختلف و ...) بر داده های بدون برچسب، استفاده شده است، تکنیک خوشه بندی انتخاب گردیده در این مقاله نگاشت خود سازمانده یا همان شبکه عصبی کوهنن می باشد، بعد از خوشه بندی داده ها از مدل طبقه بندی، داده ها از مدل طبقه بندی، جهت ارزیابی مدل های غیر نظارتی و همچنین انتخاب بهینه ترین مجموعه مدل ترکیبی (مدل های نظارتی و غیرنظارتی) جهت کشف رفتار مشکوک تراکنش های آتی، استفاده شده است، تکنیک طبقه بندی انتخاب شده، مدل مجموعه قوانین با استفاده از الگوریتم C5 می باشد. در انتهای تحقیق نیز، قوائد مدل طبقه بندی بهینه، جهت استخراج دانش هایی مورد تفسیر قرار گرفته است.
نتیجه گیری
در این مرحله ۱۳ قانون مربوط به مدل طبقه بندی مجموعه قوانین C5 متناظر با شبکه کوهنن با تعداد ۸ خوشه را استخراج نموده ایم و با بررسی های بیشتر بر روی مکانیزم تولید هر یک از این قوانین، رفتارهای مشکوک شناسایی شده توسط این مدل و همچنین نکات دیگر بدست آمده در حین تحقیق، بصورت کلی نتایج زیر حاصل گردید نتایج فرد گرایانه همچون: اگر شخصی با کارت فرد مورد نظر از تاریخ ششم ماه تا تاریخ ۱۰ ماه تراکنش از طریق پوز انجام دهد این تراکنش مشکوک به نظر می رسد چون معمولا در مدل رفتاری این فرد هیچگاه چنین تراکنش انجام نشده است، و یا اینکه فرد مذکور همیشه از طریق یک ترمینال خاص از طریق اینترنت تراکنش مالی انجام رفتارهای مشکوک قرار گیرد و موارد دیگر...
آن دسته از خصوصیات متغیر های ورودی که در کل داده های تاریخی، دارای سهم(درصدی) پایینی می باشند، دارای احتمال بالایی برای تخصيص نسبتهای بالا به خود، در کل رفتار مشکوک شناسایی شده هستند. برای مثال تعداد تراکنشهای POS که در کل داده های آموزشی سهم ۳ درصدی دارا بوده است، در کل رفتار مشکوک شناسایی شده توسط مدل، سهمی معادل با ۵۳ درصد را دارا می باشد.
عدم وجود یک فیلد در متغیرهای ایجاد کننده شروط در قوانین، دو معنی می تواند داشته باشد، معنی اول تنوع زیاد آن متغیر ورودی و عدم ایجاد الگو توسط مدل برای آن به دلیل تنوع زیاد می باشد و معنی دوم وجود رفتاری یکسان و الگوی پیش از اندازه شفاف و بدیهی برای آن متغیر می باشد.
از تکنیک شبکه عصبی کوهنن می توان جهت غربال گری اولیه داده ها در سیستمهای کشف رفتار مشکوک در زمان حقیقی استفاده نموده تعبیری می توان ابتدا یک سری از داده ها را توسط این مدل از کل تراکنشهای صورت گرفته به عنوان رفتارهای مشکوک انتخاب نموده و سپس توجه خود را بصورت دقیق تر بر این داده ها جهت کشف رفتار متقبلانه معطوف نمائیم، این موضوع باعث کاهش هزینه ها و افزایش سرعت و امکان کشف رفتار متقلبانه در زمان حقیقی می گردد.
مدل طراحی شده در این تحقیق فرد گرا بوده و نتایج مرتبط با آن نیز به میزان بالایی متکی بر رفتار افراد می باشد و در صورت ارائه داده های افراد دیگر به مدل احتمال وجود نتایج متفاوت وجود دارد، اما می توان اینگونه بیان نمود که مدل طراحی شده فعلی قابلیت تعمیم و استفاده برای مشتریانی با رفتاری شبیه به رفتار فرد مذکور را دارا می باشد.
یکی از نتایج مهم بدست آمده در این تحقیق وجود الگوهای مختلف در فرایند اکتشاف می باشد که این موضوع باعث می گردد که ما با نگاه از طریق مختلف به مساله همواره به دنبال استفاده از تکنیک های متفاوت جهت حل مساله باشیم که نهایتا این موضوع نیز باعث هم افزایی و کشف دانش بیشتر جهت حل مساله می گردد.
این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند.
اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید.
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.