روند اصلی این مرحله به گونه ای است که در پایان تنها کلمات کلیدی در متن باقی بمانند در نتیجه هدف از این فاز، یافتن كلمات مفید و چشم پوشی از كلمات بی فایده می باشد. در این فاز، عملیات كلی زیر انجام می شود:
تبدیل هریك از متون به برداری از كلمات
پیدا كردن پایان جملات با استفاده از تشخیص افعال و حروف ربط
اطمینان از یكسان بودن كاراكترهای الفبای فارسی (یكسان سازی برخی از كاراكترها مانند "ی" و "ك" از لحاظ كد اسكی)
تفكیك جملات از یكدیگر
از بین بردن كلمات بی فایده (حروف ربط ، اضافه ، نشانه ، علایم نقطه گذاری ، ضمایر ، افعال ربطی ، شبه جمله ها و غیره)
انجام عملیات كاهش و ریشه یابی با توجه به دو گروه كلمات ، افعال و اسامی
بررسی افعال
بررسی پیشوندهای فعل در دو قسمت با تغییر معنی و بدون تغییر معنی .مثال: فراگرفتن= فرا+گرفتن
حذف شناسه افعال و بررسی امكان پذیر بودن كاهش با استفاده از جدول بن و مصدر.
جایگزین نمودن فعل با مصدرش با استفاده از جدول افعال
مثال: می گفتم← گفتم← گفت← گفتن
بررسی اسامی
كاهش علامات جمع (مانند ها، های، ...)
حذف ضمایر متصل
حذف پیشوند
حذف پسوندهای اسم
مشتق
مركب و ساده
لازم به ذكر است كه برای كاهش اسامی بهترین روش بهره گیری از منطق فازی است و بهترین كاهش به دست آمده برای كلمه به عنوان جایگزین كلمه استفاده می شود که در قالب فرایند استخراج کلمات کلیدی در بخش های بعدی مورد بحث قرار می گیرد.
کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است!
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.