پیش پردازش در متن (نرمال سازی متون فارسی)
پس بعد از آماده سازی اولیه متون، فاز پیش پردازش انجام می شود. در واقع پیش پردازش، اولین گام در جهت تطابق مستندات متنی با نمایش آنها در یك قالب مناسب می باشد. ثابت شده است كه تنها 33 درصد از كلمات در یك متن مفید هستند و می توان از آنها برای استخراج اطلاعات استفاده نمود. اغلب كلمات در راستای رساندن منظور و هدف اصلی استفاده می شوند و بعضاً تكراری می باشند.