ایست واژه های معمولا به واژه ها و کلماتی گفته می شود که دارای بار معنایی نیستند. در ادامه در کنار تعریف دقیق ایست واژه ها چند نمونه از لیست های ارائه شده برای ایست واژه ارائه می گردد.
ایست واژه چیست؟
ایست واژه (stopword) به حروف اضافهای گفته میشود که مفهومی را منتقل نمیکنند. در پردازش متون به دنبال کلماتی هستیم که دررسیدن به مدل طبقهبندی دقیقتر ما را یاری کند. ولی آیا تمام کلمات متن برای پردازش و رسیدن به مدل طبقهبندی مفید است؟ بهطور مثال حروف اضافه در متون، در پیدا کردن الگوی پنهان در متن نقشی ایفا نمیکنند. بنابراین بهتراست در مرحله پیشپردازش حذف شوند. در حذف ایست واژهها به دنبال حذف کلمات زائد برای رسیدن به پردازش متن بهینهتر و بهصرفهتر هستیم. مثل «اگر»، «ولی»، «و»، «که» ازجمله ایست واژههایی هستند که باید در مراحل پیشپردازش فارسی حذف شوند. همچنین کلمات انگلیسی to, for, about و صدها کلمه دیگر در زبان انگلیسی بهعنوان ایست واژه محسوب میشوند.
امروزه در اکثر روشهای پردازش متون مرحله حذف ایست واژهها بهعنوان کلمات زائد انجام میپذیرد. لیست کلمات ایست واژه یکی از معضلات برای زبان فارسی است زیرا برای این زبان همچنان یک ایست واژه کامل ارائه نشده است و از ایست واژههای جمعآوریشده بهصورت دستی استفاده میشود
نمونه ای از ایست واژه های در دسترس
دو لیست ایست واژه فارسی در دسترس است یکی لیست ایست واژه شامل 814 ایست واژه که در پروژه دیتاست همشهری جمع آوری شده است. این لیست از طریق لینک زیر در دسترس است:
http://dataheart.ir/upload/public/422331501075102.txt
لیست دیگر شامل 542 ایست واژه فارسی می باشد که از طریق لینک زیر می توانید دانلود کنید:
http://dataheart.ir/upload/public/233211484547775.txt
پیش پردازش متون و حذف ایست واژه ها
حذف ایست واژهها یکی از مراحل آمادهسازی متن در علوم متن کاوی میباشد. میتوان ادعا کرد که در تمامی روشهای متنکاوی و به طبع آن در روشهای طبقه بندی متون انجام مراحل آمادهسازی متن اجتنابناپذیر است. با انجام مرحله حذف ایست واژه، متون برای انجام پردازش بر روی آن ها آماده تر می شود. زیرا کلمات اضافی قبل از شروع ایجاد مدل حذف می شوند. با این کار از بار اجرای الگوریتم به مقدار زیادی کاسته می شود. با کاستن تعداد واژه ها محاسبات برایر سیدن به تعداد واژه بهینه نیز کاهش پیدا می کند و مدل های استخراج دانش از متن با سرعت بیشتری تولید می شود.
انجام پایان نامه در حوزه متن کاوی
سختی و پیچیدگی زبان فارسی در حوزه متن کاوی
اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی و مجموعه های مشابه آن را تهیه بفرمایید.
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.