منظور از کلمات ایست واژه چیست؟

منظور از کلمات ایست واژه چیست؟


  • 6,155 بازدید

ایست واژه های معمولا به واژه ها و کلماتی گفته می شود که دارای بار معنایی نیستند. در ادامه در کنار تعریف دقیق ایست واژه ها چند نمونه از لیست های ارائه شده برای ایست واژه ارائه می گردد. 

ایست واژه چیست؟

ایست واژه (stopword) به حروف اضافه‌ای گفته می‌شود که مفهومی را منتقل نمی‌کنند. در پردازش متون به دنبال کلماتی هستیم که دررسیدن به مدل طبقه‌بندی دقیق‌تر ما را یاری کند. ولی آیا تمام کلمات متن برای پردازش و رسیدن به مدل طبقه‌بندی مفید است؟ به‌طور مثال حروف اضافه در متون، در پیدا کردن الگوی پنهان در متن نقشی ایفا نمی‌کنند. بنابراین بهتراست در مرحله پیش‌پردازش حذف شوند. در حذف ایست واژه‌ها به دنبال حذف کلمات زائد برای رسیدن به پردازش متن بهینه‌تر و به‌صرفه‌تر هستیم. مثل «اگر»، «ولی»، «و»، «که»  ازجمله ایست واژه‌هایی هستند که باید در مراحل پیش‌پردازش فارسی حذف شوند. همچنین کلمات انگلیسی to, for, about   و صدها کلمه دیگر در زبان انگلیسی به‌عنوان ایست واژه محسوب می‌شوند.

  امروزه در اکثر روش‌های پردازش متون مرحله حذف ایست واژه‌ها به‌عنوان کلمات زائد انجام می‌پذیرد. لیست کلمات ایست واژه یکی از معضلات برای زبان فارسی است زیرا برای این زبان همچنان یک ایست واژه کامل ارائه نشده است و از ایست واژه‌های جمع‌آوری‌شده به‌صورت دستی استفاده می‌شود

لیست مجموعه داده های ارائه شده برای متن کاوی در دیتاهارت. مناسب برای کار عملی در زمینه متن کاوی و کشف دانش از متن. 

نمونه ای از ایست واژه های در دسترس

دو لیست ایست واژه فارسی در دسترس است یکی لیست ایست واژه شامل 814 ایست واژه که در پروژه دیتاست همشهری جمع آوری شده است. این لیست از طریق لینک زیر در دسترس است:

http://dataheart.ir/upload/public/422331501075102.txt

لیست دیگر شامل 542 ایست واژه فارسی می باشد که از طریق لینک زیر می توانید دانلود کنید:

http://dataheart.ir/upload/public/233211484547775.txt

پیش پردازش متون و حذف ایست واژه ها

حذف ایست واژه‌ها یکی از مراحل آماده‌سازی متن در علوم متن کاوی می‌باشد. می‌توان ادعا کرد که در تمامی روش‌های متن‌کاوی و به طبع آن در روش‌های طبقه بندی متون  انجام مراحل آماده‌سازی متن اجتناب‌ناپذیر است. با انجام مرحله حذف ایست واژه، متون برای انجام پردازش بر روی آن ها آماده تر می شود. زیرا کلمات اضافی قبل از شروع ایجاد مدل حذف می شوند. با این کار از بار اجرای الگوریتم به مقدار زیادی کاسته می شود. با کاستن تعداد واژه ها محاسبات برایر سیدن به تعداد واژه بهینه نیز کاهش پیدا می کند و مدل های استخراج دانش از متن با سرعت بیشتری تولید می شود. 

متن کاوی چیست؟

منظور از طبقه بندی متون چیست؟

انجام پایان نامه در حوزه متن کاوی

سختی و پیچیدگی زبان فارسی در حوزه متن کاوی

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.