سختی و پیچیدگی زبان فارسی در حوزه متن کاوی

سختی و پیچیدگی زبان فارسی در حوزه متن کاوی


  • 2,878 بازدید

زبان فارسی به دلایل مختلف دارای سختی و پیچیدگی بسیاری است که این موضوع متن کاوی و پردازش زبان طبیعی روی این زبان را دشوار می کند. 

پیچیدگیهای زبان فارسی

 

برخلاف زبان‌های ديگر ازجمله زبان انگليسي، متن‌کاوی براي زبان فارسي بـه دليـل پيچيـدگي بسيار با مشكلات متعددي روبه‌رو است. از آنجاکه هدف اين پژوهش نظركاوي اسـت، داده‌های به‌کاررفته به‌صورت نظر و به شكل محاوره‌ای نوشته‌شده است. پـس علاوه بر پیچیدگی‌های متون فارسي و مشكلات تحليلي آن، مسائلي نيز به دليل محاوره‌ای بودن زبان، به وجود می‌آید كه پژوهش را دشوارتر می‌کند. همان‌طور كه سارايي و باقري نيز معتقدند نظركاوي در زبان فارسي با مشكلاتي روبه‌رو است؛ اين مشكلات به دليل كمبـود ابـزار و راه‌های مختلـف، وجـود پسوندهاي متفاوت، فاصله‌گذاری کلمه‌ها و استفاده از کلمه‌های غيررسـمي و محاوره‌ای شـكل می‌گیرد.

دلایل پیچیدگیهای زبان فارسی

  • كمبود ابزار مناسب براي زبان فارسي: در زبان فارسـي به‌منظور پیش‌پردازش و تحليـل متن‌های فارسي، ابزار زيادي وجود ندارد، اما برخلاف زبان فارسي، ابزارها و روش‌های متعـددي براي نظركاوي و تحليل متن در زبان‌های مختلف ازجمله زبان انگليسي در دسـترس اسـت كـه می‌توان از آن‌ها در مراحل مختلف نظركاوي استفاده كرد. كمبود ابزار براي پردازش متون فارسي، نظركاوي را دشوارتر می‌کند.
  • کلمه‌های غيررسمي و محاوره‌ای: وقتي نوشتار به‌صورت غيررسمي و محاوره‌ای باشد، شـكل کلمه‌ها تغيير می‌کند، گاهي براي يك كلمه، اشكال مختلفي به شکل محاوره‌ای به چشم می‌خورد. ممكن است کلمه‌ها به شکل رسمي يا محاوره‌ای نوشته شـوند كـه افـراد هـر دو شـكل آن را در نظرها به کار می‌برند. تغيير شكل کلمه‌ها در قالب محاوره‌ای با حذف، اضافه و تغيير حروف همراه است. براي مثال كلمة «نمی‌توانم» در شكل محاوره‌ای به‌صورت «نميتونم» بـا حـذف «الـف» بيان می‌شود، يا كلمة «دارد» با تغيير حـرف «د» بـه «ه» به‌صورت «داره» نوشـته می‌شود. کلمه‌های ديگري نيز در زبان محاوره‌ای به کار می‌روند كـه بـه شـكل كـاملاً متفـاوتي از شـكل رسمي آن ظاهر می‌شوند، براي مثال كلمة «براي» به‌صورت «واسه» نوشته می‌شود.
  • پيشوندها و واژه‌های غيرساده: در زبان فارسي واژه‌ها به دو دسـتة سـاده و غيرسـاده تقسـيم می‌شوند. کلمه‌های ساده تنها از يك جزء معنادار ساخته‌شده‌اند و واژه‌های غيرساده بيشتر از يك جزء معنادار، دارند. واژه‌های غيرساده در سه شكل مشتق، مركب و مشتق ـ مركب به کار می‌روند. هر واژ غیر ساده‌ای با افزودن پسوندها و پيشوندهاي مختلفي ساخته می‌شود. مشكل کلمه‌های غيرساده، فاصله‌گذاری آن است. در شكل نوشـتاري کلمه‌ها، اغلـب بـين اجـزاي مختلـف واژ غيرساده، فاصله‌ای گذاشته می‌شود و اين فاصله تشخيص واژه را دشوار می‌کند. براي مثال كلمة «خودنويس» كه در زبان فارسي واژ مركبي محسوب می‌شود، در حالـت نوشـتاري آن ممكـن است به‌صورت «خود نويس» نوشته شود، فاصله ميـان خـود و نـويس، تشـخيص آن را دشـوار می‌کند.
  • فاصله‌گذاری: در زبان فارسي براي فاصله‌گذاری از فاصله و نیم‌فاصله استفاده می‌شود. فاصـله براي جداسازي کلمه‌ها از يكديگر است و از نیم‌فاصله براي فاصله بين اجزاي مختلف يك كلمـه كاربرد دارد. براي مثال، در عبارت «كتاب خوب»، دو واژه متفاوت وجود دارد كه براي جداسـازي آن‌ها از فاصله استفاده می‌شود، اما بااینکه عبارت‌های «خودنويس»، «خاطره‌انگیز» و «کتاب‌ها» يك واژه‌اند، آن‌ها را با نیم‌فاصله جدا می‌کنند. در حالت محاوره‌ای، اغلب ايـن نیم‌فاصله ناديـده گرفته می‌شود، درنتیجه تشخيص چنين واژه‌هایی به‌دقت بيشتري نياز دارد. برگرفته از مقاله سعیده علیمردانی

لیست مجموعه داده های ارائه شده برای متن کاوی در دیتاهارت. مناسب برای کار عملی در زمینه متن کاوی و کشف دانش از متن. 

متن کاوی چیست؟

منظور از طبقه بندی متون چیست؟

انجام پایان نامه در حوزه متن کاوی

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.