در این مقاله درباره موجودیتهای نام دار صحبت خواهد شد. ابتدا مفهوم موجودیتهای نام دار مورداشاره قرار میگیرد سپس کاربردهای ممکن برای استفاده از این نامها بحث میشود. سپس در مورد مجموعه داده عرضهشده در وبسایت دیتاهارت اطلاعاتی ارائه خواهد شد.
درباره موجودیتهای نامدار
اسامی اشخاص، سازمانها و یا مکانها در علم پردازش زبان طبیعی بهعنوان موجودیتهای نامدار شناخته میشوند. بهطور مثال به جمله زیر توجه فرمایید:
"عباس کیارستمی، عکاس، نقاش، نویسنده، فیلسوف و کارگردان مطرح ایرانی در شهر پاریس از کشور فرانسه درگذشت."
در جمله بالا "عباس کیارستمی" یک شخص شناختهشده، شهر پاریس و کشور فرانسه بهعنوان موجودیتهای مکانی مورداشاره قرارگرفته است. بهطور ساده و در یک جمله در شناسایی موجودیتهای نام دار به دنبال شناسایی و استخراج نامهای خاص مکانی و فردی هستیم.
در علوم پردازش زبان طبیعی و متنکاوی که به دنبال استخراج دانش از متون هستیم شناسایی این موجودیتهای نام دار بسیار مهم و اثر گزار است. دانستن موجودیتهای نام دار درروشهای و مفاهیم مختلف علوم یادشده دررسیدن به روشهای بهینهتر بسیار مؤثر است. در زبان فارسی نیز با توجه به رشد روزافزون علوم متنکاوی و پردازش زبان طبیعی، فهم و استخراج موجودیتهای نام دار دارای اهمیت ویژه است.
کاربردهای بسیاری برای تشخیص موجودیتهای نام دار در علوم متنکاوی وجود دارد. طبقهبندی متون، نظرکاوی یا عقیده کاوی، سیستمهای پرسش و پاسخ، خلاصهسازی متون و بسیاری دیگر از کاربردها. در ادامه در مورد این کاربردها توضیحاتی ارائه میشود.
کاربردهای موجودیتهای نامدار
طبقهبندی متون : طبقهبندی متون به دنبال دستهبندی متنهای خام در گروههای از پیش تعریفشده است. دانستن موجودیتهای مکانی و فردی میتواند دررسیدن به مدلهای طبقهبندی متون بسیار اثر گزار باشد. بهطور مثال در یک متن ورزشی وجود نامهایی مانند تراکتورسازی تبریز، پیروزی یا استقلال تهران بسیار محتمل است و شناسایی این کلمات با استفاده از روشهای تشخیص موجودیتهای نامدار به رسیدن به مدلهای طبقهبندی قویتر اخبار ورزشی منتهی میشود.
نظرکاوی یا عقیده کاوی: نظرکاوی یا عقیده کاوی یا تحلیل احساسات به دنبال طبقهبندی نظرات و احساسات افراد در گروههای مثبت، منفی و در برخی مواقع خنثی است. نظرکاوی به دنبال رسیدن به احساسات نهفته در متن است بدین ترتیب دانستن مخاطب این احساس نیز بسیار حائز اهمیت است. دولت روحانی بسیار عالی عمل کرده است. در این جمله میتوان با استفاده از تشخیص موجودیتهای نامدار مخاطب احساس نهفته را شناسایی کرد.
سیستم پرسش و پاسخ: در سیستمهای پرسش و پاسخ پتانسیل بسیاری برای استفاده از روش تشخیص موجودیتهای نامدار وجود دارد. پاسخ بسیاری از سؤالات یک متن مانند کی؟ کجا؟چه زمانی؟ چه مقدار ؟ در نامهای اشخاص، مکانها و سازمانها موجود در متن قرار دارد. میتوان با استفاده از یک سیستم تشخیص موجودیتهای نامدار از متن این موارد را استخراج کرد.
خلاصهسازی متون: خلاصهسازی متون به دنبال استخراج مفهوم اصلی متن میباشد. استفاده از موجودیتهای نامدار میتواند به رسیدن به یک سیستم خلاصه ساز توانمند کمک بسیار کند.
موجودیتهای نامدار در زبان فارسی
با توجه به اهمیت موجودیتهای نامدار در پردازش زبان طبیعی و متنکاوی، تیم فنی دیتاهارت موجودیتهای نام دار در زبان فارسی را استخراج کرده است. شرکت های تجاری، سازمانهای دولتی و محققین عزیز میتوانند از این مجموعه داده برای تحقیقات خود استفاده نمایند. در این مجموعه داده بیش از سیصد هزار موجودیت نامدار فارسی استخراج شده و عرضه شده است. برای تهیه این دیتاست می توانید از لینک اقدام نمایید.
انجام پایان نامه در حوزه متن کاوی
کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است!
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.