در این مقاله متن کاوی به عنوان یکی از زیر مجموعه های داده کاوی و هوش مصنوعی مورد بررسی قرار گرفته و سعی می شود مخاطب با این مفاهیم آشنا گردد.
متن کاوی با علوم هوش مصنوعی و دادهکاوی ارتباطات گستردهای دارد و در بسیاری از موارد از روشها و الگوریتم آنها استفاده میکند. دادهکاوی در علوم هوش مصنوعی بسیار موردتوجه است زیرا در هوش مصنوعی، فرآیند استخراج دانش دارای اهمیت مهم و تعیینکنندهای است. ازاینجهت است که در بسیار از شاخههای هوش مصنوعی دادهکاوی و مفاهیم دادهکاوی حضور دارند. متن کاوی نیز از این قاعده مستثنا نیست و مفاهیم، الگوریتم و روشهای دادهکاوی در این حوزه حضور چشمگیری دارند و کسانی که با دادهکاوی و متنکاوی آشنا هستند در طول تحقیق خود این تحقیق با مطالب مشترک بسیاری برخورد خواهند کرد.
متن کاوی چیست؟
متن کاوی یکی از زیر مجموعه های علوم داده کاوی است که بعضا با نام کشف دانش در متون نیز مطرح می شود .طبق تعریف فرهنگ لغت آکسفورد به فرآیند یا عملی که مجموعه بزرگی از منابع نوشته شده را به اطلاعات جدیدی تبدیل کند متن کاوی گفته می شود.
در واقع متن کاوی تحلیل داده های است که شامل متون زبان طبیعی است. در متن کاوی به دنبال متن ها هستیم یک فایل ورد شامل متن است با متن کاوی دانشی که در این متن نهفته است را استخراج می کنیم. اکثر متن ها داده های غیر ساخت یافته هستند و برای اینکه داده های غیر ساخت یافته قابل استفاده شوند از مراحل پیش پردازش متن کاوی استفاده می گردد. این مراحل تقریبا در تمامی زیرمجموعه های علوم پردازش زبان طبیعی مشترک است. این روش ها و تکنیک هاعبارتند از : پارس گرامری - تگ کردن توکن سازی استفاده از عبارات با قاعده و .... . بعد از این مراحل داده غیر ساخت یافته را به داده ساخت یافته تبدیل می شود. هر زبان روش ها و پیاده سازی های مختلفی برای پیش پردازش متون خود دارد برای مثال پیش پردازش در متن کاوی فارسی با پیش پردازش در زبان انگلیسی از مراحل مشترک ولی با ابزارهای مختلف انجام می شود.
متن کاوی درباره پیدا کردن و شناسایی دانش نهفته در متن کار میکند. کاربر میتواند نظرات یا تحلیل خود را توسط متن ابراز کند و با نوشتن متنی درباره کالایی، درباره آن کالا نظرات خود را ابراز کند. این تنها شیوه کاربر برای بیان فکر خود نیست بلکه ممکن است از طریق صدا یا ویدیو نیز این احساسات ابراز شود ولی میتوان ادعا کرد حجم دانشی که توسط متن تولید میشود بسیار بیشتر از دانشی است که توسط صدا و یا ویدیو تولید میشود است. تمرکز اصلی متن کاوی بر روی متون است متونی که توسط کاربران وب از طرق مختلف تولید میشود. کاربران روزانه توسط شبکههای اجتماعی یا ابزارهای پیامرسان و بسیاری راههای دیگر اقدام به تولید متن میکنند. با توجه بهجایگاه شبکههای اجتماعی و ابزارهای پیامرسان در زندگی روزانه حجم عظیمی از متن روزانه تولید میشود و این موضوع فرصت بینظیری برای متن کاوی بر روی متون است. به دلیل اینکه کار اصلی متن کاوی بر روی متون است متن کاوی را میتوان یکی از فیلدهای داده کاوی دانست به همین دلیل روشهایی که در داده کاوی بهکاررفته است در متن کاوی نیز بهصورت گسترده مورداستفاده محققین این حوزه بوده است.البته خود متنکاوی نیز زیرمجموعهای از هوش مصنوعی[1] و پردازش زبان طبیعی[2] است و از روشها و تکنیکهای این فیلدها استفاده میکند.
اهمیت متن کاوی
یکی از دلایل اهمیت متن کاوی گستردگی بی پایان متون است که متن ها در انواع مختلف داده ها یافت می شوند از ایمیل، روزنامه، وب، گزارش روزانه، بلاگ ها تا مقالات علمی و موارد متعدد دیگر. این گستردگی متون نشان از اهمیت و جایگاه متن کاوی در علم داده کاوی دارد. می توان با استفاده از متن کاوی این متون را خلاصه کرد یا طبقه بندی کرد. مثلا به جای خواندن یک مقاله 20 صفحه ای دو صفحه خلاصه آن را مطالعه کرد. رشته متن کاوی در زبان فارسی بسیار جوان است و کارهای محدودی در این زمینه انجام شده است. جا دارد با ایجاد نرم افزارهای متن کاوی به زبان فارسی از مزیت های این حوزه استفاده شود. امروزه به برکت متن کاوی نرم افزارهایی وجود دارد که می توانند پانزده تا بیست و پنج هزار صفحه را در ساعت مطالعه کنند که در مقایسه با انسان رقم فوق العاده بزرگی است. فکرش را بکنید که این کار چقدر ممکن است سرعت انجام عملیات را افزایش دهد.
اهمیت حوزه متن کاوی را میتوان از تعداد بسیار زیاد پژوهشهای این حوزه فهمید. امروزه پژوهشهای بسیاری در این حوزه انجام میشود. دلیل اینهمه توجه به این حوزه، اهمیت روزافزون متون تولی شده توسط کاربران است. همه ما به دانستن نظرات دیگران کنجکاو هستیم و مایلیم بدانیم مردم در نقاط مختلف دنیا چه نظرات و عقایدی را دنبال میکنند. در کنار آن وازدید تجاری، همه ماقبل از خرید یک کالا مایلیم بدانیم کسانی که قبل از ما این کالا را خریداری کردهاند چه احساسی به آن دارند. اهمیت متن کاوی بعد از ظهور شبکههای اجتماعی بیشتر شده است زیرا با آمدن شبکههای اجتماعی، کاربران بهراحتی میتوانند نظرات و دانش خود در همه حوزهها را به راحتترین شکل ممکن ابراز کنند بهطور مثال در شبکهی اجتماعی توییتر شما بهوسیله استفاده از هشتگ میتوانید درباره آن اظهارنظر کنید و این اظهارنظر توسط کسانی که این هشتگ را دنبال میکنند قابلمشاهده است. متن کاوی در شبکههای اجتماعی نیز باعث رشد و توجه روزافزون به حوزه متن کاوی شده است. امروزه متن ها در تمام زندگی روزمره ما نیز وجود دارند و این فرصت بی نظیری برای محققین ایجاد می کند تا دانش از این متون استخراج گردد.
زیر شاخه های متن کاوی
متن کاوی زیر شاخه های گسترده ای دارد: از آن جمله می توان به : خلاصه سازی متن، نظرکاوی، وب کاوی، تشخیص زبان متن و بسیاری دیگر اشاده کرد. متن کاوی یکی از زمینه های تحقیقاتی داغ در حوزه داده کاوی است. به خصوص محققین زبان فارسی باید در این حوزه بیشتر فعالیت کنند.
اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی و مجموعه های مشابه آن را تهیه بفرمایید.
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.