مجموعه داده های متن کاوی

مجموعه داده های متن کاوی


  • 107 بازدید

متن کاوی، علم شناسایی الگوهای پنهان در متن است. قلب متن کاوی را مجموعه داده ها و دیتاست ها متنی تشکیل می دهد. بدون دیتاست و مجموعه داده نمی توان متن کاوی یا کشف دانش از متن انجام داد. دیتاهارت به عنوان یکی از زیر مجموعه های آکادمی داده صد ها مجموعه داده بومی و داخلی برای متن کاوی ارائه کرده است. این مجموعه ها برای علاقه مندان متن کاوی فارسی بسیار با ارزش است زیرا محققین داخلی برای متن کاوی (طبقه بندی، خلاصه سازی یا خوشه بندی) به متن های فارسی تهیه شده نیاز دارند. دیتاهارت با تلاشهای بسیار مجموعه داده های با ارزشی مانند مجموعه داده همشهری و پرسیکا تهیه کرده و منتشر کرده است. در ادامه با لیست مجموعه داده های متن کاوی در دیتاهارت آشنا خواهید شد. 

مجموعه داده همشهری شامل یک هزار سند در دو گروه خبری فرمت csv

متن انگلیسی شاهنامه فردوسی در فرمت تکست

متن فارسی شاهنامه فردوسی در فرمت تکست

مجموعه داده نویسنده و متن نوشته

مجموعه سخنرانی های تد تالک

مجموعه داده مناسب برای طبقه بندی متون انگلیسی

مجموعه داده نام کنفرانس و عنوان مقالات منتشر شده در آن

لیست کلماتی که در فارسی اشتباه نوشته می شوند

مجموعه داده توییت های فارسی در گروههای فرهنگی، سیاسی، اقتصادی و ورزشی

مجموعه داده همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل

مجموعه داده همشهری شامل ده هزار سند در فرمت اکسل و csv

نسخه جدید(1.7) فریم نت

دیتاست هزار خبر فارسی با مشخصات هر خبر

مجموعه داده اخبار و نظرات اخبار در وب سایت الف

مجموعه داده کامل همشهری نسخه 1 شامل 166 هزار سند در فرمت اکسل و csv

مجموعه داده توییت های طعنه دار و بدون طعنه فارسی برای طعنه کاوی

مجموعه داده ایست واژه فارسی دیتاست همشهری

مجموعه داده پردازش شده پرسیکا ( دیتاست طبقه بندی متون خبری فارسی)

مجموعه داده اسپم مربوط به پیامک های انگلیسی

مجموعه داده اخبار انگلیسی بی بی سی

مجموعه داده موجودیت های نامدار در زبان فارسی

مقالات نخستین کنفرانس بین المللی پردازش خط و زبان فارسی

مجموعه داده مقالات فارسی و کلمات کلیدی هر مقاله

لیست کلمات ایست واژه فارسی

مجموعه داده مقالات پذیرفته شده در کنفرانس AAAI

مجموعه داده متن کاوی رویترز

مجموعه داده متن فارسی برای پروژه های تشخیص زبان متن

مجموعه داده متن انگلیسی برای پروژه های تشخیص زبان متن

مجموعه داده تشخیص اسپم در ایمیل های فارسی

مجموعه داده رزومه اساتید دانشگاه بابل

مجموعه داده تشخیص اسپم در ایمیل ها

مجموعه داده اخبار فارسی منتشر شده در خبرگزاری های ایران

دیتاست (مجموعه داده) ایمیل های هیلاری کلینتون