تشخیص هوشمند و خودکار غلط های تایپی در پایگاه داده های بزرگ بدون استفاده از لغت نامه

تشخیص هوشمند و خودکار غلط های تایپی در پایگاه داده های بزرگ بدون استفاده از لغت نامه


  • 25 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده
غلط های تایپی یکی از مشکلات مهم در سیستم های کامپیوتری و سیستم های پایگاه داده ای است، وجود غلط های تایپی در پایگاه داده ها نه تنها از نظر صحت پایگاه داده مشکل ساز هستند، بلکه باعث می شوند به هنگام ضرورت نتوان رکورد وارد شده را بازیابی کرد. همین امر گاه باعث می شود که کاربر مجددا همان رکورد را وارد پایگاه داده نماید که باعث به وجود آمدن افزونگی می گردد. روش های موجود تشخیص غلطها، مبتنی بر لغت نامه هستند. بدین معنی که از یک لغت نامه بزرگ که همه لغات آن صحیح فرض می شوند استفاده می کنند و اگر کلمه ای در لغت نامه نباشد به عنوان غلط تایپی شناخته می شود. تهیه لغت نامهای بزرگ و با دقت بالا بسیار پرهزینه و زمان بر است. به علاوه چنین لغت نامه ای مختص یک زمینه خاص (مثلا محیط پزشکی است و قابل استفاده و در زمینه های دیگر (مثلا جامعه شناسی) نیست. در این مقاله روشی ارائه می شود که بدون نیاز به لغت نامه می تواند غلط های تایپی را تشخیص دهد. روش پیشنهادی با چند معیار مرسوم ارزیابی شده است. نتایج آزمایش ها نشان دهنده دقت 93 / 5درصدی برای این روش است. علاوه بر دقت بالای روش پیشنهادی، عدم نیاز به لغت نامه یک ویژگی منحصر به فرد برای آن به شمار می رود.

نتیجه گیری
در این مقاله ما روشی برای پیدا کردن غلط های تایپی در پایگاه داده های بزرگ ارائه کردیم. مزیت بزرگ روش ارائه شده این است که برای بررسی درست یا غلط بودن کلمه نیاز به لغت نامه ندارد. استقلال از لغت نامه یک مزیت بزرگ برای روش محسوب می شود زیرا روش های وابسته به لغت نامه مجبورند برای هر کار خاص یا هر محیط خاص یک لغت نامه تهیه کنند و تهیه لغت نامه کاری است پرزحمت و زمان بر در حالی که روش پیشنهادی را به راحتی می توان در هر محیطی به کار برد و نیازی به صرف زمان و هزینه برای اختصاصی کردن آن نیست تنها پیش نیاز روش پیشنهادی، وجود داده کافی در پایگاه داده محیطی که قرار است در آن کار کند، است که البته در بیشتر سازمانها چنین شرطی مهیا است.
در ارزیابی روش پیشنهادی نشان میدهد که با افزایش بزرگی پایگاه داده، دقت سیستم نیز افزایش می یابد زیرا نرخ قبول غلط کاهش می یابد. این امر نشان می دهد که به مرور زمان که میزان داده های سازمان افزایش می یابد، سیستم کارکرد بهتری خواهد داشت.
همچنین مقایسه روش پیشنهادی با سایر روش ها نشان میدهد که علی رغم اینکه روش پیشنهادی از یک منبع دانش بزرگ یعنی لغت نامه بی بهره است، اما به خوبی می تواند با روش های دیگری که در این زمینه وجود دارند رقابت کند.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی در مورد کلان داده و بیگ دیتا که شامل صد 100 مقاله فارسی در مورد الگوریتم ها و روش های کلان داده و بیگ دیتا است به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.