داده کاوی یا کشف دانش در پايگاه داده ها (KDD ) علم نسبتا تازه ای است که با توجه پيشرفت کشور در زمينه IT و نگاه های ویژه به دولت الکترونيک و نفوذ استفاده از سيستم های رایانه ای در صنعت و ایجاد بانک های اطلاعاتی بزرگ توسط ادارات دولتی، بانک ها و بخش خصوصی نياز به استفاده از آن به طور عميقی احساس می شود. هـدف داده كاوي، كشف دانش جديد، معتبر و قابل پيگيري با اسـتفاده از ابزارهـاي هـوش مصـنوعي و آماري در حجم بالايي از داده ها است. داده کاوی یعنی کشف دانش و اطلاعات معتبر پنهان در پایگاه های داده. یا به بيان بهتر تجزیه و تحليل ماشينی داده ها برای پيدا کردن الگوهای مفيد و تازه و قابل استناد در پایگاه داده های بزرگ، داده کاوی ناميده می شود. داده کاوی در پایگاه های داده کوچک نيز بسيار پرکاربرد است و از نتایج و الگوهای توليد شده بوسيله آن در تصميم گيری های استراتژیک تجاری شرکت های کوچک نيز می توان بهره های فراوان برد. کاربرد داده کاوی در یک جمله را این گونه می توان بيان کرد: " داده کاوی اطلاعاتی می دهد، که شما برای گرفتن تصميم هوشمندانه ای درباره مشکلات سخت شغلتان به آن ها نياز دارید." به مدد سیستمهای فناوری اطلاعات و نرمافزارهای مبتنی بر پایگاه داده، اکنون سازمانها توان ذخیره حجم انبوهی از دادهها را پیدا کردهاند. دادهکاوی فرایندی است که امکان استخراج اطلاعات معنادار از این پشته داده را فراهم میسازد. دادهکاوی روشی است که به کشف دانش مبتنی بر شناسائی خودکار الگوها و رابطهها میپردازد. یعنی به جای آنکه مدل سازی کنیم، مدلهای موجود را کشف نمائیم.
داده کاوی یکی از روش هایی است که به وسیله آن الگوهای مفید در دادهها با حداقل دخالت کاربران شناخته میشوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار میدهند تا بر اساس آن ها تصمیمات مهم و حیاتی در سازمان ها اتخاذ شوند. در داده کاوی از تحلیل اکتشافی دادهها استفاده میشود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون انبوهی از دادهها تاکید میشود. وجود حجمی انبوه از دادهها پیشفرض دادهکاوی است. هر چه حجم دادهها بیشتر و روابط میان آن ها پیچیده تر باشد دادهکاوی اهمیت بیشتری پیدا میکند. در بسیاری موارد از خوشه بندی به عنوان اولین گام فرایندهای داده كاوی یاد میشود كه قبل از سایر فرایندها برای شناسایی گروهی از عناصر مشابه استفاده میشود. هدف از خوشه بندی تقسیم دادههای موجود به چندین گروه است بطوریکه دادههای گروههای مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و دادههای موجود در یک گروه باید بسیار به هم شبیه باشند. روشهای متعددی برای خوشهبندی دادهها وجود دارد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشته است. با پیشنهادهای برخی از ناظران مبنی بر آن که کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده است. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده است. سازمان ها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. داده کاوی امروز گسترش زیادی یافته است به طوری که اکثر نرم افرار های پایگاه داده ای مثل SQL Serverو ORACLE نيز شامل ابزارهایی داده کاوی شده اند ولی هنوز نرم افزارهای تخصصی داده کاوی همچون Intelligent Miner , Darwin , Mine Set, Knowledge Studio, Data Mind از مهمترین ابزار های داده کاوی اند.
شاخصهای اصلی در شبکههای اجتماعی و شناسایی آنها با استفاده از تکنیکهای دادهکاوی و درخت تصمیم، مطلبی مغانجوقی
کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است!
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.