پرسش و پاسخ های تلگرامی در حوزه داده کاوی 1

پرسش و پاسخ های تلگرامی در حوزه داده کاوی 1


  • 215 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده، داده کاوی، متن کاوی و نظرکاوی رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام  وقت بخير

چنانچه از نظر آماري مشخص شد كه بين دو فيچر، ارتباطي وجود ندارد، ايا با هر الگوريتم ديگه اي هم كه بررسي بشه، اين نتيجه ثابته و يا ممنكه تغيير كنه؟؟

سلام.اگر اثبات بشه هیچ ارتباطی ندارند بله ولی اگر اثبات بشه که وابستگی بین فیچر ها وجود داره باید از لحاظ فیزیکی هم اثبات بشه صرف اثبات اماری برای وابستگی بین چند متغییر کافی نیست بلکه شرط لازم هستش.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام وقت بخیر. شما اطلاع دارید شبیه سازی یک سیستم به صورت گسسته پیشامد که از درس های مهندسی صنایع هست و فرآیند کاوی چی هست؟ و اینکه می تونید یه منبع مناسب برای فرآیند کاوی معرفی کنید؟

با شبیه سازی امکان ایجاد و شبیه سازی فرایندها و بررسی بهره وری آنها طبق محیط آزمایشگاهی وجود دارد اما در فرایندکاوی به دنبال اهدافی همانند

Process Discovery

Process Conformance

Process Enchancement

و...  خواهم بود.

بابت کتاب هم کتاب زیر مناسب هست.

 Process Mining, Data Science in action

در وبسایت Coursera هم یک چندین دوره خوب در این حوزه وجود دارد.

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام

دوستان میشه لطف کنید اونایی که درباره دیتا ساینس اطلاعاتی دارن یکم توضیح بدن ؟؟؟؟؟

چه پیش نیازایی لازم داره و تو چه چیزایی باید مهارت داشته باشیم؟؟

سلام علم داده یعنی علم و مهارت استخراج دانش مستتر از دل داده ها

داده صرفا اشاره به اطلاعات تک بعدی از یک خصوصیت خاص داره و دانش، درکی است که از کنار هم قرار گرفتن داده های مربوط به چند تا خصوصیت در مورد یه موضوع خاص، به دست میاد. مثلا قد و وزن و سن و جنسیت هر کدوم به تنهایی یک داده در مورد خصوصیتهای یک فرد هستند، اما BMI یا شاخص توده بدنی، که با توجه به قد و وزن و سن و جنسیت محاسبه میشه، دانشی هست در مورد یک فرد.

علوم و مهارت هایی علم داده در سه دسته خاص قرار میگیرد:

1-ریاضیات و امار

2- علوم کامپیوتر از جمله الگوریتم های یادگیری ماشینی، ابزار یا زبانهای کار با داده و مدلسازی

3- تسلط به فرآیندها و قوانین زمینه کاری که مدنظر هست (مثل مسائل بانکی، حوزه انرژی، شبکه های اجتماعی و ....)

یک Data scientist کسی هست که به هر سه دسته خاص تسلط داره، اما برای قدم اول با توجه به علاقه مندی و سابقه تحصیلی و کاری می توانید از هر کدام از این سه حوزه شروع کنید.

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

اگر داده ما نامتوازن باشه، و داده دارای متغیر کلاس هم هست،اگر بخواهیم خوشه بندی هم انجام بدیم،ایا در خوشه بندی قبل از حذف متغیر کلاس، آیا میتونیم از روشهای متوازن سازی استفاده کنیم و داده را متوازن کنیم و بعد خوشه بندی انجام بدیم ؟ یا اصلا در خوشه بندی مجاز نیستیم؟؟

ممنون میشم دوستان اگر بتونن راهنمایی کنن

میشه اینکارو کرد.هم قبل هم بعد ولی کاربردهاشون متفاوت میشه

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام وقت بخير  براي تشخيص داده نامتعادل(imbalance) الزاما اول بايد خوشه بندي انجام بشه ؟؟ كسي اطلاعي در نحوه تشخيص داده نامتعادل داره؟؟

خیر ساده ترین روش نمونه گیری از کلاس دارای رکورد بیشتر است. خوشه بندی یکی از بهترین روشها میتونه باشه

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام

امکانش هست واژه معادل کلمات زیر رو بفرمایید

Ward's linkage

Single linkage

Complete linkage

در خوشه بندی سلسله مراتبی معمولا معادل فارسی متقن برای این موارد وجود ندارد

اما می توان این گونه گفت:

اتصال ناحیه ای

اتصال منفرد

اتصال کامل

منظور از اتصال، نحوه محاسبه فاصله نقاط برای ایجاد تفکیک است.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

دوستان من خواستم k fold cross validation انجام بدم براي رگرسيون چندمتغيره با اين پيغام مواجه شدم مشكل كجاست؟

مدل دسته‌بندی‌ای (classification) که انتخاب کردید امکان کار با برچسب پیوسته (مثل اعداد حقیقی) رو نداره. برای رگرسیون از مدل‌های دسته‌بندی یا همون Classifierها استفاده نکنید.

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام وقت بخیر

یک راهنمایی می خواستم از دوستان یک شرکتی هست که روزانه حجم زیادی کالا رو توی دسته های مختلف می فروشه.

داده های چند سال قبلش رو داده، که توی هر روز ، از هر کالا چند تا فروش داشته. حالا می خواهیم برای یک سال آینده اش برای میزان فروشش یک پیش بینی بکنیم. پیش بینی اینطوری باشه که توی هر روز، پیش بینی کنیم از هر کالا چند تا فروش خواهیم داشت برای حل این مسایل، کسی فایلی، راهنمایی چیزی داره؟ ممنون

روش‌های مختلف رو باید تست و بررسی کنید. مدل‌های سری‌زمانی یا مدل‌های پیش‌بینی براساس ویژگی‌های مشتری و محصول و... می‌تواند مفید باشد.  به صورت کلی ممکن است پیش‌بینی براساس روز خطا را افزایش دهد. تجمیع و استخراج ویژگی براساس هفته‌ سبب افزایش دقت و جامعیت مدل نسبت به پیش‌بینی روزانه میشود.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

#سوال

سلام و وقت بخیر خدمت همه ی دوستان

یک دیتاست متنی دارم که شامل سه کلاس هست

کلاس بیماری سرطان خون

سرطان سینه

سرطلان غدد لنفاوی

هر کلاس دارای 8هزار نمونه هست  برای تشخیص و دسته بندی بیماری سرطان سینه از دو بیماری دیگر امدم سرطان خون را با بیماری سرطان غدد لنفاوی باهم در یک دسته قرار دادم  و سرطان سینه را در یک دسته جداگانه  متاسفانه نمیدونم چرا در ایپوک اول صحت دسته بندی اموزش میشه 0.96 و صحت ولیدیشن میشه 0.92 درصد

بنظرتون به خاطر بالانس نبودن داده هاست؟ فکر می کنم اورفیت داره رخ میده درسته ؟ دارم از کراس با بک اند تنسور بر روی دیتاست متن  استفاد میکنم

این مشکل از overfitting هست.مدل شما روی ترینینگ جواب میده اما رو داده های جدید دقت اش کم میشه.روی چند ایپوک انجام بدن فقط دقت ترینینگ چک کنید اگر کم زیاد شد یعنی داده ها خوب رندوم پخش نشدن.

ببخشید من نمیتونم بیام تو صفحه شخصی شما ریپورتم میشه محبت کنید شما پیام بدید؟ درصد تریینینگ کم و زیاد نمیشه

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است

سلام وقت بخیر. من اینو گرفتم و اجرا کردم  و البته توضیحاتشم خوندم . میشه یه کم توضیح بیشتر بدید؟ ایا الگوریتم مشخصی استفاده کردید؟ یا اینکه گرافی که ساختین رو میشه دید؟ در مجموع ممنون میشم توضیح بفرمایید

سلام، الگوریتم نیمه‌نظارتی مبتنی بر گراف توسعه داده‌شده تا پاسخ احتمالاتی پیش‌بینی svm رو در ماتریس حالت اولیه الگوریتم پخش برچسب برای بعضی از گره‌ها اضافه کنه. گراف هم با اضافه‌کردن یال به درخت پوشای ماکزیمم گراف همبستگی تولید‌شده. قابل نمایش هم خوب هست. توضیحات کامل و شکل گراف‌ هم در این مقاله وجود داره:

https://www.sciencedirect.com/science/article/pii/S0957417418301829