پرسش و پاسخ های تلگرامی در حوزه علم داده 10

پرسش و پاسخ های تلگرامی در حوزه علم داده 10


  • 154 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.
 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.
منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستان، یه سوال داشتم من میخوام بفهمم خرید بعدی مشتری من از مغازه ام چیه باید چیکار کنم.
یعنی یه سری دیتا دارم که میگن هر مشتری تو چه تاریخی چه چیزی خریده.
حالا میخوام بدست بیارم که خرید بعدی مشتری م چی هست و خیلی بهترش هم میشه اینکه بفهمم مشتری کی میاد و چی رو میخره؟!
باسلام. الگوریتم های پیش بینی کننده در موضوع طبقه بندی به شما کمک می کنند.
از داده کاوی میشه استفاده کرد و توی سایت ها بگرد این مثال ها زیاد است. کتاب مفاهیم داده کاوی مهدی اسماعیلی را بخوان البته پی دی افش هست اما بعضی فصول را نداره همون سه فصل اول دید شما را باز می کنه.
الگوی پر تکرار:یک الگو که غالبا در یک مجموعه داده رخ می ده:این الگو ها می توان:
-مجموعه از ایتم ها:به طور مثال نان و شیر باشد
زیر مجموعه ای از توالی ها:پس از دوربین کارت حافظه خرید می شود
زیر ساخت ها:مانند زیر گراف و زیر درخت
-و غیر...
واما انگیزه (Motivation)
-چه محصولاتی اغلب با هم خریداری می شوند-کاغذ و خودکار
-خرید های بعدی بعد از خرید کامپیوتر چیست؟ و یکی از برنامه های کاربردی آن آنالیز سبد خرید هست و بازار یابی و آنالیز سلسله عملیات فروش و…  و اما دسته بندی(classification): تشخیص تقلب (Fraud  detection) بازار یابی هدف مند(Target Marketing) تشخیصات پزشکی و ......
یکی از بر نامه های کاربردی آن: مدیر بازار یاب یک شرکت می خواهد داده ها را تحلیل نماید وحدس بزند آیا مشتری قدیمی شرکت محصولات جدید را خواهد خرید؟؟؟ شما با توجه به نیاز خود یکی از این موارد را انتخاب کنید
در حالت کلی می توان فعالیت پیشبینی را به دو گروه تخمین (رگرسیون با خروجی پیوسته) و کلاس بندی (با خروجی گسسته) تقسیم نمود. بحث شما در حوزه کلاس بندی می باشد. خود کلاس بندی به دو گروه Diagnosis (اکنون چه اتفاقی افتاده است) و Prognosis (در آینده ) چه چیزی رخ خواهد داد تقسیم می شود. 
درصورتیکه زمان وقوع یک اتفاق در آینده مد نظر است باید از راهکارهای Prognosis استفاده نمایید. در این راهکار ، براساس دیتاهای موجود ، مدلی تولید می شود که به پیش بینی آینده می پردازد. و حتی زمان وقوع یک رخداد را تخمین می زند. بعنوان مثال اگر بخواهیم براساس داده های موجود ، مدلی تولید نماییم که در آن به بررسی اینکه شخصی اکنون دچار سرطان است یا نه بپردازیم ، راهکار تشخیص (Diagnosis) می باشد ولی درصورتیکه بخواهیم بیایم که آیا در آینده (و کی) فردی مبتلا به صرطان می شود راهکار پیش آگهی (Prognosis)  می باشد. 
و البته راهکار بینابینی نیز وجود دارد. درصورتیکه مایل باشیم تا ابراز کنیم که احتمال خرید چیزی در آینده وجود دارد ولی زمان رخداد آن برایمان اهمیتی نداشته باشد ، می توان از سیستمهای تشخیص ای استفاده نمود که بعنوان مثال پیشنهاد بدهند. در این صورت بنظر می رسد که تکنیکی شبیه به Association Rule mining کارا باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

سلام دوستان
ممنون از گروه من یه سوالی داشتم : این درسته که وقتی تعداد labelها کم هست و هزینه برچسب گذاری زیاد هست از یادگیری فعال استفاده کنیم؟  و یادگیری فعال چه طوری میتونه به این موضوع کمک کنه ؟
خیر ربطی به لیبل خیلی نداره...در اکتیو لرنینگ هدف اینه که با تعداد نم نه کمتر مدلسازی انجام بشه


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

در درخت تصمیمم یکی از حالت های لیبل recall, precission خیلی پایینی دارن به نسبت بقیه حالتها. و از یکی از اساتید پرسیدم گفتن به صورت کلی لیبلت نسبت به تعداد فیچر ها زیاد هست. گفتم شاید راهی باشه که درخت بهینه تری بدست بیارم

سلام به طور کل کوچکترین ارتباطی بین تعداد کلاس های لیبل با تعداد متغیرها وجود ندارد...در نهایت شاید تعداد متغیرها کم باشد اما مشکل اینجاست که توازن بین رده های متغیر هدف چطوری است مثلا اگر ۱۰۰ رکورد دارید چند درصد برای رده ۱ چند درصد برای رده و ... هستند...شاید مشکل کم بودن تعداد رده باعث این اتفاق شده.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. روز بخیر. برای برچسب گذاری اسناد در r، برای انجام رده بندی چه روشی وجود دارد؟من روشم svm هست. اما داده هام class label ندارند. می خواستم بدونم روش درست برای برچسب گذاری چیست؟ فکر می کنم سوالم رو خوب مطرح نکردم. یکبار در گروه دیدم که دوستان گفتم با تعریف ویژگی. برای این کار من فایل کلاس ها رو جداگانه لود کردم و با دستور attr ویژگی برچسب ایجاد کردم.  اما در مرحله merge اسناد و ایجاد corpus برای پیش پردازش در tm این ویژگی در مجموعه ویژگی اسناد نشان داده نمی شود. در منبعی دیدم که گفته بود یک بردار برای کلاس اسناد تعریف کنید و آن را به آخرین ستون dataframe الحاق کنید. کدام روش صحیح است و چطور باید از این برچسب برای محاسبه مقادیر در انتخاب ویژگی استفاده کرد؟
تمامی روش های رده بندی که دسته های اصلی درخت تصمیم و شبکه عصبی و نزدیکترین همسایگی و بیز و رگرسیون و بردار پشتیبان و بر پایه قاعده و روش های جمعی و ... هستند

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان 
Tokenizing  داده ها در دسته بندی اسناد چه مفهومی داره ؟
Tokenization  فرآیندی هست که یک متن رو به یک سری توکن، تبدیل میکنه توکن میتونه جمله، عبارت یا کلمه و یا حتی کاراکتر در نظر گرفته بشه
توی مورد شما، اسناد باید به برداری از کلمات تبدیل بشن. این فرآیند توکنایز برای هر زبان،  پیچیدگی های خاص اون زبان رو باید در نظر بگیره مثلا توی فارسی به علت پیچیدگی ها و ابهامات رسم الخط فارسی، کلماتی مثل «می رسم» باید یک کلمه در نظر گرفته بشه و نویسه فاصله اینجا جداکننده نیست.همینجور برای نویسه نقطه وقتی قبل و بعدش عدد باشه،جدا کننده نیست 12.38  و ...

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

عذر خواهم کتابی به زبان فارسی برای اموزش R نیست?
یه کتابی رو دکتر تیمور پور ارایه دادن

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

یه سوال داشتم و اون اینکه وجود ۱۱۵۰۰ سند یا بیست هزار سند در متن‌کاوی، چیز عجیبی نیست. اما متاسفانه در بعضی از مراحل پردازش این اسناد، مثل اعمال مدل یا تبدیل انواع داده ها به هم در نرم‌افزار r با کمبود رم و خطای تخصیص حافظه مواجه میشم. باید چه کنم؟ آیا روشی وجود دارد که به واسطه آن، پردازس خارج از رم انجام شود؟ این در حالیه که سایر بخش ها مثل پیش‌پردازش و غیره در زمانی کمتر از ده دقیقه برای این تعداد انجام می شود!
دقیقا چه اعمالی را برروی متن می خواهید انجام بدهید؟  این مدت زمان برای این تعداد متن بسیار زیاد هست!
پیش پردازش، pos ، استخراج روابط وردنت، انتخاب ویژگی، رده بندی svm و pca. یعنی زمان حدود شش دقیقه برای پردازش کامل متن زیاد است؟ البته به جز پردازش های معنایی.
با توجه به تجربیاتی که بنده با زبان پایتون داشته ام این زمان کمی زیاد هست!در صورتی که متن ها بیشتر گردد قطعا زمان بسیار بیشتری خواهد گرفت

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

 

سلام دوستان
Stemming و stoplist در دسته بندی اسناد چه کاربردی دارن؟
سلام. ایست واژه ها، لغاتی پرتکراری هستند که بارمعنایی ندارند، حروف اضافه، حروف ربط، افعال معین و قس علی هذا ایست واژه محسوب میشن که معمولا موقع ایندکس کردن اسناد از فهرست واژگان حذف میشن. ریشه یابی هم که تو دو سطح استمینگ و لم یابی انجام میشه باعث میشه شما به جای ذخیره همه اشکال صرفی یک کلمه ، فقط ریشه اون رو ذخیره کنین، که این کار هم باعث افزایش میزان ارتباط اسناد با کوئری میشه، هم حجم فایل ایندکسینگ رو کاهش میده

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستان من با استفاده از nltkو الگوریتم tfidf کلمات کلیدی رو توی پایتون استخراج کرد.نیاز به نمایش به صورت ابرکلمات دارم ولی نمیتونم نسخه پایتونشو(3.5) نصب کنم . اول یه خطا داد که بعد سرچ فهمیدم بایدvisualcppbuildtools رو نصب کنم .ولی دوباره که pip install wordcloudمیزنم.خطای زیر رو می گیره:command'cl.exe'  failed:no such file or directory چطور حل میشه ؟ممنون
از طریق نصب conda و wheel هم امتحان کردید؟اصلا از anaconda استفاده کردید برای نصب یا نسخه تکی رو دارید؟این نسخه یک نسخه توزیعی هست که شامل تعدادی از پکیج ها می شه و خیلی از کانفلیکت های نصب پکیج ها رو از بین می بره...در نهایت مثل کامند pip اینجا یه کامند conda هست...اگر این مسخه رو ندارید مهم نیست برید سراغ راه حل دوم یعنی دانلود فایل اصلی پکیج و بعد اون رو نصب کنید..

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.