پرسش و پاسخ های تلگرامی در حوزه علم داده 13

پرسش و پاسخ های تلگرامی در حوزه علم داده 13


  • 368 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.
 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان  چطور مدل کراس میتونم بیارم تو اندروید و تصویر بدم بهش ؟ مثالی ازش دارید ؟
همونطوری که آقای درستانیان هم در لینک دوم براتون فرستادن (که البته با اون چیزی که بنده الان میخوام بگم کمی متفاوته) بهترین روش استفاده از مدل های کراس برپایه تنسرفلو هست که میتونید به عنوان مدل تنسرفلو هم ازش استفاده کنید. بعد روی سیستم موبایل تنسرفلو لایت استفاده میکنید و مدل رو میتونید تست کنید.
البته تنسرفلو لایت قابلیت ترین روی سیستم های موبایلی رو هم داره.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. دوستان کسی تجربه کار با Dataset API توی تنسورفلو روی معماری RNN داره؟  بنظرم خودم دارم اشتباه تعریفشون میکنم، در مورد نحوه تعریف ابعاد مجموعه داده آموزش و آزمون و تعریف ابعاد تنسور ها و پلیس هولدر ها اطلاعات لازم دارم

واسه train و eval و predict هر کدوم یه پلیس هولدر بزارین بعد یه لیست از تنسور هارو بهش وصل کنین ( همون دیکشنری که پایتون داره ) درباره شیپ و تایپ باید تنسور ها و پلیس هولدر ها مثل هم باشن. بعد یه dataSet میسازین ازینا
چون پلیس هولدرا لیبل دارن تنسور ها قاطی نمیشن دیگه واسه شیپ هم n*m بگیرین که n تعداد کل ورودی ها و m تعداد ویژگی های هر ورودی باشه
مجموعه داده من برای هر فاز تفکیک شده س. هر نمونه 5140 واحد طولشه و طول عبارت ورودی به سلول بازگشتی 275 واحده. یعنی میخوام سلولم 20 بار آنفولد بشه. ابعاد پلس هوادر ورودی رو [None, 20, 257] گذاشتم خروجی رو هم [None, 30]. قسمت نا معلوم برای تعداد نمونه های هر بچه. مشکل از اون جایی شروع شد که خروجی اول dynamic rnn تمام 20 تا خروجی به ازای هر ورودی روی یک تنسور تعریف میکنه بعنی  [None, 20, 30] مشکلم اینجاست که میخوام از این 20 تا خروجی rnn که هر کدوم مربوط به یه تایم استپه متوسط بگیرم تا ابعادش بشه  یعنی اول بشه  [None, 1, 30] و بعد کاهش بعدش بدم بشه  [None, 30] ولی چون یه بعد تنسور None  هست نمشه از tf.squeezeو tf.reshape و .... استفاده کرد

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

متلب یا پایتون ؟

از یه جهاتی اصلا قابل مقایسه نیستن 🤔 متلب توی مباحث محاسباتی خوب عمل میکنه و پایتون به کمک کتابخانه هایی مثل numpy و matplotlib میتونه در حد متلب باشه. با این تفاوت که پایتون یه زبان همه منظوره س. وقتی شما یه کد رو تو پایتون مینویسین میتونین بعدا اگه خواستین اون کد رو روی سایتی که به همون زبان پایتون نوشته شده به راحتی ران کنین و ازش استفاده کنین که فکر نمیکنم متلب همچین قابلیتی داشته باشه. همین قضیه در مورد اپ موبایل و جاهای دیگه هم صادقه. فکر میکنم به این دلیل پایتون رو به متلب ترجیح میدن.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام من دنبال يه دیتاست مناسب برای کلاسیفیکیشن میگردم خیلی از وبساینهای خارجی معروف رو چک کردم ولی نتیجه ای نگرفتم شما دیتاست جدیدی سراغ دارید؟ کاگل بالا نمیاد دیتا کوبیز هم خیلی از دیتاست هاش قديميه جدیدا هم بکار من نمیاد
اولا سعی کنید کگل بالا بیاد. ثانیا از گیت هاب استفاده کنید. و البته dataheart.ir دیتاهارت
هرچند بهترین روش اینه که دیتاست بسازید چون هر کسی که دیتاست میسازه معمولا یه SVM ساده هم که شده روش میزنه.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام
برای sentiment analysis feature selection به جز tfidf و chi-square چه متودای دیگه ای وجود داره؟ بیشتر برای feature selection دنبال سرنخم. می خوام کلیه روشایی که در حال حاضر هستو بدونم.

سلام.‌ اینکه‌کلمه‌در عنوان‌هست یا متن. همچنین به فعل میشه وزن بیشتری داد چون بار جمله روی فعل هست.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

دوستان چطوری کانفیوژن ماتریس رو در متلب  بدست بیارم برای یک دیتاست که با شبکه عصبی دسته‌بندی شده.  ممنون میشم پاسخ بدین.
یه تابع داره. اگر کلمه confusion رو سرچ کنی تو هلپ متلب تابعش میاره. ولی اگر خودت میخوای بنویسی نیاز به یه ماتریس به ابعاد تعداد کلاس ها داری. بعد میتونی سطر هارو مقدار واقعی یا جوابای اصلی در نظر بگیری و ستون هارو مقادیری که سیستم بهت داده. البته فرقی نداره.  بعد تو جوابات نگاه میکنی مثلا برای کلاس اول جمعا 10 تا دیتا داشتی باید خونه ی یک و یگ بشه 10 اما میبینی از این 10 تا 9 تاشو فقط درست حدس زده پس اون رو با عدد 9 پر میکنی و بعد میبینی اون یکی که اشتباه شده با چه کلاسی اشنباه گرفته با هر کلاسی که اشتباه گرفته شده بود تو ماتریس مینویسیش. بقیه خونه ها هم 0 میشه. همین کارو برا بقیه کلایا هم میکنی. امیدوارم خوب توضیح داده باشم


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

ببخشید دوستان دنبال یه موضوع نسبتا اسون ولی جدید و جالب میگردم تو هوش مصنوعی میشه چندتا معرفی کنید که بشه با پایتون پیاده سازی کرد.
برای جامعه دانشجویی ایران بهترین گزینه شبکه های عصبی بازگشتی هست در حال حاضر. گزینه های تحقیقاتی خوبی ممکنه بهتون معرفی بشه مثل شبکه های مولد رقابتی (GAN) یا کپسول نت (CapsNet) یا اوتو انکودرها و ماشین های بولتزمن. نکته یی که هست این موضوعات به نظر من برای شروع مناسب نیستن و ممکنه روبروشون احساس ضعف کنید برای شروع. مشکل اصلی دیگه هم نیاز به سخت افزار قوی و تسلط سطح بالا به زبان هایی مثل پایتون هست. در مقابل شبکه های عصبی بازگشتی روی یک تئوری قدیمی تعریف شدن و درکشون برای کسایی که میخوان تازه شروع کنن ممکنه راحت تر باشه. از طرفی برای آموزش ماشین بر مبنای متن یا صوت بشدت کاربردی تر از شبکه های کانولوشنال هست و توی ایران هم جمعیت کسایی که شبکه های بازگشتی کار میکنن به مراتب از کاربرهای شبکه های کانولوشنال کمتره که امتیاز مثبت بزرگیه.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

می خوام برای اولین بار شروع به ساخت یک واسط کاربر برای کدی که در زمینه دسته بند متن با کراس در بستر تنسورفلو (sentiment analysis ) نوشته ام کنم. متاسفانه منابع زیادی پیدا کردم که نمیدونم کدام مناسبتر هستند اگرکسی تجربه ای در زمینه نوشتن GUI باپایتون داره خوشحال میشم منابعی که برای یادگیری از ان استفاده کرده را با من به اشتراک بگذارد.
آخه این دو موضوع کاملا جدا هستن.
واسط کاربری یه بحثه، آنالیز احساس یه بحث دیگه


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام من دنبال يه دیتاست مناسب برای کلاسیفیکیشن میگردم خیلی از وبساینهای خارجی معروف رو چک کردم ولی نتیجه ای نگرفتم شما دیتاست جدیدی سراغ دارید؟ کاگل بالا نمیاد دیتا کوبیز هم خیلی از دیتاست هاش قديميه جدیدا هم بکار من نمیاد
اولا سعی کنید کگل بالا بیاد. ثانیا از گیت هاب استفاده کنید. و البته dataheart.ir دیتاهارت
هرچند بهترین روش اینه که دیتاست بسازید چون هر کسی که دیتاست میسازه معمولا یه SVM ساده هم که شده روش میزنه.