پرسش و پاسخ های تلگرامی در حوزه علم داده 8

پرسش و پاسخ های تلگرامی در حوزه علم داده 8


  • 347 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.
 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.
منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


آیا برای پردازش داده های خام (کلان داده) نیاز به سخت افزار بالایی برای پردازش هست ؟
اتفاقا معماری های کلان داده و پلت‌فرم های چون هدوپ به همین دلیل ایجاد شده اند که با منابع سخت افزاری متوسط بتوان کلان داده ها را پردازش کرد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


من از بهمن پایان نامه برداشتم و همین مشکل رو دارم هنوز موضوع ندارم و استاد پیدا کردن داده را به عهده خودم گذاشتن و بالطبع ایده یا موضوعی ندادن عملا ۵ ترم شدم ، راهکار چیه بنظرتون
داشتن موضوع سخت نیست یادگیری داده کاوی مسئله مهمی است که باید بهش توجه کنید
یه مقاله پایه پیدا کنید بعد انو کامل بخونيد تا کامل متوجه بشین چی به چی هس،جا هایی رو که نفميدين به مراجعي که معرفی کرده بخونيد،و در ضمن به نویسنده ها هم ایمیل بزنید تا پیاده سازی رو بهتون بفرستن تا راحت تر کار کنيد.
ترند روز رو توي فيلد مورد علاقه خودتون و يا استادتون دنبال كنيد و سعي كنيد داده ها رو از نويسنده هاي مقالات بگيريد
يا اينكه اگر قصد ادامه تحصيل در خارج از كشور رو داريد راه استادي رو كه قصد داريد براي اپلاي باهاش كار كنيد رو ادامه بديد
توصیه بنده این است که همانطور که آقای مهندس گفتند یک مقاله را خوب بخونید اما این کارهای مزخرف که بعضا استادها می گویند مقاله پایه داشته باشید و یک مقاله پیدا کنید و از روی آن کار را جلو ببرید را انجام ندهید....بعد از خواندن 1 مقاله حداقل 15 مقاله جدید یعنی 2015 و 2016 در خصوص موضوع مطرح شده دانلود کنید و بعد خلاصه کنید و ببنید چه تکنیک هایی را استفاده نکرده اند و شکاف کار کجاست.
خواهش مي كنم. فرض كنيد من پايان نامه ارشدم تراست در شبكه هاي اجتماعي باشه، و مي خوام در همين زمين در امريكا يا هلند تحصيل كنم خب ميرم سايت دانشگاه هاي مد نظر توي اين كشورها رو مطالعه مي كنم و دنبال اساتيدي مي گردم كه تو اين زمينه كار كردن و تعدادي يا فرد خاصي رو انتخاب مي كنم و آخرين مقالاتش رو ميخونم ٢٠١٥ به بعد. و سعي مي كنم روي future work كارهاي اون كار كنم با كارهاش رو از نظر دقت improve بدم. اينجوري هدفكندتر به سمت اپلاي به دانشگاه مورد علاقه و ايناد مورد نظرم ميرم.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستانبرای متن کاوی متون فارسی و استخراج کلمات کلیدی متن های فارسی آیا مقاله یا نمونه کدی برای این کار سراغ دارید؟  هدف از این متن کاوی،  مقایسه دو متن از اخبار روز و درک میزان شباهت متن ها  و همچنین دسته بندی متن ها بر اساس موضوع هست.
برای موارد درخواستی مقالات بسیاری وجود دارد که می توانید با عناوین 
Text Similarity 
Text Classification 
Topic Extraction 
.... 
جستجو کنید.  در زبان فارسی هم برنامه هایی در حوزه های فوق وجود دارد ولی به دلیل تجاری بودن اکثر آنها امکان در اختیار دادن کدها معمولا امکان پذیر نیست

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام می بخشید کسی اطلاعی در موردی predicative text mining داره یا ی سری مقاله بتونه به من پیشنهاد کنه. یا مقالاتی در مورد text  mining و probability graphical model
انتشارات Springer یک کتابی با عنوان 
Fundamental of Predictive Text Mining
 منتشر کرده هست که می توانید استفاده کنید
دوستان عزیز ایا امکان داره که قوانین انجمنی رو با پایتون انجام داد...البته داده ها به صورت متن می باشد؟؟؟؟؟؟
با رپیدماینر بسیارعالی انجام میشود.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستان. من قصد دارم که یک سری اسناد متنی رو که در  هیچ فرمت خاصی مثل XML و غیره نیستند رو خوشه بندی کنم و در نهایت اون رو با متریک هایی مثل recall و precision ارزیابی کنم. برای این کار نیاز به Label دارم. چطور این برچسب ها رو به اسناد بدم؟ با توجه به اینکه مجموعه داده ی من خبریه و اسناد اون در بیست فایل مختلف موضوعی تقسیم شده اند.
label شما همان موضوعات هستند.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستان. روز بخیر. از بین classifier های موجود، کدام یک برای داده های متنی مناسب تر هستند و بازدهی بیشتری دارند؟ من چند جا خوندم که  Support Vector Machine کارآیی بیشتری برای داده های متنی و خصوصا در مواجهه با ابعاد بالا داره، با توجه به نوع روشی که به کار می گیره. این درسته؟
برای انتخاب یک Classifier در متن امکان شناسایی اینکه کدام الگوریتم همیشه بهتر هست ممکن نیست و باید در مسایل با توجه به پیچیدگی های آن،  نوع داده،  سایز داده ها روش ها رو بررسی کرد.


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

باسلام لطفا در مورد موضوع برای پایان نامه و سمینار ارشد نرم در حوزه داده کاوی چی پیشنهاد میدین ممنون میشم راهنمایی بفرمایید؟
سلام. به نظرم اول ببینید تو چ زمینه ای دسترسی ب داده ها براتون آسونتره....
مثلا پزشکی ک خودم کار کردم خیلی خیلی سخته و کم پیش میاد همکاری کنن. ولی ارگان های دیگه خیلی بهتر با ی نامه نگاری داده هارو میدن و بقیش ک کارای نرمال سازی و پاکسازی و… ک خیلی هم مهمه و بسته ب اطلاع و درک طرف داره...و میشه ی نتیجه ی خوب گرفت و اینکه میتونید ی سرچ کنید ببینید چ جاهایی با مشکل هایی رو ب رو هستن ک با داده کاوی میشه حلش کرد
بعدش اتفاقا خیلی باهاتون همکاری میکنن و شاید کارتونو بخرن

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

دوستان کسی در زمینه متن کاوی و یافتن کلمات هم معنی و ضمنی در متن کار کرده؟ و یا بانک کلمات هم معنا رو داره؟ مثلا زلزله، مقاوم سازی و …
وردنت خانم دکتر شمس فرد- دانشگاه شهید بهشتی


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان صبح بخیر من در زمینه خلاصه سازی متون فارسی کارم میکنم اگر دوستان اسلاید مناسبی در زمینه خلاصه سازی متن دارن ممنون میشم تو گروه بزارن.تشکر
https://www.slideshare.net/mobile/pratikkumarshanu/document-summarization


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

 

سلام یه راهنمایی. تو متد های تشخیص داده های پرت از ریاضیات زیاد استفاده شده؟
برای شناسایی داده های پرت روش های مختلفی چون روش های مبتنی بر شبکه عصبی،  خوشه بندی، چگالی،  One Class svm,  روش های مبتی بر فاصله و... وجود دارد که اکثرا پایه آماری و یادگیری ماشین دارند.