در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
پرسش و پاسخ های تلگرامی
جامعهمان به شدت دارد کوتاهمدت میشود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقالهای که بعدها بهصورت کتاب در آمد، جامعه ایران را کلنگی مینامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن میکند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلویها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیسجمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور پیشین را از بیخ و بن ریشهکن کرد تا خود طرحی نو در اندازد؛ بیآنکه بداند رئیسجمهور بعدی، همین بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیسبوک با استقبال ایرانیان روبرو میشود، فیلتر میگردد؛ تلگرام هم همین طور. در بسیاری از این شبکهها، سرمایهی اجتماعیای شکل میگیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامهنگار، روحانی، شبکهی خبری داخلی و… در تلگرام توانستهاند اعتماد مردم را جلب کرده و سرمایهی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها دهها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایهی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایهی اجتماعی دوبارهای جان بگیرد، بخش زیادی از این سرمایهها برای همیشه از ایران رخت بر خواهد بست. جامعهشناس فرانسوی، بوردیو، از امکان تبدیل سرمایهها به یکدیگر سخن میگوید. یعنی شما میتوانی از سرمایه اقتصادیات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایههای اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایههای اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان بانک، حسابشان که طی این چند سال و با تلاش و کوشش پسانداز کردهاند، مسدود و نابود شده و میتوانند از ابتدا در بهمان بانک حساب باز کرده و دوباره از اول شروع به پسانداز کنند.
بیگمان سرمایهی اجتماعیای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیسبوک و تلگرام، هیچ تضمینی بر ماندگاریاش نیست. بدین شیوه، صدها سال است در چرخهای از ساختن و ویران کردن دچار شدهایم و پیشرفت بر پایه داشتهها و انباشتههای پیشین را، تنها در کشورهای همسایهای میبینیم که روز به روز از ما بیشتر فاصله میگیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
آیا برای پردازش داده های خام (کلان داده) نیاز به سخت افزار بالایی برای پردازش هست ؟
اتفاقا معماری های کلان داده و پلتفرم های چون هدوپ به همین دلیل ایجاد شده اند که با منابع سخت افزاری متوسط بتوان کلان داده ها را پردازش کرد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
من از بهمن پایان نامه برداشتم و همین مشکل رو دارم هنوز موضوع ندارم و استاد پیدا کردن داده را به عهده خودم گذاشتن و بالطبع ایده یا موضوعی ندادن عملا ۵ ترم شدم ، راهکار چیه بنظرتون
داشتن موضوع سخت نیست یادگیری داده کاوی مسئله مهمی است که باید بهش توجه کنید
یه مقاله پایه پیدا کنید بعد انو کامل بخونيد تا کامل متوجه بشین چی به چی هس،جا هایی رو که نفميدين به مراجعي که معرفی کرده بخونيد،و در ضمن به نویسنده ها هم ایمیل بزنید تا پیاده سازی رو بهتون بفرستن تا راحت تر کار کنيد.
ترند روز رو توي فيلد مورد علاقه خودتون و يا استادتون دنبال كنيد و سعي كنيد داده ها رو از نويسنده هاي مقالات بگيريد
يا اينكه اگر قصد ادامه تحصيل در خارج از كشور رو داريد راه استادي رو كه قصد داريد براي اپلاي باهاش كار كنيد رو ادامه بديد
توصیه بنده این است که همانطور که آقای مهندس گفتند یک مقاله را خوب بخونید اما این کارهای مزخرف که بعضا استادها می گویند مقاله پایه داشته باشید و یک مقاله پیدا کنید و از روی آن کار را جلو ببرید را انجام ندهید....بعد از خواندن 1 مقاله حداقل 15 مقاله جدید یعنی 2015 و 2016 در خصوص موضوع مطرح شده دانلود کنید و بعد خلاصه کنید و ببنید چه تکنیک هایی را استفاده نکرده اند و شکاف کار کجاست.
خواهش مي كنم. فرض كنيد من پايان نامه ارشدم تراست در شبكه هاي اجتماعي باشه، و مي خوام در همين زمين در امريكا يا هلند تحصيل كنم خب ميرم سايت دانشگاه هاي مد نظر توي اين كشورها رو مطالعه مي كنم و دنبال اساتيدي مي گردم كه تو اين زمينه كار كردن و تعدادي يا فرد خاصي رو انتخاب مي كنم و آخرين مقالاتش رو ميخونم ٢٠١٥ به بعد. و سعي مي كنم روي future work كارهاي اون كار كنم با كارهاش رو از نظر دقت improve بدم. اينجوري هدفكندتر به سمت اپلاي به دانشگاه مورد علاقه و ايناد مورد نظرم ميرم.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستانبرای متن کاوی متون فارسی و استخراج کلمات کلیدی متن های فارسی آیا مقاله یا نمونه کدی برای این کار سراغ دارید؟ هدف از این متن کاوی، مقایسه دو متن از اخبار روز و درک میزان شباهت متن ها و همچنین دسته بندی متن ها بر اساس موضوع هست.
برای موارد درخواستی مقالات بسیاری وجود دارد که می توانید با عناوین
Text Similarity
Text Classification
Topic Extraction
....
جستجو کنید. در زبان فارسی هم برنامه هایی در حوزه های فوق وجود دارد ولی به دلیل تجاری بودن اکثر آنها امکان در اختیار دادن کدها معمولا امکان پذیر نیست
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام می بخشید کسی اطلاعی در موردی predicative text mining داره یا ی سری مقاله بتونه به من پیشنهاد کنه. یا مقالاتی در مورد text mining و probability graphical model
انتشارات Springer یک کتابی با عنوان
Fundamental of Predictive Text Mining
منتشر کرده هست که می توانید استفاده کنید
دوستان عزیز ایا امکان داره که قوانین انجمنی رو با پایتون انجام داد...البته داده ها به صورت متن می باشد؟؟؟؟؟؟
با رپیدماینر بسیارعالی انجام میشود.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان. من قصد دارم که یک سری اسناد متنی رو که در هیچ فرمت خاصی مثل XML و غیره نیستند رو خوشه بندی کنم و در نهایت اون رو با متریک هایی مثل recall و precision ارزیابی کنم. برای این کار نیاز به Label دارم. چطور این برچسب ها رو به اسناد بدم؟ با توجه به اینکه مجموعه داده ی من خبریه و اسناد اون در بیست فایل مختلف موضوعی تقسیم شده اند.
label شما همان موضوعات هستند.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان. روز بخیر. از بین classifier های موجود، کدام یک برای داده های متنی مناسب تر هستند و بازدهی بیشتری دارند؟ من چند جا خوندم که Support Vector Machine کارآیی بیشتری برای داده های متنی و خصوصا در مواجهه با ابعاد بالا داره، با توجه به نوع روشی که به کار می گیره. این درسته؟
برای انتخاب یک Classifier در متن امکان شناسایی اینکه کدام الگوریتم همیشه بهتر هست ممکن نیست و باید در مسایل با توجه به پیچیدگی های آن، نوع داده، سایز داده ها روش ها رو بررسی کرد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
باسلام لطفا در مورد موضوع برای پایان نامه و سمینار ارشد نرم در حوزه داده کاوی چی پیشنهاد میدین ممنون میشم راهنمایی بفرمایید؟
سلام. به نظرم اول ببینید تو چ زمینه ای دسترسی ب داده ها براتون آسونتره....
مثلا پزشکی ک خودم کار کردم خیلی خیلی سخته و کم پیش میاد همکاری کنن. ولی ارگان های دیگه خیلی بهتر با ی نامه نگاری داده هارو میدن و بقیش ک کارای نرمال سازی و پاکسازی و… ک خیلی هم مهمه و بسته ب اطلاع و درک طرف داره...و میشه ی نتیجه ی خوب گرفت و اینکه میتونید ی سرچ کنید ببینید چ جاهایی با مشکل هایی رو ب رو هستن ک با داده کاوی میشه حلش کرد
بعدش اتفاقا خیلی باهاتون همکاری میکنن و شاید کارتونو بخرن
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
دوستان کسی در زمینه متن کاوی و یافتن کلمات هم معنی و ضمنی در متن کار کرده؟ و یا بانک کلمات هم معنا رو داره؟ مثلا زلزله، مقاوم سازی و …
وردنت خانم دکتر شمس فرد- دانشگاه شهید بهشتی
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان صبح بخیر من در زمینه خلاصه سازی متون فارسی کارم میکنم اگر دوستان اسلاید مناسبی در زمینه خلاصه سازی متن دارن ممنون میشم تو گروه بزارن.تشکر
https://www.slideshare.net/mobile/pratikkumarshanu/document-summarization
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام یه راهنمایی. تو متد های تشخیص داده های پرت از ریاضیات زیاد استفاده شده؟
برای شناسایی داده های پرت روش های مختلفی چون روش های مبتنی بر شبکه عصبی، خوشه بندی، چگالی، One Class svm, روش های مبتی بر فاصله و... وجود دارد که اکثرا پایه آماری و یادگیری ماشین دارند.