پرسش و پاسخ های تلگرامی در حوزه علم داده 11

پرسش و پاسخ های تلگرامی در حوزه علم داده 11


  • 342 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.
 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.
منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

 برای تحلیل متون پزشکی برای پروژه واقعی در زبان انگلیسی جاوا بدلیل منابع موجود نمیتونه بهتر باشه؟ پروژه سرویس تحت وب خواهد بود....

انتخاب زبان مناسب معمولا در پروژه های عملیاتی یکی از چالش های اساسی هست. 
در پروژه های متن کاوی علاوه آنکه باید به ویژگی های کلی یک زبان برنامه نویسی نگاه کرد باید کیفیت و میزان کتابخانه پردازش زبان طبیعی و متن کاوی در آن زبان هم در ملاک های انتخابی نهایی لحاظ گردد. 
پایتون و جاوا در این دو حوزه قدرتمند هست.  اگر در یک پروژه Enterprise فعالیت می کنید جاوا بهترین انخاب خواهد بود ولی پیچیدگی های خودش را خواهد داشت.  در غیر این صورت پایتون کاملا پاسخگو خواهد بود


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام رپیدمانر از چه روشی برای optimize selection استفاده می کند؟infogain یا gainratioیا روشهای دیگر چون هیچ پارامتری برای این گره وجود ندارد؟

اگه اشتباه نکنم ترکیبی از ژنتیک با روشهای forward یا backward هستداخلش باید یه کلاسیفایر بذارید. در کل هدف اینه که دقت کلاسیفایر داخل این گره ماکسیمم بشه


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. آیا از نظر قوانین پروپوزال اگر هدفمون نشان دادن نتیجه بهتر و دقیق تر در دسته بندی احساسات در متن و در شرایط "توزیع شده " (با کمک ابزار تحلیل بیگ دیتا) نسبت به دسته بندی احساسات در داده های "متمرکز" باشه، مشکلی در دفاع وجود داره؟ یعنی اگر ایده فقط بررسی ابزار جدید تحلیل باشه کافی هست؟

اگر رشته شما کامپیوتر، ریاضی یا آمار یا مهندسی صنایع نباشه و بیشتر کاربردی باشه مثل مدیریت ها مشکلی معمولا نداره...اما کلا موضوع رو باید دقیق تر ذکر کنید چون تا حالا ۱۰۰ ها مقاله در خصوص تحلیل احساسات در محیط های توزیع شده نوشته شده

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

.سلام دوستان کسی میتونه توضیحاتی در مورد الگوریتم یادگیری ماشین CRF بده یا مطلبی اگه در موردش داره برام ارسال کنه؟؟

مشکلتون با CRF چی هست؟ قبل اینکه CRF رو بررسی کنید بگید ببینم با مدل های مارکوف آشنا هستید؟ روش های بهینه سازی چه طور؟


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


با سلام.من میخوام برا موضوع پایان نامه ام دسته بندی متون فارسی با استفاده از الگوریتم CRFرا انتخاب کنم،الان از دوستان صاحب نظر کمک میخوام
که کلا مراحل کار مثل بقیه الگوریتم هاست مثلا مثل الگوریتم KNN اول باید انتخاب ویژگی را انجام بدم بعد از الگوریتم CRFجهت دسته بندی استفاده کنم یا کلا مراحل و روشش با الگوریتم هایی مثل KNN SVM....فرق میکنه؟ ممنون میشم اگه یه توضیح کلی و مراحل کار را بفرمایید

خیر متفاوت است مراحل...اما در مراحلی برای آموزش نیاز به روش های رده بندی هم داریم

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. یه سوال درباره انتخاب دیتاست دارم. برای پایان نامه م قصد دارم تحلیل احساسات رو روی داده های کلان و در پلتفرم هدوپ انجام بدم. برای بخش تحلیل احساساتش میخوام روی ابهامات جمله یا واژه ها تمرکز کنم. از نظر شما با توجه به اینکه موضوعم رفع ابهام است و میخوام توی چنین پلتفرمی پیاده سازیش کنم(توزیع شدگی) آیا میتونم دیتاستم رو یه دیتاست معمولی از توییتر بردارم یا اینکه باید دیتام متشکل از جملات ابهامی باشه؟؟

شما باید یه مجموعه داده از توییتر داشته باشید حالا برخی از اینها ابهام دارمد برخی هم ندارند

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام ببخشید یه سوال داشتم،وقتی ما میخوایم داده کاوی رو برای تشخیص یک بیماری استفاده کنیم یک سری قواعد ازدرخت تصمیم استخراج کردم و حالا میخوام وقتی دادهای یک بیمار جدید رو بهش میدی تشخیص بده که جزو کدوم دسته قرارمیگیره الان به نظرتون باید چیکارکنم من هرچی مقاله خوندم تا همین جاکه قوانین رو از مدل استخراج میکنن کارتموم میشه حالا برای کاربرداین قوانین چیکارباید کرد،یعنی باید هرباربرای اینکه ببینیم بیمار جزو کدام دسته است باید ازروی قوانین این کارو انجام بدیم یااینکه میشه یه جوری راحتترش کرد فقط خروجی دید؟

بسته به نوع نرم افزاری که استفاده کردید متفاوت هست ولی در اکثر نرم افزارهای داده کاوی امکان اعمال اطلاعات جدید به مدل ساخته شده و پیش بینی نتایج وجود دارد. 
یکی دیگر از روش های هم استفاده از یک نرم افزار واسط Rule Base با قوانین شناسایی شده و ورود اطلاعات به صورت بلادرنگ به آن است که نتایج با توجه به قوانین پیش بینی میگردد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام
دوستان عزیز کسی میتونه یه مثال سلسله مراتبی بالا به پایین برای من بگه مثلا اینکه اگر 4 پدربزرگ و مادربزرگ شخص فوت کرده باشند ، یعنی احتمالا خود شخص هم فوت خواهد کرد  یه چیزی شبیه به این میخوام لطفا

مث خلاصه سازی متن.یه مت رو میدین به یه ابزاری میگین اینو برام مثلا 90% خلاصه کن.خب این رو باهمین روش تشخیص جامعه بصورت سلسله مراتبی (بالا به پایین) انجام میده مثلا با خوشه بندی سلسله مراتبی این کار رو میکنه.جملاتی که شبیه به همند رو درمیاره.با هم مرج میکنه تا یکی بشن یا برآیندی از اونا بشه.بعد یه مرحله میاد پایینتر.آستانه شباهت رو کم میکنه.و دوباره ادغام هایه بیشتری انجام میشه و ....

اینی که می فرمایید در نوع خودش درسته
ولی جنس مثالی که من میخوام متفاوت با اینه
من دو تا مثال دارم
یکیش میگه اگر فرض کنیم همه آثار یک نویسنده دقیق هستن نتیجه میگیریم که اون نویسنده شخص دقیقیه
این میشه سلسله مراتب پایین به بالا
یکیم اینکه اگه همه پدربزرگ و مادربزرگای یه نفر فوت کرده باشن درنتیجه اون شخص هم فوت خواهد کرد که این میشه سلسله مراتب بالا به پایین
من این مثال دومی رو میخوام یه چیزی دیگه جاش بنویسم، یه چیز بهتر


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

در زمینه تحلیل اخبار خبرگزاریها در حوزه های فرهنگی،اجتماعی و سیاسی رویکرد یا شیوه تحلیلی خاصی وجود دارد. ممنون میشم دوستان در این زمینه راهنمایی بفرمایید

بله رویکرهای رده بندی و پردازش زبان طبیعی برای این منظور به کار می روند


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام 
من میخوام برای تعدای فیلم که قطبیت مثبت و منفی مشخص میکن میخواهم مدلی را بسازم و با داده های تست خودم آن را تست کنم
تعداد مثبت ها 12500 و تعداد منفی ها 12500 از naive base  استفاده کردم ولی یک دقیقه که کار میکنه فضای رم اشغال میکنه و سیستم هنگ میکنه ایا راهی برای ساخت این دارم ؟
میشود از نمونه گیری برای این کار استفاده کرد؟ رم 8 گیگ و هارد ssd  دارم رپیدماینر

اگر نسخه تون زیر ۷ هست این مشکل رو داره و کاری هم نمی شه کرد