در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعهمان به شدت دارد کوتاهمدت میشود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقالهای که بعدها بهصورت کتاب در آمد، جامعه ایران را کلنگی مینامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن میکند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلویها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیسجمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور پیشین را از بیخ و بن ریشهکن کرد تا خود طرحی نو در اندازد؛ بیآنکه بداند رئیسجمهور بعدی، همین بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیسبوک با استقبال ایرانیان روبرو میشود، فیلتر میگردد؛ تلگرام هم همین طور. در بسیاری از این شبکهها، سرمایهی اجتماعیای شکل میگیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامهنگار، روحانی، شبکهی خبری داخلی و… در تلگرام توانستهاند اعتماد مردم را جلب کرده و سرمایهی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها دهها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایهی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایهی اجتماعی دوبارهای جان بگیرد، بخش زیادی از این سرمایهها برای همیشه از ایران رخت بر خواهد بست. جامعهشناس فرانسوی، بوردیو، از امکان تبدیل سرمایهها به یکدیگر سخن میگوید. یعنی شما میتوانی از سرمایه اقتصادیات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایههای اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایههای اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان بانک، حسابشان که طی این چند سال و با تلاش و کوشش پسانداز کردهاند، مسدود و نابود شده و میتوانند از ابتدا در بهمان بانک حساب باز کرده و دوباره از اول شروع به پسانداز کنند.
بیگمان سرمایهی اجتماعیای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیسبوک و تلگرام، هیچ تضمینی بر ماندگاریاش نیست. بدین شیوه، صدها سال است در چرخهای از ساختن و ویران کردن دچار شدهایم و پیشرفت بر پایه داشتهها و انباشتههای پیشین را، تنها در کشورهای همسایهای میبینیم که روز به روز از ما بیشتر فاصله میگیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
برای تحلیل متون پزشکی برای پروژه واقعی در زبان انگلیسی جاوا بدلیل منابع موجود نمیتونه بهتر باشه؟ پروژه سرویس تحت وب خواهد بود....
انتخاب زبان مناسب معمولا در پروژه های عملیاتی یکی از چالش های اساسی هست.
در پروژه های متن کاوی علاوه آنکه باید به ویژگی های کلی یک زبان برنامه نویسی نگاه کرد باید کیفیت و میزان کتابخانه پردازش زبان طبیعی و متن کاوی در آن زبان هم در ملاک های انتخابی نهایی لحاظ گردد.
پایتون و جاوا در این دو حوزه قدرتمند هست. اگر در یک پروژه Enterprise فعالیت می کنید جاوا بهترین انخاب خواهد بود ولی پیچیدگی های خودش را خواهد داشت. در غیر این صورت پایتون کاملا پاسخگو خواهد بود
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام رپیدمانر از چه روشی برای optimize selection استفاده می کند؟infogain یا gainratioیا روشهای دیگر چون هیچ پارامتری برای این گره وجود ندارد؟
اگه اشتباه نکنم ترکیبی از ژنتیک با روشهای forward یا backward هستداخلش باید یه کلاسیفایر بذارید. در کل هدف اینه که دقت کلاسیفایر داخل این گره ماکسیمم بشه
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام. آیا از نظر قوانین پروپوزال اگر هدفمون نشان دادن نتیجه بهتر و دقیق تر در دسته بندی احساسات در متن و در شرایط "توزیع شده " (با کمک ابزار تحلیل بیگ دیتا) نسبت به دسته بندی احساسات در داده های "متمرکز" باشه، مشکلی در دفاع وجود داره؟ یعنی اگر ایده فقط بررسی ابزار جدید تحلیل باشه کافی هست؟
اگر رشته شما کامپیوتر، ریاضی یا آمار یا مهندسی صنایع نباشه و بیشتر کاربردی باشه مثل مدیریت ها مشکلی معمولا نداره...اما کلا موضوع رو باید دقیق تر ذکر کنید چون تا حالا ۱۰۰ ها مقاله در خصوص تحلیل احساسات در محیط های توزیع شده نوشته شده
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
.سلام دوستان کسی میتونه توضیحاتی در مورد الگوریتم یادگیری ماشین CRF بده یا مطلبی اگه در موردش داره برام ارسال کنه؟؟
مشکلتون با CRF چی هست؟ قبل اینکه CRF رو بررسی کنید بگید ببینم با مدل های مارکوف آشنا هستید؟ روش های بهینه سازی چه طور؟
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
با سلام.من میخوام برا موضوع پایان نامه ام دسته بندی متون فارسی با استفاده از الگوریتم CRFرا انتخاب کنم،الان از دوستان صاحب نظر کمک میخوام
که کلا مراحل کار مثل بقیه الگوریتم هاست مثلا مثل الگوریتم KNN اول باید انتخاب ویژگی را انجام بدم بعد از الگوریتم CRFجهت دسته بندی استفاده کنم یا کلا مراحل و روشش با الگوریتم هایی مثل KNN SVM....فرق میکنه؟ ممنون میشم اگه یه توضیح کلی و مراحل کار را بفرمایید
خیر متفاوت است مراحل...اما در مراحلی برای آموزش نیاز به روش های رده بندی هم داریم
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام. یه سوال درباره انتخاب دیتاست دارم. برای پایان نامه م قصد دارم تحلیل احساسات رو روی داده های کلان و در پلتفرم هدوپ انجام بدم. برای بخش تحلیل احساساتش میخوام روی ابهامات جمله یا واژه ها تمرکز کنم. از نظر شما با توجه به اینکه موضوعم رفع ابهام است و میخوام توی چنین پلتفرمی پیاده سازیش کنم(توزیع شدگی) آیا میتونم دیتاستم رو یه دیتاست معمولی از توییتر بردارم یا اینکه باید دیتام متشکل از جملات ابهامی باشه؟؟
شما باید یه مجموعه داده از توییتر داشته باشید حالا برخی از اینها ابهام دارمد برخی هم ندارند
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام ببخشید یه سوال داشتم،وقتی ما میخوایم داده کاوی رو برای تشخیص یک بیماری استفاده کنیم یک سری قواعد ازدرخت تصمیم استخراج کردم و حالا میخوام وقتی دادهای یک بیمار جدید رو بهش میدی تشخیص بده که جزو کدوم دسته قرارمیگیره الان به نظرتون باید چیکارکنم من هرچی مقاله خوندم تا همین جاکه قوانین رو از مدل استخراج میکنن کارتموم میشه حالا برای کاربرداین قوانین چیکارباید کرد،یعنی باید هرباربرای اینکه ببینیم بیمار جزو کدام دسته است باید ازروی قوانین این کارو انجام بدیم یااینکه میشه یه جوری راحتترش کرد فقط خروجی دید؟
بسته به نوع نرم افزاری که استفاده کردید متفاوت هست ولی در اکثر نرم افزارهای داده کاوی امکان اعمال اطلاعات جدید به مدل ساخته شده و پیش بینی نتایج وجود دارد.
یکی دیگر از روش های هم استفاده از یک نرم افزار واسط Rule Base با قوانین شناسایی شده و ورود اطلاعات به صورت بلادرنگ به آن است که نتایج با توجه به قوانین پیش بینی میگردد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام
دوستان عزیز کسی میتونه یه مثال سلسله مراتبی بالا به پایین برای من بگه مثلا اینکه اگر 4 پدربزرگ و مادربزرگ شخص فوت کرده باشند ، یعنی احتمالا خود شخص هم فوت خواهد کرد یه چیزی شبیه به این میخوام لطفا
مث خلاصه سازی متن.یه مت رو میدین به یه ابزاری میگین اینو برام مثلا 90% خلاصه کن.خب این رو باهمین روش تشخیص جامعه بصورت سلسله مراتبی (بالا به پایین) انجام میده مثلا با خوشه بندی سلسله مراتبی این کار رو میکنه.جملاتی که شبیه به همند رو درمیاره.با هم مرج میکنه تا یکی بشن یا برآیندی از اونا بشه.بعد یه مرحله میاد پایینتر.آستانه شباهت رو کم میکنه.و دوباره ادغام هایه بیشتری انجام میشه و ....
اینی که می فرمایید در نوع خودش درسته
ولی جنس مثالی که من میخوام متفاوت با اینه
من دو تا مثال دارم
یکیش میگه اگر فرض کنیم همه آثار یک نویسنده دقیق هستن نتیجه میگیریم که اون نویسنده شخص دقیقیه
این میشه سلسله مراتب پایین به بالا
یکیم اینکه اگه همه پدربزرگ و مادربزرگای یه نفر فوت کرده باشن درنتیجه اون شخص هم فوت خواهد کرد که این میشه سلسله مراتب بالا به پایین
من این مثال دومی رو میخوام یه چیزی دیگه جاش بنویسم، یه چیز بهتر
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
در زمینه تحلیل اخبار خبرگزاریها در حوزه های فرهنگی،اجتماعی و سیاسی رویکرد یا شیوه تحلیلی خاصی وجود دارد. ممنون میشم دوستان در این زمینه راهنمایی بفرمایید
بله رویکرهای رده بندی و پردازش زبان طبیعی برای این منظور به کار می روند
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام
من میخوام برای تعدای فیلم که قطبیت مثبت و منفی مشخص میکن میخواهم مدلی را بسازم و با داده های تست خودم آن را تست کنم
تعداد مثبت ها 12500 و تعداد منفی ها 12500 از naive base استفاده کردم ولی یک دقیقه که کار میکنه فضای رم اشغال میکنه و سیستم هنگ میکنه ایا راهی برای ساخت این دارم ؟
میشود از نمونه گیری برای این کار استفاده کرد؟ رم 8 گیگ و هارد ssd دارم رپیدماینر
اگر نسخه تون زیر ۷ هست این مشکل رو داره و کاری هم نمی شه کرد