پرسش و پاسخ های تلگرامی در حوزه علم داده 7

پرسش و پاسخ های تلگرامی در حوزه علم داده 7


  • 881 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.
 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.
منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


یه سوال داشتم ☝️
بنده باید آنالیز احساسات رو پیاده سازی کنم و راستش تا حال همچین کاری نکردم و تازه وارد فیلد نظر کاوی و آنالیز احساسات شدم.
میخواستم جویا شم که از بزرگواران کسی میتونه راهنماییم کنه که از کجا باید شروع کنم و یا فایل، کتاب یا مقاله ی مناسبی داره که بتونم با مطالعش متوجه چگونگی پیاده سازی کردنش بشم؟
پیشتر از لطفتون ممنونم
https://www.slideshare.net/mobile/mcjenkins/how-sentiment-analysis-works

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


سلام دوستان یه سوال داشتم ممنون میشم راهنمایی بفرمایید برای اینکه یه پروژه داده کاوی با پایتون را بخواهبم بین چند نفر تقسیم کنیم که انجام بدن چه کارهایی لازمه؟ منظورم اینه که سرور لینوکسی که داریم چطوری باید کانفیگ کنیم کلا مراحل کار چیه؟ یه چی شبیه گیت هاب؟
پروژه رو میبرین رویgitlabبعد به کسایی که قراره روش کار کنن دسترسی میدین بعد اگه لازم بود چنتاbranchهم میزنین که کارا کاملا از هم جدا باشن اگه مثلا دارین ماژولار کار میکنین و ....
کلا باید گیت بلد باشین که خیلی آسونه


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان. یه سوال درباره sentiment analysis داشتم.کسی میتونه بگه الگوریتم هایی مث بیزین و svm چطوری polarityجمله رو مشخص میکنن؟؟آیا فقط مشخص میکنن جمله در کلاس مثبت هست یا منفی؟من یه کد پایتون برای بیزین زدم. اما جالبه حتی وقتی بهش داده ی train نمیدم داره polarity رو جداگانه حساب میکنه!! این polarity داره چجوری محاسبه میشه؟؟ ممنون
اگه از روشهای احتمالی استفاده کنید بر اساس میزان احتمال در مورد تعلق داشتن به یک کلاس تصمیم گیری میشه
روشهای فازی هم هست که نسبت تعلق داشتن به کلاس مثبت با منفی رو مشخص مبکنه
اما روشهای پابه ای مثل sfa کلاس رو مشخق میکنن یعنی دقیقا تعیین میکنن یه کامنت مثبته یا منفی


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان
لیست کلمات و افعال عامیانه فارسی کسی دسترسی داره ؟چطور میتونیم یک دیتاست فارسی عامیانه رو به رسمی تبدیل کنیم
گر منظورتون از عامیانه محاوره هست:
دو حالت پیش میاد یکی اینکه یک کلمه کلا در زبان محاوره باشه ولی در زبان رسمی (نوشتار) نباشه یا اگر هست این معنی رو نده یا در گفتگوهای یک داستان رخ بده.
مثل آشغال (زباله)، خب این نیاز به دیکشنری داره همونطوری که گفتن ولی یه وقتی میبینید مثلا کلمه نان در محاوره بصورت نون گفته میشه یا چای میشه چایی و ...
اینجا میشه از الگوریتم های مربوط به Spell Checking مثل Edit Distance استفاده کرد.
ولی درکل این نظر منه، مطمئنا روش های زیادی پیشنهاد شده که باید به مقالات این حوزه مراجعه کنید.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


کسی میدونه بعد از خوشه بندی روی متن با kmeans چطوری میشه فهمید مرکز خوشه چه کلمه یا جمله ای هست؟
هر خوشه براساس معیار شباهتی که دارین ، یه مرکز داره، ممکنه این مرکز خوشه از اول خودش یه داده باشه اگر نیست باید  براساس تعریف شباهتی که بین داده های خوشه هست، باید نزدیکترین (شبیه ترین) داده ی هر خوشه رو به مرکز خوشه پیدا کنین.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام براي پايان نامه در حوزه متن كاوي چه موضوعاتي جديد هست؟ ممنون ميشم راهنمايي كنيد
باید مقالات جدید در این حوزه رو یه نگاهی بندازین تا ببنید به چه موضوعی بیشتر علاقه دارین و یه مسئله در اون حوزه تعریف کنین. وگرنه موضوع برای کار در متن کاوی زیاد هست.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام منظورازcross-domain درزمینه تحلیل احساسات چیه؟
یعنی شما از دیتای لیبل خورده یک دامنه برای آموزش یک مدل به شکلی استفاده کنید که بتونه نمونه های یک دامنه دیگه که برچسب نخورده رو تحلیل کنه. مثلا شما داده های لوازم الکترونیکی رو دارین که برچسب دارن و داده های بدون برچسب دامنه کتاب حالا از این داده ها استفاده میکنین که مدلتون برچسب نمونه های کتاب رو پیش بینی کنه.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام خسته نباشيد .كتابخانه هاي لازم پايتون  براي شروع ديتا ماينينگ ياد گرفتن چي هستن .با numpy شروع كنم خوبه ؟ مننون ميشم راهنمايي كنيد ?
Numpy 
Pandas
Matplotlib
Sklearn
اینارو نیازتون میشه ولی اگه با یه کورس پیش برید تو زمینه ماشین لرنینگ بهتره که اینارو پوشش داده باشه این طوری هر کدوم از این کتابخونه ها رو کاربردی و براساس نیازتون یادمیگیرین و درگیر پیچیدگی های غیر ضروری نمیشید