Outliers and Data Cleaning
در این پست قصد داریم شما را با مفهوم دادههای پرت (Outliers)، نحوه شناسایی آنها در یک دیتاست و تاثیر مخرب آنها و حل این مشکل آشنا کنیم. چون شناسایی و حل مشکل دادههای پرت، یکی از مهمترین وظایف در تمیز کردن دیتا (Data Cleaning) ست. از طرفی، تمیز کردن دادهها به عنوان اولین قدم در پردازش دادهها حائز اهمیت است. چون ما برای بکارگیری مدلهای یادگیری ماشین برای مثال در پروژههای دیتاساینس به دادههای با کیفیت نیازمندیم.
بطور کلی دادههای پرت باید در دو شرط کلی زیر صدق کنند:
- outlier<Q1-1.5(IQR)
- outlier>Q3+1.5(IQR)
که در آن Q1 نشان دهنده چارک اول، Q3 نشاندهنده چارک سوم و IQR تفاضل چارک اول از چارک سوم میباشد.
در دوره آمار برای علم داده در به آوران سیستم گیل، تمام مفاهیم آماری لازم برای پروژههای دیتاساینس آموزش داده میشود.
اهمیت شناسایی دادههای پرت:
در شکل زیر به آسانی مشاهده میکنیم چطور دادههای پرت میتوانند ضریب همبستگی و نتیجه پیش بینی را خراب کنند. حتی اگر تعداد آنها در مقایسه با دادههای دیگر بسیار کم باشد. شکل زیر این موضوع را آشکار میکند.
مشاهده میکنیم اضافه کردن تنها دو داده پرت نتیجه ضریب همبستگی و خط رگرسیون را کاملاً تغییر داد.
به عنوان یک راه حل، میتوان برای متغیرها دو به دو نمودار (scatter plot) رسم کرد و همبستگی و وضعیتشان را به صورت جداگانه مورد بررسی قرار داد.
از ابزارهای جالب برای مشاهده دادههای پرت، DropBox است. در دوره آموزشی پایتون به آن به طور مفصل خواهیم پرداخت.
برای شرکت در دورههای دیتا و دریافت مشاوره تخصصی تحصیلی و شغلی میتوانید با به آوران سیستم گیل تماس حاصل فرمائید.
برای آگاهی از تازههای حوزه دیتا و تکنولوژی به کانال اینستاگرام ما به نشانی py.thonia بپیوندید.