وبلاگ

Outliers and Data Cleaning

Data cleaning
Rate this post

Outliers and Data Cleaning

در این پست قصد داریم شما را با مفهوم داده‌های پرت (Outliers)، نحوه شناسایی آنها در یک دیتاست و تاثیر مخرب آنها و حل این مشکل آشنا کنیم. چون شناسایی و حل مشکل داده‌های پرت، یکی از مهمترین وظایف در تمیز کردن دیتا (Data Cleaning) ست. از طرفی، تمیز کردن داده‌ها به عنوان اولین قدم در پردازش داده‌ها حائز اهمیت است. چون ما برای بکارگیری مدل‌های یادگیری ماشین برای مثال در پروژه‌های دیتاساینس به داده‌های با کیفیت نیازمندیم.

بطور کلی داده‌های پرت باید در دو شرط کلی زیر صدق کنند:

  • outlier<Q1-1.5(IQR)
  • outlier>Q3+1.5(IQR)

که در آن Q1 نشان دهنده چارک اول، Q3 نشاندهنده چارک سوم و IQR تفاضل چارک اول از چارک سوم می‌باشد.

در دوره آمار برای علم داده در به آوران سیستم گیل، تمام مفاهیم آماری لازم برای پروژه‌های دیتاساینس آموزش داده می‌شود.

اهمیت شناسایی داده‌های پرت:

در شکل زیر به آسانی مشاهده می‌کنیم چطور داده‌های پرت می‌توانند ضریب همبستگی و نتیجه پیش بینی را خراب کنند. حتی اگر تعداد آنها در مقایسه با داده‌های دیگر بسیار کم باشد. شکل زیر این موضوع را آشکار می‌کند.

Outlier's effection

مشاهده می‌کنیم اضافه کردن تنها دو داده پرت نتیجه ضریب همبستگی و خط رگرسیون را کاملاً تغییر داد.

به عنوان یک راه حل، می‌توان برای متغیرها دو به دو نمودار (scatter plot) رسم کرد و همبستگی و وضعیت‌شان را به صورت جداگانه مورد بررسی قرار داد.

از ابزارهای جالب برای مشاهده داده‌های پرت، DropBox است. در دوره آموزشی پایتون به آن به طور مفصل خواهیم پرداخت.

بیشتر بخوانید :   پایتون در حوزه مدلهای زبانی بزرگ

Dropbox

برای شرکت در دوره‌های دیتا و دریافت مشاوره تخصصی تحصیلی و شغلی می‌توانید با به آوران سیستم گیل تماس حاصل فرمائید.

برای آگاهی از تازه‌های حوزه دیتا و تکنولوژی به کانال اینستاگرام ما به نشانی py.thonia بپیوندید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *