داده دور افتاده چیست؟

ش

داده دور افتاده (داده پرت یا داده نویزی هم گفته می شود) داده هایی است که نسبت به سایر داده های در دست بررسی تفاوت قابل ملاحظه ای داشته باشد. برخی از اوقات تحلیل گران قبل از انجام کار آماری و تجزیه و تحلیل داده ها، ابتدا داده های دور افتاده (پرت) را حذف می کنند و سپس نسبت به انجام تجزیه و تحلیل اقدام می نمایند. این کار به دلیل حذف تاثیرات مربوط به وجود داده پرت بر روی نتایج تحلیل ها انجام می شود. در ادامه به بررسی تاثیر وجود داده پرت بر روی معیارهای گرایش به مرکز مانند میانگین، میانه و مد می پردازیم. 

تاثیر داده پرت بر روی میانگین

مثال ۱:

فرض کنید مجموعه داده های زیر در دست می باشند:

۱, ۲۷, ۲۹, ۲۳, ۲۴

میانگین این داده ها برابر با ۲۰.۸ شده است. از روی داده ها مشخص است که عدد ۱ تفاوت زیادی با سایر داده ها داشته و داده دور افتاده (داده پرت) به حساب می آید. اگر این داده را از مجموعه داده ها حذف نماییم، داده ها به صورت زیر درمی آیند:

۲۷, ۲۹, ۲۳, ۲۴

میانگین داده ها در این حالت برابر با ۲۵.۷۵ می شود. مشخص می شود که بین ۲۵.۷۵ تا ۲۰.۸ تفاوت زیادی وجود دارد و این به دلیل وجود داده پرت می باشد. پس وجود داده پرت تاثیر زیادی بر روی میانگین داده ها داشته و ممکن است تحلیل گر یا تصمیم گیر را به اشتباه بیندازد. در واقع یکی از دلایل حذف داده های پرت نیز همین موضوع بوده تا تاثیر زیاد این نوع از داده ها بر روی میانگین حذف شود. 

تاثیر داده پرت بر روی میانه

مثال ۲:

فرض کنید مجموعه داده های زیر در دست می باشند:

۲, ۲, ۳, ۴, ۵, ۱۰۰

میانه این مجموعه داده ها بین ۳ و ۴ و برابر با ۳.۵ می باشد. واضح است که در این مجموعه داده ها عدد ۱۰۰ داده دورافتاده (داده پرت) به حساب می آید. اگر عدد ۱۰۰ حذف شود مجموعه داده به صورت زیر درمی آید:

۲, ۲, ۳, ۴, ۵

در این حالت میانه داده ها (عدد وسطی در حالت داده های مرتب شده) برابر با ۳ می باشد. پس حذف داده پرت منجر به تغییر میانه از ۳.۵ در حالت اول به ۳ در حالت دوم شد ولی این تغییر چشم گیر نیست. پس مشخص می شود که حذف داده پرت ممکن است منجر به تغییر میانه شود ولی اکثر اوقات این میزان تغییر زیاد و چشم گیر نیست.

تاثیر داده پرت بر روی مد (نما)

مثال ۳:

فرض کنید مجموعه داده های زیر در دست می باشند:

۱, ۱, ۲, ۲, ۳, ۳, ۳, ۱۰۰۰

در داده های فوق عدد ۳ بیشتر از همه مشاهده شده است در نتیجه مد یا نمای این داده ها برابر با ۳ است. از روی داده ها مشخص است که عدد ۱۰۰۰ داده دورافتاده (پرت) است. اگر آن را حذف نماییم داده ها به صورت زیر درمی آیند:

۱, ۱, ۲, ۲, ۳, ۳, ۳

در این حالت نیز مجدد عدد ۳ دارای فراوانی ماکزیمم نسبت به سایر اعداد بوده و در نتیجه باز هم مد یا نما همان عدد ۳ می باشد. مشخص می شود که حذف داده پرت تاثیری بر روی مد نداشته و مد بدون تغییر باقی می ماند.

 

رای دادن به این post

3 دیدگاه در “داده دور افتاده چیست؟

    • مدیرسایت میگوید:

      روش های مختلفی برای شناسایی داده دورافتاده است و برای این موضوع تاکنون صدها مقاله علمی منتشر شده است. یکی از ساده ترین روش ها این است که بیایید توزیع متغیر مورد مطالعه را پیدا نمایید، مثلا اگر توزیع نرمال داشت، داده ای که بزرگتر از میانگین به اضافه سه برابر انحراف معیار یا کوچکتر از میانگین منهای سه برابر انحراف معیار باشد می تواند (دقت نمایید می تواند و نه حتما) به عنوان داده پرت بررسی شود که آیا واقعا یک داده دورافتاده است یا خیر؟ در رابطه با چنین داده هایی معمولا تحلیل گران علاقمند به بررسی علت و ریشه رخداد آنها می باشند که چرا چنین داده ای رخ داده است؟

  1. سيدمحسن سيدعلي اکبر میگوید:

    مطالب خوبی بود فقط برای شناسایی داده های دور افتاده روش آماری زیر هم می توان استفاده نمود:
    آماره کیو تست(ًQ-test)تحت عنوان Dixon’s Q test که با محاسبه “کیو مورد انتظار” یا Q_exp و مقایسه با جدول توزیع آن آماره است یا “مقدار بحرانی کیو” یا Q_crit که در زیر آورده شده است:

    Dixon Q Test for Outliers

    Q_exp=0.857

    Q_crit=0.97
    Q_exp=0.857<Q_crit=0.97

    پس داده پرت نیست و حفظ می شود.

    Data number n = 10

    پس داده پرت نیست و حفظ می شود.
    و فرض صفر رد نمی شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.