رگرسیون (Regression)

1 EGGSComC0XLWPGq oSHV g

لینک ویدیوی آموزشی

https://aparat.com/v/InWgG

آموزش استفاده از ماشین حساب

https://www.aparat.com/v/MLocJ

بسیاری از مسائل در مهندسی و علوم شامل مطالعه، تجزیه و تحلیل رابطه میان دو یا چند متغیر است. رابطه فشار گاز و دما، رابطه نیرو و شتاب و.. از جمله این روابط هستند که قطعی می‌باشند. اما بسیاری از روابط قطعی نیستند.

1 16

مصرف برق یک کشور (y) با جمعیت آن کشور (x) مرتبط است، اما بعید است که یک رابطه قطعی باشد. برای مثال جمعیت دو کشور ایران و آلمان تقریبا برابر است، اما مصرف برق این دو کشور با هم تفاوت دارد. در این مثال، مقدار پاسخ مورد نظر یا همان  را نمی‌توان بطور کامل از دانش مربوط به x پیش بینی کرد و این یک رابطه غیرقطعی خواهد بود.

مجموعه‌ای از ابزارهای آماری که برای مدل سازی و کشف روابط بین متغیرهای دارای ارتباط غیرقطعی استفاده می‌شوند، تحلیل رگرسیون نامیده می‌شود. در این قسمت، تنها حالت ساده‌ای ارائه می‌شود که در آن فقط یک متغیر مستقل x وجود دارد و رابطه آن با متغیر پاسخ y ، خطی فرض می‌شود.

تاثیر تعداد محدودی متغیر مستقل بر روی متغیر هدف            تعداد محدود: یک                                                                  حالت: خطی

نمودار زیر را در نظر بگیرید. در این نمودار هر زوج (xi,yi) به عنوان یک نقطه در یک دستگاه مختصات دو بعدی ترسیم شده است. هرچند نقاط در این نمودار پراکنده اند که در روابط غیرقطعی متغیرها طبیعی است، اما نشانه‌های خوبی از اینکه نقاط به طور تصادفی در اطراف یک خط مستقیم پراکنده شده‌اند وجود دارد.

2 15

بنابراین، فرض می‌کنیم که میانگین متغیر تصادفی Y با رابطه خط مستقیم زیر به متغیر x وابسته است:

3 19

که در آن شیب و عرض از مبدا را ضرایب رگرسیون می‌نامند. این رابطه یعنی مقدار واقعی مشاهده شده از Y دقیقا روی خط مستقیم فرض شده قرار نمی‌گیرد اما میانگین مقادیر واقعی مشاهده شده به ازای آن  بر روی خط مستقیم قرار  خواهند گرفت. در این صورت می‌توان برای هر Y واقعی نیز یک رابطه بدست آورد که شامل یک خطای تصادفی خواهد بود. این خطا نشانگر تفاوت خط و مقدار واقعی است.

4 9

با توجه به نتیجه تجربی از اینکه مشاهدات بصورت یک خط هستند، انتظار می‌رود که میانگین خطا‌ها صفر باشد:

5 8

در این صورت خواهیم داشت:

6 7

 

روش حداقل مربعات خطا (Least Squares Error)

این روش برای تخمین مقادیر شیب و عرض از مبدا خط رگرسیون استفاده می‌شود.

7 7

8 3

که در نتیجه برآوردگرهای حداقل مربعات بصورت زیر خواهند بود:

9 3

مثال، می‌خواهیم خلوص اکسیژن را بر حسب سطح هیدروکربنی بدست آوریم. داده‌ها بصورت زیر است:

10 2

برآوردگرهای حداقل مربعات را بدست آورید.

پاسخ:

11 1

برآورد واریانس خطا:

12 1

مجموع مربعات خطا یا SSE برآوردگری اریب برای واریانس خطا خواهد بود.

در این صورت برآوردگر نااریب واریانس خطا:

13 1

بدست آوردن SSE با استفاده از رابطه اول خسته کننده خواهد بود. بنابراین از رابطه زیر استفاده می‌کنیم:14 1

که SST مجموع مربعات کل می‌باشد:

15 1

خواص برآوردگرهای حداقل مربعات:

در این مرحله نیاز داریم تا خواص برآوردگرهای حداقل مربعات که شامل میانگین و واریانس آنها است را بدست آوریم. این ویژگی‌ها در آزمون فرض کاربرد خواهند داشت. در این مرحله نیاز به یک سری محاسبات داریم:

16 1

17

18

 

19

حالا میانگین و واریانس برآوردگرهای حداقل مربعات را بدست می‌آوریم:

20

 

۱ˆβ و ۰ˆβ برآوردگرهایی نااریب برای β۱ و β۰ هستند.

21

 

از روابط قبلی بدست آوردیم که:

22

برآورد فاصله‌ای و آزمون فرض برای شیب β۱ :

23

متداول ترین حالت برگزاری این آزمون، برابری شیب با ۱=β۱ است.

 

برآورد فاصله‌ای و آزمون فرض برای عرض از مبدا β۰ :

24

متداول ترین حالت برگزاری این آزمون، برابری عرض از مبدا با ۰=β۰ است.

25

 

مثال: با توجه به مثال قبلی (خلوص اکسیژن و سطح هیدروکربنی)، برابری شیب با مقدار صفر را به آزمون بگذارید.

پاسخ:

26

 

برآورد فاصله‌ای برای میانگین مقدار متغیر پاسخ به ازای مقدار مشخصی از متغیر مستقل:

27

تخمین میانگین مقدار y به ازای مقدار مشخص x۰:

28

 

بدست آوردن میانگین و واریانس برآوردگر برای محاسبه آماره آزمون فرض:

 

29

طول بازه برآورد در    x۰=xbar کمینه خواهد بود و با افزایش  |x۰-xbar|  افزایش می‌یابد.

 

مثال، در ادامه مثال قبلی، یک برآورد فاصله‌ای با ضریب اطمینان ۹۵ درصد برای میانگین متغیر پاسخ (خلوص اکسیژن) به ازای مقدار مشخص ۱% از متغیر مستقل (سطح هیدروکربنی) بدست آورید.

پاسخ:

30

 

 

برآورد فاصله‌ای برای پیش بینی مقدار متغیر پاسخ به ازای مقدار مشخصی از متغیر مستقل:

یکی از کاربردهای مهم مدل رگرسیون، پیش بینی مشاهدات آینده Y به ازای مقدار مشخصی از متغیر x است. اگر x۰ مقدار متغیر مستقل مورد نظر باشد، برآوردگر نقطه‌ای مقدار پاسخ جدید  Y۰:

31

اکنون برآوردی فاصله‌ای را برای مقدار پاسخ جدید یا آینده‌ی Y۰ در نظر بگیرید. این مشاهدات جدید جدای از مشاهدات استفاده شده برای توسعه مدل رگرسیون است. بنابراین، فاصله اطمینان μy|x0 در اینجا نامناسب است زیرا فقط بر اساس داده‌های مورد استفاده برای برازش مدل رگرسیون بنا شده است.

32

طول بازه‌ی پیش بینی همیشه گسترده تر از بازه‌ی میانگین است زیرا بازه‌ی پیش‌بینی هم به خطای مدل برازش شده و هم به خطای مرتبط با مشاهدات آینده بستگی دارد.

 

مثال: در ادامه مثال قبلی، برآوردهایی فاصله‌ای برای پیش بینی خلوص اکسیژن در سطح هیدروکربنی ۱% و ۱/۵% تشکیل دهید. ضریب اطمینان را ۹۵ درصد در نظر بگیرید.

پاسخ:

33

34

 

 

 

۵/۵ - (۲ امتیاز)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دو × سه =