لینک ویدیوی آموزشی
آموزش استفاده از ماشین حساب
https://www.aparat.com/v/MLocJ
بسیاری از مسائل در مهندسی و علوم شامل مطالعه، تجزیه و تحلیل رابطه میان دو یا چند متغیر است. رابطه فشار گاز و دما، رابطه نیرو و شتاب و.. از جمله این روابط هستند که قطعی میباشند. اما بسیاری از روابط قطعی نیستند.
مصرف برق یک کشور (y) با جمعیت آن کشور (x) مرتبط است، اما بعید است که یک رابطه قطعی باشد. برای مثال جمعیت دو کشور ایران و آلمان تقریبا برابر است، اما مصرف برق این دو کشور با هم تفاوت دارد. در این مثال، مقدار پاسخ مورد نظر یا همان را نمیتوان بطور کامل از دانش مربوط به x پیش بینی کرد و این یک رابطه غیرقطعی خواهد بود.
مجموعهای از ابزارهای آماری که برای مدل سازی و کشف روابط بین متغیرهای دارای ارتباط غیرقطعی استفاده میشوند، تحلیل رگرسیون نامیده میشود. در این قسمت، تنها حالت سادهای ارائه میشود که در آن فقط یک متغیر مستقل x وجود دارد و رابطه آن با متغیر پاسخ y ، خطی فرض میشود.
تاثیر تعداد محدودی متغیر مستقل بر روی متغیر هدف تعداد محدود: یک حالت: خطی
نمودار زیر را در نظر بگیرید. در این نمودار هر زوج (xi,yi) به عنوان یک نقطه در یک دستگاه مختصات دو بعدی ترسیم شده است. هرچند نقاط در این نمودار پراکنده اند که در روابط غیرقطعی متغیرها طبیعی است، اما نشانههای خوبی از اینکه نقاط به طور تصادفی در اطراف یک خط مستقیم پراکنده شدهاند وجود دارد.
بنابراین، فرض میکنیم که میانگین متغیر تصادفی Y با رابطه خط مستقیم زیر به متغیر x وابسته است:
که در آن شیب و عرض از مبدا را ضرایب رگرسیون مینامند. این رابطه یعنی مقدار واقعی مشاهده شده از Y دقیقا روی خط مستقیم فرض شده قرار نمیگیرد اما میانگین مقادیر واقعی مشاهده شده به ازای آن بر روی خط مستقیم قرار خواهند گرفت. در این صورت میتوان برای هر Y واقعی نیز یک رابطه بدست آورد که شامل یک خطای تصادفی خواهد بود. این خطا نشانگر تفاوت خط و مقدار واقعی است.
با توجه به نتیجه تجربی از اینکه مشاهدات بصورت یک خط هستند، انتظار میرود که میانگین خطاها صفر باشد:
در این صورت خواهیم داشت:
روش حداقل مربعات خطا (Least Squares Error)
این روش برای تخمین مقادیر شیب و عرض از مبدا خط رگرسیون استفاده میشود.
که در نتیجه برآوردگرهای حداقل مربعات بصورت زیر خواهند بود:
مثال، میخواهیم خلوص اکسیژن را بر حسب سطح هیدروکربنی بدست آوریم. دادهها بصورت زیر است:
برآوردگرهای حداقل مربعات را بدست آورید.
پاسخ:
برآورد واریانس خطا:
مجموع مربعات خطا یا SSE برآوردگری اریب برای واریانس خطا خواهد بود.
در این صورت برآوردگر نااریب واریانس خطا:
بدست آوردن SSE با استفاده از رابطه اول خسته کننده خواهد بود. بنابراین از رابطه زیر استفاده میکنیم:
که SST مجموع مربعات کل میباشد:
خواص برآوردگرهای حداقل مربعات:
در این مرحله نیاز داریم تا خواص برآوردگرهای حداقل مربعات که شامل میانگین و واریانس آنها است را بدست آوریم. این ویژگیها در آزمون فرض کاربرد خواهند داشت. در این مرحله نیاز به یک سری محاسبات داریم:
حالا میانگین و واریانس برآوردگرهای حداقل مربعات را بدست میآوریم:
۱ˆβ و ۰ˆβ برآوردگرهایی نااریب برای β۱ و β۰ هستند.
از روابط قبلی بدست آوردیم که:
برآورد فاصلهای و آزمون فرض برای شیب β۱ :
متداول ترین حالت برگزاری این آزمون، برابری شیب با ۱=β۱ است.
برآورد فاصلهای و آزمون فرض برای عرض از مبدا β۰ :
متداول ترین حالت برگزاری این آزمون، برابری عرض از مبدا با ۰=β۰ است.
مثال: با توجه به مثال قبلی (خلوص اکسیژن و سطح هیدروکربنی)، برابری شیب با مقدار صفر را به آزمون بگذارید.
پاسخ:
برآورد فاصلهای برای میانگین مقدار متغیر پاسخ به ازای مقدار مشخصی از متغیر مستقل:
تخمین میانگین مقدار y به ازای مقدار مشخص x۰:
بدست آوردن میانگین و واریانس برآوردگر برای محاسبه آماره آزمون فرض:
طول بازه برآورد در x۰=xbar کمینه خواهد بود و با افزایش |x۰-xbar| افزایش مییابد.
مثال، در ادامه مثال قبلی، یک برآورد فاصلهای با ضریب اطمینان ۹۵ درصد برای میانگین متغیر پاسخ (خلوص اکسیژن) به ازای مقدار مشخص ۱% از متغیر مستقل (سطح هیدروکربنی) بدست آورید.
پاسخ:
برآورد فاصلهای برای پیش بینی مقدار متغیر پاسخ به ازای مقدار مشخصی از متغیر مستقل:
یکی از کاربردهای مهم مدل رگرسیون، پیش بینی مشاهدات آینده Y به ازای مقدار مشخصی از متغیر x است. اگر x۰ مقدار متغیر مستقل مورد نظر باشد، برآوردگر نقطهای مقدار پاسخ جدید Y۰:
اکنون برآوردی فاصلهای را برای مقدار پاسخ جدید یا آیندهی Y۰ در نظر بگیرید. این مشاهدات جدید جدای از مشاهدات استفاده شده برای توسعه مدل رگرسیون است. بنابراین، فاصله اطمینان μy|x0 در اینجا نامناسب است زیرا فقط بر اساس دادههای مورد استفاده برای برازش مدل رگرسیون بنا شده است.
طول بازهی پیش بینی همیشه گسترده تر از بازهی میانگین است زیرا بازهی پیشبینی هم به خطای مدل برازش شده و هم به خطای مرتبط با مشاهدات آینده بستگی دارد.
مثال: در ادامه مثال قبلی، برآوردهایی فاصلهای برای پیش بینی خلوص اکسیژن در سطح هیدروکربنی ۱% و ۱/۵% تشکیل دهید. ضریب اطمینان را ۹۵ درصد در نظر بگیرید.
پاسخ: