از رگرسیون چند جملهای زمانی استفاده میشود که هیچ همبستگیای میان متغیرها وجود نداشته باشد؛ بنابراین به جای اینکه شبیه یک خط باشد، مانند یک تابع غیر خطی به نظر میرسد. در ادامه عمیقتر به این نوع رگرسیون میپردازیم.
مقایسه رگرسیون خطی و الگوریتمهای رگرسیون انقباضی (ستیغی، لسو و الستیک شبکهای) با استفاده از دادههای بیماران استرسپسازسانحه
هدف از ابن پژوهش، معرفی الگورینم های رگرسیونی جایگزین، برای رگرسیون خطی بود. به این منظور ازالگوریتم های رگرسیونی نوین چونان ستیغی ،لسو والستیک استفاده شد که درآنان دقت پبش بینی از رهگذر میزان سازی نابع هرینه بیشینه می شود.دراین پژوهش نخست به توضیح مبانی نظری این الگوریتمهای نوین پرداخته شد و سپس در قالب یک مثال عددی با استفاده از دادههای بیماران استرس پس از سانحه به تفسیر خروجی نرمافزار و مقایسه آنها مبادرت شد.جامعه پژوهش افراد مبتلا استرس پس از سانحه شهر تهران در سال 1399 بود که دادههای 97 بیمار (73 زن و 24 مرد) که در آنها هشت متغیر مرتبط با شدت بازتجربه ترما اندازهگیری شده بود به عنوان نمونه پژوهش بررسی شدند. داده هابا رگرسیون چندگانه خطی کلاسیک ،رگرسیون ستیغی (RR) ، لسو (Lasso) و رگرسیون رگرسیون خطی چیست؟ الستیک شبکه ای (Elastic) با استفاده از نرمافزار R تحلیل شدند. یافتهها نشان داد که رگرسیون الستیک، لسو و ستیغی، بهترتیب بیشترین درصد واریانس تببینی و کمترین میانگین خطا را در مقایسه با رگرسیون خطی نشان دادند. در شرایطی که مفروضه های نبود، همخطی و ثبات واریانس باقیماندهها احراز نشود، کاربست رگرسیون خطی مشکلساز و کاربرد این روشهای جایگزین پیشنهاد می شود.
کلیدواژهها
- عدم و ثبات واریانس
- همخطی چندگانه
- رگرسیون ستیغی
- رگرسیون لسو
- رگرسیون شبکهای الستیک
عنوان مقاله [English]
Comparing Linear Regression to Shrinkage Regression Algorithms (RR, Lasso, El Net) Using PTSD Patients’ Data
نویسنده [English]
- Hojjatollah Farahani
The purpose of this research was to introduce the alternative model of regression algorithms and having it compared to linear regression. To do this, we need to use modern algorithms such as Ridge, Lasso, and Elastic net regression in which precision is maximized by regularizing the cost function. In this paper theoretical basis and practical implications have been explained.. The target population was patients diagnosed with Post Traumatic Stress Disorder (PTSD) in 2020 for the comparison. 97 PTSD patients (73 females and 24 males) in Tehran were measured in 8 variables related with the intensity of the trauma re-experience. The linear regression, Ridge, Lasso, and Elastic Regressions were used with R software. The results indicated that compared to linear regression, Elastic. LASSO and Ridge explained more variances and had more R square and less MSE respectively. When the main assumptions of Linear regression are not met, using shrinkage regressions seems to be reasonable and accurate.
کلیدواژهها [English]
- Penalized Algorithms
- Ridge Regression
- Lasso Regression
- Elastic Net Regression
- Multi-Collinearity
- Heteroscedasticity
مراجع
Cohen, J., Cohen, P., West, S., G., Aiken, L., S. (2003). Applied multiple regression and correlation analysis for the behavioral sciences. Third Edition. New York: Routledge.
Ernst, A. F., & Albers, C. J. (2017). Regression assumptions in clinical psychology research practice—a systematic review of common misconceptions. PeerJ. 16(5), e3323.
Fox, J. (2016). Applied regression analysis and generalized linear models (3rd Ed.). Thousand Oaks, CA: Sage publications.
Hair, J. F., Babin, B. J., Anderson, R. E., & Black, W. C. (2018). Multivariate Data Analysis. 8th edition: USA.
Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical learning with sparsity: The Lasso and generalizations. Chapman Hall, London.
Liu, H., & Zhang, J. (2009). Estimation consistency of the group Lasso and its applications. J Mach Learn Res Workshop Conf Proc. 5, 376–83.
Maronna, R. A. (2011). Robust ridge regression for high-dimensional data. Technometrics. 53(1), 44-53.
Montgomery, D. C., Peck, E. A., &Vining, G. G. (2012). Introduction to linear regression analysis. USA: Wiley & Sons.
Park, H., & Konishi, S. (2015). Robust logistic regression modelling via the elastic net-type regularization and tuning parameter selection. Journal of Statistical Computation and Simulation. 86(7), 1-12.
Saleh, A. K. M. E., Arashi, M., & Kibria, B. M. G. (2019). Theory of Ridge Regression Estimation with Applications. Wiley, Hoboken, NJ, USA.
Samkar, H., & Alpu, O. (2010). Ridge regression based on some robust estimators. Journal of Modern Applied Statistical Methods. 9(2). 495-501.
Stein, C. M. (1981). Estimation of the mean of a multivariate normal distribution. Annals of Statistics.9(6), 1135-1151.
Wilcox, R. R. (2019). Multicolinearity and ridge regression: results on type I errors, power and heteroscedasticity. Journal of Applied Statistics. 46(5), 946-957.
Williams, M. N., Grajales, C., & Kurkiewicz, D. (2013). Assumptions of multiple regression: correcting two misconceptions. Practical Assessment. Research & Evaluation. 18(11), 1–14.
Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society (B). 67(2), 301-320.
پیش بینی امید به زندگی با رگرسیون
رگرسیون خطی یکی از پرکاربردترین روش های مورد استفاده برای مدل سازی رابطه بین دو یا چند متغیر است. این روش می تواند در هر جایی اعمال شود، از پیش بینی فروش برای برنامه ریزی موجودی انبار گرفته تا مشخص کردن تاثیر گاز های گلخانه ای بر دمای جهانی زمین و پیش بینی کردن بازده محصول بر اساس بارش باران.رگرسیون خطی چیست؟
در این مقاله ما خواهیم گفت که رگرسیون خطی چیست و چگونه کار می کند، و یک مدل یادگیری ماشین برای پیش بینی میانگین امید به زندگی افراد بر اساس تعدادی از عوامل خواهیم ساخت.
رگرسیون خطی چیست؟
طبق سایت ویکی پدیا، رگرسیون خطی رویکردی خطی برای مدل سازی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. به عبارت ساده تر، رگرسیون خطی «خط بهترین برازش» است که نمایانگر یک مجموعه داده است.
پایین مثالی از یک خط است که بهترین تناسب را با نقاط داده شده دارد. با ایجاد خطی که بهترین تناسب را دارد، می توان نقاط آینده و جای آن ها و نقاط پرت را نیز پیش بینی کرد. برای مثال، فرض کنید این نمودار نمایانگر قیمت الماس بر اساس وزن آن است. اگر نقطه قرمز را نگاه کنیم، میبینیم که این الماس دارای ارزش بیش رگرسیون خطی چیست؟ از حد است زیرا اگر وزن این الماس را با توجه به وزن الماس های دیگر درنظر بگیریم هزینه بسیار بیشتری دارد. به طور مشابه، نقطه سبز ارزشی کمتر از حد معمول را دارد زیرا با توجه به وزن بقیه الماس ها هزینه کمتری دارد.
پس چطور باید به خط بهترین برازش دست یافت؟ بیایید راهش را بیابیم.
رگرسیون خطی ساده چگونه عمل می کند
می خواهیم روی رگرسیون خطی ساده تمرکز کنیم. خط بهترین برازش یا معادله ای که داده ها را نشان می دهد، با به حداقل رساندن مجذور فاصله بین نقاط و خط بهترین برازش که همچنین مربع خطا نامیده می شود به دست می آید.
برای مثال، دو خط بهترین برازش در بالا وجود دارد، خط قرمز و خط سبز. توجه کنید که چقدر خطا (خط های سبز بین خط بهترین برازش و نمودارها) به اندازه قابل توجهی بزرگ تر از خط قرمز است. هدف رگرسیون پیدا کردن معادله ای است که در آن مجموع خطاها به حداقل رسیده باشد.
اگر مایل به پی بردن به ریاضی قضیه هستید، می توانید ویدیوهای آکادمی خان را از اینجا تماشا کنید.
اگر می خواهید از رگرسیون خطی ساده استفاده کنید می توانید از کلاس LinearRegression از کتابخانه scikit-learn استفاده کنید.
رگرسیون خطی چندگانه
رگرسیون خطی ساده زمانی مفید است که شما می خواهید معادله ای را بیابید که نمایانگر دو متغیر است، متغیر مستقل (x) و متغیر وابسته (y). اما وقتی متغیر های فراوانی را دارید تکلیف چیست؟ برای مثال، قیمت یک خودرو وابسته به عوامل زیادی از قبیل قدرت اسب بخار، سایز ماشین، و ارزش خود برند خودرو است.
اینجا جایی است که رگرسیون چندگانه پا به میدان می گذارد. رگرسیون چندگانه برای توضیح رابطه بین یک متغیر وابسته و بیش از یک متغیر مستقل استفاده می شود.
عکس زیر نموداری را بین درآمد (y) و سابقه و سال های تحصیل (x) نشان می دهد. زمانی که دو متغیر مستقل وجود دارد، به جای خط بهترین برازش یک صفحه بهترین برازش به دست می آید.
رگرسیون چند جمله ای
اگر شما مجموعه ای از داده ها که خط بهترین برازش آن ها خطی نباشد، داشته باشید چه (مانند عکس زیر). اینجا زمانی ست که شما از رگرسیون چند جمله ای استفاده خواهید کرد. باز هم طبق ویکی پدیا، این نوع رگرسیون به عنوان نوعی از آنالیز رگرسیون تعریف شده است که در آن رابطه بین متغیر مستقل x و متقیر وابسته y به عنوان یک چندجمله ای n امین درجه ای در x مدل سازی شده اند. به عبارتی ساده تر، این رگرسیون در یک رابطه غیرخطی بین x و y صدق می کند.
زمانی که می خواهید از رگرسیون چندجمله ای استفاده کنید، چند خط کد بیشتر مورد نیاز است.
کاربرد: پیش بینی میانگین امید به زندگی
برای نشان دادن چگونگی ساخت یک مدل رگرسیون در پایتون، من از «مجموعه داده های امید به زندگی (از سازمان بهداشت جهانی) موجود در Kaggle استفاده کردم. هدفم ساختن مدلی بود که بتواند میانگین امید به زندگی یک شخص در کشوری مشخص و در سالی مشخص را با توجه به تعدادی از متغیرها پیش بینی کند. به خاطر داشته باشید که این مدلی بسیار پایه ای است.
در مورد آماده سازی داده ها، کم و بیش از مراحلی که در این پست گفته شده، استفاده شده است.
چند موضوع جدید وجود را من در این مدل معرفی کردم، مانند تبدیل داده های مطلق (کشور ها) به متغیرهای ساختگی و ارزیابی عامل تورم واریانس (VIF) همه متغیرها.
چیزی که خواستم به اشتراک بگذارم این رگرسیون خطی چیست؟ نمایه از همبستگی ها بود چون در اینجا چند همبستگی بسیار جالب وجود دارد:
- یک همبستگی مثبت قوی ۰٫۷۳ بین «تحصیل» و «امید به زندگی» وجود دارد. این ممکن است به این دلیل باشد که آموزش بیشتر در کشورهای ثروتمند شایع است. یعنی در کشورهایی با زیرساخت، مراقبت های بهداشتی، رفاه، فساد کمتر و غیره.
- به صورت مشابه با نکته بالا، همبستگی مثبت متوسط ۰٫۴۴ بین «GPD» (تولید ناخالص داخلی) و «امید به زندگی» وجود دارد، تقریبا به همان دلیلی که گفته شد.
- در کمال تعجب، یک همبستگی مثبت متوسط ۰٫۴۰ بین «الکل» و «امید به زندگی» وجود دارد. حدس من این است که این به این دلیل است که فقط در کشورهای ثروتمند توانایی خرید و مصرف الکل وجود دارد. یا به این دلیل است که مصرف الکل در جمعیت ثروتمند متداول تر است.
بعد از پالایش داده ها، من کد بالا را اجرا کردم تا مدل رگرسیون چندگانه چند جمله ای خودم را با میانگین مطلق خطا ۸٫۲۲ و محدوده ۴۴٫۴ ایجاد کنم. امیدواریم این مطلب برای شما مفید بوده باشد.
رگرسیون خطی چیست؟
رگرسیون چیست: رگرسیون یک روش آماری بوده و در اقتصاد، برنامه نویسی و فعالیت های دیگر استفاده می شود. هدف رگرسیون شناسایی قدرت و خواص یک متغیر وابسته نسبت به متغیرهای دیگر (که به متغیر های مستقل معروفند) میباشد.
رگرسیون به سرمایهگذاران و مدیران مالی شرکتها کمک میکند تا ارزش داراییهای خود را ارزیابی کرده و رابطه بین متغیرهایی مثل قیمت رگرسیون خطی چیست؟ اجناس و سهام شرکتهای فعال در زمینه مرتبط با آن را، بهتر درک کنند.
انواع رگرسیون چیست
رگرسیون را میتوان در سه دسته تقسیمبندی کرد که عبارتند از رگرسیون خطی، غیرخطی و رگرسیون خطی چندگانه (چند متغیره). در روش خطی برای توصیف یا پیشبینی خروجی ناشی از چند متغیر مستقل، تنها بر اساس یک متغیر وابسته انجام میگیرد. در رگرسیون چند متغیره برای همین منظور از دو یا چند متغیر وابسته استفاده میشود.
رگرسیون غیر خطی برای مواردی استفاده می شود که به دنبال یافتن رابطهای غیر خطی بین متغیرها هستیم. از این روش در محاسبات بسیار پیچیده استفاده میشود.
این روش آماری کمک زیادی به سرمایهگذاران و اقتصاد دانان حرفه ای کرده و حتی میتواند برای متخصصان شغل های دیگر نیز مفید باشد. با استفاده از رگرسیون می توان بر اساس قیمتهای قبلی، وضعیت آب و هوا، افزایش تولید ناخالص و عوامل دیگر، قیمت جدیدی برای محصولات تعیین کرد.
مدل CAPM
مدل CAPM (قیمت گذاری دارایی های سرمایه ای) یک مدل پرکاربرد در رگرسیون بوده که ارتباط بین ریسک و نرخ بازده مورد انتظار بر اساس داراییها را نشان میدهد.
فرمول کلی رگرسیونهای خطی به صورت زیر است:
شرح فرمول های فوق به شکل زیر است:
- Y= متغیری که می خواهید آن را پیش بینی کنید.
- X= متغیری که از آن برای پیش بینی Y استفاده کرده ایم.
- A=نقطه دلخواه
- B= شیب
- U=باقیمانده رگرسیون
رگرسیون گروهی از متغیرهای تصادفی (که امکان پیش بینی Y با کمک آنها وجود دارد) را انتخاب کرده و سعی میکند رابطه ریاضی بین آنها را پیدا کند. معمولا این رابطه به شکل یک خط راست بوده (به همین دلیل این روش را خطی می نامند) که به بهترین نحو ممکن به تمامی نقاط نزدیک است.
رگرسیون غیر خطی
در روش غیرخطی یک مدل از دادهها ایجاد میشود و سپس به صورت یک تابع ریاضی مطرح میگردد. همانطور که اشاره شد، در روش خطی با استفاده از یک متغیر سعی میکنیم مقدار متغیر دیگر را پیشبینی کنیم که در نهایت به یک خط راست دست پیدا خواهیم کرد. اما در رگرسیون غیرخطی، خروجی به شکل منحنی است، گویی هر مقداری که برای Y به دست آمده کاملا تصادفی بوده است.
هدف رگرسیون غیر خطی این است که تا جای ممکن مجموع مربعات را کاهش دهد. مجموع مربعات معیاری است که نشان میدهد مشاهدات با میانگین مجموع دادهها رگرسیون خطی چیست؟ تا چه حد تفاوت دارد. محاسبات با یافتن تفاضل بین میانگین کل داده ها با هر نقطه آغاز میشود.
سپس مربع هر کدام از این تفاضلها محاسبه میشود. در نهایت تمامی این مربعات با هم جمع میشوند. هرچه مقدار مجموع مربعات کمتر باشد، تابع به نقاط داده نزدیکتر خواهد بود. در روش غیر خطی از توابع لگاریتمی، مثلثاتی، نمایی، توان، منحنی لورنز، توابع گاوسی و روشهای مناسب دیگر استفاده میشود.
رگرسیون خطی و غیر خطی از این منظر مشترکند که هر دو سعی دارند بر اساس یک سری متغیر، رابطه ای گراف مانند ایجاد کنند. از آنجایی که در روش غیر خطی توابع از طریق نمونه سازی و آزمون و خطا بدست میآید، بسیار پیچیده تر است. به همین علت، ریاضیدانان از روشهای تست شدهای مثل، روش گاوس نیوتن و الگوریتم لونبرگ مارکوارت، استفاده میکنند.
مدل های رگرسیون چیست
اغلب مدل های رگرسیون در نگاه اول به نظر غیرخطی میآیند، اما در واقع خطی هستند. میتوان برای تشخیص ماهیت رابطه بین دادههای موجود از روش تخمین منحنی استفاده کرد.
با توجه به الگوریتمی که در رگرسیون مورد استفاده قرار گرفته، ممکن است خط ایجاد شده در روش خطی، حالتی منحنی شکل داشته و در روش غیر خطی، یک خط تقریبا مستقیم ایجاد شود. این قبیل معادلات غیر خطی را ذاتا خطی مینامند.
رگرسیون لجستیک
رگرسیون لجستیک برای اولین بار در اوایل قرن بیستم و در علم زیست شناسی مورد استفاده قرار گرفت. از این روش زمانی استفاده می شود که متغیر وابسته تنها دو حالت می تواند داشته باشد، مثبت یا منفی. برای مثال در پزشکی بیمار می تواند دو حالت داشته باشد یا می میرد یا شفا پیدا می کند.
حالتی را در نظر بگیرید که در آن بیماری دچار سرطان است. اگر بخواهیم برای تشخیص وخامت و بدخیم بودن بیماری او، از روش خطی استفاده کنیم، باید برای بیماری حد وخامت تعیین کنیم.
حال فرض کنید حد وخامت را 0.5 در نظر گرفته باشیم و پاسخ به دست آمده در مدل 0.4 باشد. در این صورت سرطان بیمار فوق وخیم تشخیص داده نخواهد شد، در حالی که وضعیت او بسیار نامناسب است. این حالت در شرایط واقعی، میتواند عواقب جبرانناپذیری به همراه داشته باشد. از این رو روش خطی برای حالاتی که فقط دارای دو موقعیت هستند و حد وسط ندارند، کارایی ندارد.
رگرسیون غیر خطی در زبان برنامه نویسی R
رگرسیون در زبان برنامه نویسی R هم قابل اجرا است اما در برخی موارد رابطه بین خروجی و تخمین زن، خطی نیست. برای حل این مشکل و توسعه مدل خطی روشهای مختلفی وجود دارد. این روشها عبارتند از:
رگرسیون چند جمله ای
این روش، رویکردی ساده در مدل غیرخطی است. در این روش به جای استفاده از مربع یا مکعب (Square یا Cubes و …) از کلمه کلیدی Polynominal استفاده می کنیم.
رگرسیون اسپلین
در این روش یک منحنی ملایم با استفاده از چند جملهایها ایجاد می شود. مقادیری که قسمتهای مختلف اسپلین را محدود میکنند به گره یا knots معروفند.
مدل عمومی افزایشی
مدل اسپلین را با تعیین گرههای خودکار قابل قبولتر می کند.
بسته های لازم برای یادگیری مثال:
Tidyverse برای دستکاری و قابل مشاهده کردن ساده تر داده ها.
Caret برای استفاده در یادگیری ماشین.
آماده سازی داده ها
در این مثال از دیتا ست Boston، برای محاسبه متوسط قیمت خانهها (mdev) بر اساس متغیر تخمینزن 1stat، استفاده خواهیم کرد. دیتا ست به صورت تصادفی به دو بخش تقسیم خواهد شد که 80% آن برای ایجاد مدل تخمینزن و 20% آن برای اعتبار سنجی مدل ایجاد شده مورد استفاده قرار خواهد گرفت.
ابتدا نقشه پراکندگی mdev بر اساس 1stat را با استفاده از کدهای زیر مشاهده کنید:
تراکم نقاط نمایش داده شده در تصاویر بالا نشان می دهد که رابطه بین تخمین زن و متغیر کاملا غیر خطی است
پیاده سازی رگرسیون خطی در زبان برنامه نویسی R
برای پیادهسازی یک مدل رگرسیون استاندارد میتوان از کدهای زیر استفاده کرد:
برای مشاهده نتیجه حاصل از کدهای زیر استفاده کنید:
نتیجه رگرسیون خطی در محیط R
رگرسیون غیر خطی چند جمله ای
همانطور که قبلا نیز اشاره شد، در این روش به جای استفاده از Cubes، Square و … از کلمه کلیدی polynominal استفاده میکنیم.
در محیط R برای اینکه بتوانید عددی را به توان برسانید باید از دستور I() استفاده کنید. برای مثال I(X^2). با این کار X را به توان دو میرسانیم. برای محاسبه این مدل در R از کد های زیر استفاده میکنیم:
روش دیگری که برای اجرای این مدل وجود دارد عبارت است از:
برنامه اصلی به این صورت خواهد بود:
همانطور که مشاهده میکنید در برنامه بالا دو ضریب وجود دارد. یک ضریب برای حالت خطی(lstat^1) و دیگری برای حالت درجه دوم (lstat^2).
نتیحه حاصل از رگرسیون چند جمله ای رگرسیون خطی چیست؟ غیر خطی
تجزیه و تحلیل رگرسیون خطی
رگرسیون خطی یک روش آماری است که برای یادگیری بیشتر در مورد رابطه بین متغیر مستقل (پیش بینی کننده) و متغیر مستقل (معیار) استفاده می شود. هنگامی که بیش از یک متغیر مستقل در تجزیه و تحلیل خود دارید، این به عنوان رگرسیون رگرسیون خطی چیست؟ خطی چندگانه نامیده می شود. به طور کلی، رگرسیون اجازه می دهد تا محقق از سوال عمومی "بهترین پیش بینی کننده . چیست؟"
به عنوان مثال، بگذارید بگوییم ما علل چاقی را با شاخص توده بدنی (BMI) بررسی کردیم. به طور خاص، ما می خواستیم ببینیم که آیا متغیرهای زیر شاخص پیش بینی کننده BMI فردی هستند: تعداد خوراک های فست فود در هر هفته، تعداد ساعت ها در تلویزیون در هفته، تعداد دفعات مصرف تمرین در هفته و BMI والدین . رگرسیون خطی یک روش خوب برای این تحلیل است.
معادله رگرسيون
هنگامی که شما یک تحلیل رگرسیون را با یک متغیر مستقل انجام می دهید، معادله رگرسیون Y = a + b * X است که Y متغیر وابسته است، X متغیر مستقل است، a ثابت (یا intercept) است و b شیب است از خط رگرسیون . به عنوان مثال، فرض کنید که GPA بهترین معادله رگرسیون 1 + 0.02 * IQ را پیش بینی می کند. اگر دانش آموز یک IQ برابر با 130 داشته باشد، GPA آن 3.6 خواهد بود (1 + 0.02 * 130 = 3.6).
هنگامی که شما یک تحلیل رگرسیون انجام می دهید که در آن شما بیش از یک متغیر مستقل دارید، معادله رگرسیون Y = a + b1 * x1 + b2 * x2 + . + bp * xp است.
به عنوان مثال، اگر ما می خواستیم متغیرهای بیشتری را برای تجزیه و تحلیل GPA ما، از قبیل اقدامات انگیزشی و خود رشته ای، از این معادله استفاده کنیم.
R-Square
R-square، همچنین به عنوان ضریب تعیین شناخته می شود ، یک آمار معمول برای سنجش تناسب مدل معادله رگرسیون است. به عبارت دیگر، همه متغیرهای مستقل شما در پیش بینی متغیر وابسته شما چقدر خوب هستند؟
مقدار R-square بین 0.0 تا 1.0 می باشد و می توان آنرا با 100 افزایش داد تا درصد واریانس توضیح داده شود. به عنوان مثال، بازگشت به معادله رگرسیون ما GPA با تنها یک متغیر مستقل (IQ) . بیایید بگوییم که R-square ما برای معادله 0.4 بود. ما می توانیم این را تفسیر کنیم به این معنی که 40٪ از واریانس GPA با IQ توضیح داده شده است. اگر بعدا دو متغیر دیگر (انگیزه و خود رشته ای) اضافه کنیم و R-square به 0.6 افزایش یابد، این به این معنی است که IQ، انگیزه و خود رشته با هم 60٪ از واریانس نمرات GPA را توضیح می دهند.
تجزیه و تحلیل رگرسیون معمولا با استفاده از نرم افزار آماری مانند SPSS یا SAS انجام می شود و بنابراین R-Square برای شما محاسبه می شود.
تعبیر کردن ضرایب رگرسیون (ب)
ضرایب b از معادلات بالا نشان دهنده قدرت و جهت ارتباط بین متغیر مستقل و وابسته است. اگر ما به معادله GPA و IQ نگاه کنیم، 1 + 0.02 * 130 = 3.6، 02.02 ضریب رگرسیون برای متغیر IQ است. این به ما می گوید که جهت روابط مثبت است به طوری که با افزایش IQ، GPA نیز افزایش می یابد. اگر معادله 1 - 0.02 * 130 = Y باشد، این به این معنی است که رابطه بین IQ و GPA منفی است.
پیش فرض ها
چندین فرضیه در مورد داده هایی وجود دارد که باید برای انجام یک تحلیل رگرسیون خطی مورد نیاز باشد:
مقدمهای بر تحلیل رگرسیون چندجملهای (Polynomial Regression)
رگرسیون چند جملهای یا Polynomial regression یکی از الگوریتمهای یادگیری ماشین است که برای پیشبینی استفاده میشود. به طور مثال از این رگرسیون به شکلی گسترده برای پیشبینی بیماری کووید ۱۹یا دیگر بیماریهای واگیردار استفاده میشود .
اگر میخواهید با این موضوع بیشتر آشنا شوید با ما همراه باشید
تجزیه و تحلیل رگرسیون یا regression analysis چیست؟
تجزیه و تحلیل رگرسیون یک ابزار آماری برای مطالعه همبستگی بین دو مجموعه رویداد یا بررسی آماری بین متغیر وابسته (dependent variable) و یک یا چند متغیر مستقل (independent variables) است.
به طور مثال کاهش وزن شما (متغیر وابسته) به این بستگی دارد که چند ساعت در باشگاه ورزش کرده باشید (متغیر مستقل).
انواع مختلفی از مدلهای رگرسیون آماری وجود دارد
رگرسیون خطی ساده (simple linear regression)
این مدل از رگرسیون مشابه مثال بالا، به شما امکان تخمین همبستگی خطی بین دو متغیر را میدهد. معمولا وقتی شما زمان بیشتری را برای فعالیتهای فیزیکی میگذارید، به مراتب وزن بیشتری از دست میدهید؛ با توجه به موارد گفته شده در اینجا همبستگی خطی وجود دارد.
رگرسیون خطی چندگانه (Multiple linear regression)
رگرسیون خطی چندگانه به رگرسیون خطی ساده مربوط میشود؛ اما به جای نشان دادن همبستگی بین یک متغیر مستقل و یک متغیر وابسته، شما میتوانید چندین متغیر مستقل را در نظر بگیرید. به طور مثال برای کاهش وزن، علاوه بر ساعتهایی که در باشگاه ورزش میکنید، میتوانید میزان مصرف روزانه شکر و میزان کالری دریافتی را نیز در نظر بگیرید.
رگرسیون چند جملهای (Polynomial regression)
از رگرسیون چند جملهای زمانی استفاده میشود که هیچ همبستگیای میان متغیرها وجود نداشته باشد؛ بنابراین به جای اینکه شبیه یک خط باشد، مانند یک تابع غیر خطی به نظر میرسد. در ادامه عمیقتر به این نوع رگرسیون میپردازیم.
رگرسیون چند جملهای در یادگیری ماشین به چه معنی است؟
مانند بسیاری از موارد دیگر در یادگیری ماشین، مفهوم رگرسیون چند جملهای از علم آمار سرچشمه میگیرد. متخصصهای علم آمار زمانی از رگرسیون چند جملهای برای تجزیه و تحلیل استفاده میکنند که رابطه غیر خطی بین متغیر x و میانگین شرطی متناظر برای میانگین y وجود نداشته باشد .
تصور کنید میخواهید پیشبینی کنید که پست جدید شما در رسانههای اجتماعی در هر شبکه به خصوص چه تعداد لایک پس از انتشار دریافت میکند. در این مورد هیچ همبستگی خطی (linear correlation) بین تعداد لایکها و زمانی که از انتشار پست گذشته وجود ندارد. پست شما ممکن است در 24 ساعت اول لایکهای زیادی دریافت کند اما به تدریج از تعداد لایکها کاسته شود.
ریاضیات پشت رگرسیون چند جملهای
در اینجا معادله کلی رگرسیون چند جملهای را مشاهده میکنید:
y=b0+b1x1+b2x12+b2x13+…bnx1n
در این معادله y متغیر وابسته، x متغیر مستقل و b0-bn پارامترهایی هستند که شما میتوانید بهینه کنید.
از آنجایی که رگرسیون در پارامترها به صورت خطی است، میتوانید نمودار منحنی را با استفاده از همان روشی که برای رگرسیون خطی استفاده کردید با داده های خود مطابقت دهید. در حقیقت به عنوان یک متخصص تیز بین در زمینه ریاضی و آمار احتمالا متوجه شدهاید که این فقط یک مورد به خصوص از رگرسیون خطی چندگانه (multiple linear regression است.
دوباره به مثال کاهش وزن اشاره میکنیم.
در این مورد از رگرسیون خطی چندگانه، شما علاقه مند هستید که بدانید چگونه چندین متغیر مختلف بر کاهش وزن تاثیر می گذارند؛ مثلاساعت های سپری شده در باشگاه، مقدار شکر مصرف شده در روز و . .اما در مدل رگرسیون چند جمله ای، شما میخواهید بدانید چگونه چندین قدرت مختلف یک متغیر تاثیر گذار خواهد بود (x,x2,x3 که x مقدار مقدار شکر مصرف شده در طول روز است).
حتی اگر منحنی در حالت دوم خم شود، مشکل برآورد آماری در هر دو مورد یکسان است.
چرا در یادگیری ماشین به رگرسیون چند جمله ای نیاز داریم؟
رگرسیون چند جمله رگرسیون خطی چیست؟ ای در بسیاری از موارد مفید است. از آنجا که رابطه بین متغیر های وابسته و مستقل نیازی به خطی بودن ندارد، شما آزادی بیشتری برای انتخاب dataset و موقعیت هایی که میتوانید با آنها کار کنید دارید؛ بنابراین زمانی که رگرسیون خطی ساده مناسب داده های شما نباشد، این روش میتواند مورد استفاده قرار گیرد.
مزایای رگرسیون چند جمله ای
در ادامه مزایای رگرسیون چند جمله ای برای مدل بعدی شما در یادگیری ماشین آورده شده است:
● شما میتوانید روابط غیر خطی بین متغیرها را مدل کنید.
● توابع زیادی برای فیلتر کردن داده شما وجود دارد.
● برای اهداف اکتشافی بسیار مناسب است؛ بنابراین میتوانید وجود انحنا و مقدار خمیدگی منحنی را تست کنید.
در مجموع ابزار قابل انعطافی است که میتواند برای مقادیر مختلفی از داده ها مناسب باشد.
معایب رگرسیون چند جمله ای
مانند رگرسیون خطی، رگرسیون چند جمله ای ابزار جهانی و جامعی نیست. از معایب آن میتوان به موارد زیر اشاره کرد:
● حتی یک نقطه پرت یا داده outlier میتواند نتیجه را به به طور جدی خراب کند.
● مدل های PR آماده تناسب بیش از حد هستند. اگر از پارامترها کافی رگرسیون خطی چیست؟ استفاده کنید میتوانید هر چیزی را در آن fit کنید.
● با توجه به موارد گذشته، مدل های PR ممکن است در خارج از دیتا استفاده و بهره وری خوبی نداشته باشند .
رگرسیون چند جمله ای در کدام بخش یادگیری ماشین استفاده میشود؟
در ادامه چند مثال کاربردی از اینکه polynomial regression در کدام حوزه ها مورد استفاده قرار گرفته است میپردازیم.
پیش بینی میزان مرگ و میر
وقتی حادثه هایی مانند: بیماری اپیدمیک، آتش سوزی یا سونامی اتفاق میافتد، برآورد میزان زخمی ها و تعداد فوتی ها برای تیم های مدیریت بحران بسیار مهم و حیاتی است؛ زیرا مدیریت کردن در این شرایط کاری حساس، مهم و حیاتی است. کاهش عواقب این اتفاق ها ممکن است روزها و ماه ها طول بکشد. بنابراین تیم ها باید آمادگی کامل داشته باشند.
رگرسیون چند جمله ای به ما امکان ساخت مدل های انعطاف پذیر یادگیری ماشین را میدهد. این مدل ها با استفاده از آنالیز فاکتور های مختلف ، قابلیت تجزیه و تحلیل و ارائه گزارش از میزان مرگ و میر را را میدهد.
به طور مثال، در بیماری همه گیری کرونا عوامل میتواند این باشد که آیا سابقه بیماری پیش زمینه ای داشته اید یا خیر؟ هر چند وقت یکبار در معرض گروهی از افراد قرار میگیرید؟ آیا به تجهیزات پزشکی دسترسی دارید یا خیر؟
پیشبینی نرخ رشد بافت
پیشبینی نرخ رشد بافت در موارد مختلفی استفاده میشود. رگرسیون چند جمله ای اغلب برای نظارت بر بیماران انکولوژی و تشخیص گسترش تومورهای آنها استفاده می شود. این نوع از رگرسیون به توسعه و ساختن مدلی که بتواند ویژگی غیر خطی را در نظر بگیرد کمک میکند.
همچنین پیشبینی نرخ رشد بافت برای تشخیص و نظارت رشد آنتوژنیک نیز استفاده میشود. به بیان دیگر، به پزشکان این امکان را میدهد که رشد ارگان ها را در رحم از مراحل اولیه بررسی کنند.
نرم افزار تنظیم سرعت
امروزه بسیاری از نرم افزار های تنظیم سرعت با استفاده از یادگیری ماشین و با هدف بهبود رفتار مردم و جلوگیری از رفتار های نادرست در رانندگی طراحی شده است. مدل های پیش بینی با کمک رگرسیون چند جمله ای به شما امکان جستجو برای رفتار های رانندگی را میدهند؛ به علاوه لزوم رعایت قوانین و اعلان آن حتی قبل از سبقت گرفتن از سرعت مجاز را ممکن میسازد.
جمع بندی
رگرسیون چند جمله ای ابزاری ساده و قدرتمندی برای پیش رگرسیون خطی چیست؟ بینی و تحلیل است که به شما امکان در نظر گرفتن روابط غیر خطی بین متغیرها و رسیدن به نتیجه مطلوب را میدهد. این نوع رگرسیون میتواند به شما در پیشبینی میزان شیوع بیماری، محاسبه غرامت یا پیادهسازی یک نرمافزار مقررات پیشگیرانه برای حفظ ایمنی جاده کمک کند.
دیدگاه شما