Лінійна регресія — Вікіпедія
Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити. (березень 2018) |
Частина з циклу Статистика |
Регресійний аналіз |
---|
Моделі |
Оцінка |
Підґрунтя |
У статистиці лінійна регресія — це метод моделювання залежності між скалярною змінною y та векторною (у загальному випадку) змінною X. У разі, якщо змінна X також є скаляром, регресію називають простою.
При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.
При розрахунках параметрів моделі лінійної регресії зазвичай застосовується метод найменших квадратів (МНК), але також можуть бути використані інші методи. Але метод найменших квадратів може бути використаний і для нелінійних моделей, тому МНК та лінійна регресія, хоч і є тісно пов'язаними, але не є синонімами.
Означення[ред. | ред. код]
Загальна лінійна регресійна модель має вигляд:
- де — залежна пояснювана змінна, — незалежні пояснювальні змінні, — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних, але математичне сподівання якої дорівнює нулеві.
Згідно з цією моделлю, математичне сподівання залежної змінної є лінійною функцією незалежних змінних:
Вектор параметрів є невідомим і задача лінійної регресії полягає у пошуку цих параметрів на основі деяких експериментальних значень і Тобто для деяких n експериментів мають бути відомими значення незалежних змінних і відповідні їм значення залежної змінної.
Згідно з означенням моделі для кожного експериментального випадку залежність між змінними визначається формулою
або, у матричних позначеннях,
- де:
На основі цих даних потрібно оцінити значення параметрів а також розподіл випадкової величини Зважаючи на характеристики досліджуваних змінних, можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.
Класична модель лінійної регресії[ред. | ред. код]
Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:
- (відсутність кореляції залишків)
- (гомоскедастичність)
- попередні дві властивості можна також записати в матричних позначеннях де — одинична матриця розмірності n.
- Ранг матриці X дорівнює K+1.
- Усі елементи матриці X є невипадковими.
Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:
Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до нескінченності:
- де позначає найменше власне значення матриці.
Узагальнена модель лінійної регресії[ред. | ред. код]
Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі не часто виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову де — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.
Оскільки для кожної додатноозначеної матриці існує матриця така що то модель
вже буде класичною моделлю лінійної регресії.
Методи оцінювання[ред. | ред. код]
Залежно від об'єктів, що досліджуються за допомогою лінійної регресії, та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:
Метод найменших квадратів можна застосувати у будь-яких задачах, в яких ранг матриці рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:
У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).
У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:
Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:
Серед інших методів оцінювання:
- Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
- Цей метод є найкращим в сенсі максимальної правдоподібності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте може мати більш ніж один розв'язок і не має простої формули визначення оцінки.
- Метод максимальної правдоподібност. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
- Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.
Див. також[ред. | ред. код]
Джерела[ред. | ред. код]
- Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
- Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
- Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики: Учебник для вузов. — М.: ЮНИТИ, 1998. — 1022 с.
- С. Р. Рао, Линейные статистические методы и их применения / Пер. с англ. — М.: Наука,1968
- Rao, C. Radhakrishna; Toutenburg, Shalabh, Heumann (2008). Linear Models and Generalizations (3rd ed.). Berlin: Springer. ISBN 978-3-540-74226-5.
|