Лінійна регресія — Вікіпедія

Приклад простої лінійної регресії з однією незалежною змінною

У статистиці лінійна регресія — це метод моделювання залежності між скалярною змінною y та векторною (у загальному випадку) змінною X. У разі, якщо змінна X також є скаляром, регресію називають простою.

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії зазвичай застосовується метод найменших квадратів (МНК), але також можуть бути використані інші методи. Але метод найменших квадратів може бути використаний і для нелінійних моделей, тому МНК та лінійна регресія, хоч і є тісно пов'язаними, але не є синонімами.

Означення[ред. | ред. код]

Загальна лінійна регресійна модель має вигляд:

де  — залежна пояснювана змінна,  — незалежні пояснювальні змінні,  — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних, але математичне сподівання якої дорівнює нулеві.

Згідно з цією моделлю, математичне сподівання залежної змінної є лінійною функцією незалежних змінних:

Вектор параметрів є невідомим і задача лінійної регресії полягає у пошуку цих параметрів на основі деяких експериментальних значень і Тобто для деяких n експериментів мають бути відомими значення незалежних змінних і відповідні їм значення залежної змінної.

Згідно з означенням моделі для кожного експериментального випадку залежність між змінними визначається формулою

або, у матричних позначеннях,

де:

На основі цих даних потрібно оцінити значення параметрів а також розподіл випадкової величини Зважаючи на характеристики досліджуваних змінних, можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії[ред. | ред. код]

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

  • (відсутність кореляції залишків)
  • (гомоскедастичність)
попередні дві властивості можна також записати в матричних позначеннях де одинична матриця розмірності n.
  • Ранг матриці X дорівнює K+1.
  • Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до нескінченності:

  • де позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії[ред. | ред. код]

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі не часто виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову де  — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці існує матриця така що то модель

вже буде класичною моделлю лінійної регресії.

Методи оцінювання[ред. | ред. код]

Залежно від об'єктів, що досліджуються за допомогою лінійної регресії, та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

Метод найменших квадратів можна застосувати у будь-яких задачах, в яких ранг матриці рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

Серед інших методів оцінювання:

  • Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
Цей метод є найкращим в сенсі максимальної правдоподібності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте може мати більш ніж один розв'язок і не має простої формули визначення оцінки.
  • Метод максимальної правдоподібност. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
  • Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також[ред. | ред. код]

Джерела[ред. | ред. код]