Баєсів інформаційний критерій — Вікіпедія

У статистиці, ба́єсів інформаці́йний крите́рій (БІК, англ. bayesian information criterion, BIC), або крите́рій Шва́рца (англ. Schwarz criterion, також англ. SBC, SBIC) — статистичний критерій для обирання моделі серед скінченної множини моделей; найприйнятнішою є модель із найнижчим БІК. Він ґрунтується, зокрема, на функції правдоподібності, і тісно пов'язаний з інформаційним критерієм Акаіке (ІКА).

При допасовуванні моделей можливо підвищувати правдоподібність шляхом додавання параметрів, але це може призводити до перенавчання. Як БІК, так і ІКА намагаються розв'язувати цю проблему введенням члена штрафу для числа параметрів у моделі; член штрафу в БІК є більшим, ніж в ІКА.

БІК було розроблено Ґідеоном Шварцем, і опубліковано в праці 1978 року,[1] в якій він навів баєсове обґрунтування його застосування.

Визначення[ред. | ред. код]

БІК формально визначається як[2]

де

  • = максимізоване значення функції правдоподібності моделі , тобто, , де є значеннями параметрів, які максимізують функцію правдоподібності;
  • = спостережувані дані;
  • = число точок даних в , число спостережень, або, рівнозначно, розмір вибірки;
  • = число вільних параметрів, які належить оцінити. Якщо модель, що розглядають, є лінійною регресією, то є числом регресорів, включно з відтином;

БІК є асимптотичним результатом, виведеним за припущення, що розподіл даних належить до експоненційного сімейства[en]. Тобто, інтеграл функції правдоподібності , помножений на апріорний розподіл ймовірності над параметрами моделі , для незмінних спостережених даних наближується як

Для великих це може бути наближено наведеною вище формулою. БІК використовують в задачах обирання моделі, що в них додавання сталої до БІК не змінює результату.

Властивості[ред. | ред. код]

  • Він не залежить від апріорного, або апріорне є «невизначеним» (сталою).
  • Він може вимірювати ефективність параметризованої моделі в термінах передбачування даних.
  • Він штрафує складність моделі, де складність позначає кількість параметрів моделі.
  • Він наближено дорівнює критерієві мінімальної довжини опису, але з протилежним знаком.
  • Його можна застосовувати для обирання числа кластерів відповідно до внутрішньої складності, присутньої в певному наборі даних.
  • Він тісно пов'язаний з іншими критеріями штрафованої правдоподібності, такими як RIC[прояснити: ком.] та інформаційний критерій Акаіке.

Обмеження[ред. | ред. код]

Критерій БІК страждає на два головні обмеження[3]

  1. наведене вище наближення чинне лише для розміру вибірки , який є набагато більшим за число параметрів моделі .
  2. БІК не може обробляти складні зібрання моделей, як у задачі обирання змінних (або обирання ознак) за високої розмірності.[3]

Гаусів особливий випадок[ред. | ред. код]

За припущення, що похибки або збурення моделі є незалежними та однаково розподіленими згідно нормального розподілу, і граничної умови, що похідна логарифмічної правдоподібності щодо істинної дисперсії є нульовою, це перетворюється (з точністю до адитивної сталої, яка залежить від n, але не від моделі) на[4]

де є дисперсією похибки. Дисперсію похибки в цьому випадку визначають як

що є зсунутою оцінкою істинної дисперсії.

В термінах залишкової суми квадратів[en] БІК є

При перевірці декількох лінійних моделей відносно насиченої моделі БІК може бути переписано в термінах девіантності[en] як[5]

де є числом параметрів моделі в перевірці.

При обиранні з декількох моделей найприйнятнішою є модель із найнижчим БІК. БІК є висхідною функцією дисперсії похибки , і висхідною функцією k. Тобто, незрозуміла дисперсія в залежній змінній та число описових змінних збільшують значення БІК. Отже, нижчий БІК означає або меншу кількість описових змінних, або кращу допасованість, або обидві. Силу свідчення проти моделі з вищим БІК може бути узагальнено наступним чином:[5]

ΔБІК Свідчення проти вищого БІК
0 to 2 Не варте більше ніж просто згадування
2 to 6 Позитивне
6 to 10 Сильне
>10 Дуже сильне

БІК зазвичай штрафує вільні параметри сильніше за Інформаційний критерій Акаіке, хоча це залежить від розміру n і відносної величини n і k.

Важливо мати на увазі, що БІК можна застосовувати для порівняння оцінюваних моделей лише якщо числові значення залежної змінної є однаковими для всіх порівнюваних оцінок. Порівнюваним моделям не потрібно бути вкладеними, на відміну від випадку, коли моделі порівнюють із застосуванням критерію Фішера або перевірки відношенням правдоподібностей.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Schwarz, Gideon E. (1978), Estimating the dimension of a model, Annals of Statistics[en], 6 (2): 461—464, doi:10.1214/aos/1176344136, MR 0468014 (англ.)
  2. Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). ‘All models are wrong...’: an introduction to model uncertainty. Statistica Neerlandica. 66 (3): 217—236. doi:10.1111/j.1467-9574.2012.00530.x. (англ.)
  3. а б Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN 9781482237948. (англ.)
  4. Priestley, M.B. (1981). Spectral Analysis and Time Series. Academic Press[en]. ISBN 0-12-564922-3. (p. 375). (англ.)
  5. а б Kass, Robert E.; Raftery, Adrian E. (1995), Bayes Factors, Journal of the American Statistical Association[en], 90 (430): 773—795, doi:10.2307/2291091, ISSN 0162-1459 (англ.)

Джерела[ред. | ред. код]

Посилання[ред. | ред. код]