Баєсова оцінка — Вікіпедія

У теорії оцінювання та теорії рішень ба́єсова оці́нка або ба́єсова дія є оцінкою або правилом ухвалення рішення^[en], що мінімізує апостеріорне математичне сподівання функції втрат (тобто, апостеріо́рні очі́кувані втра́ти). Рівносильно, вона максимізує апостеріорне математичне сподівання функції корисності. Альтернативним способом формулювання оцінки в баєсовій статистиці є оцінка апостеріорного максимуму.

Визначення[ред. | ред. код]

Припустімо, нам відомо, що невідомий параметр θ має апріорний розподіл $\pi$ . Нехай ${\widehat {\theta }}={\widehat {\theta }}(x)$ буде оцінкою θ (на підставі первних вимірювань x), та нехай $L(\theta ,{\widehat {\theta }})$ буде функцією втрат, наприклад, квадратичною похибкою. Ба́єсів ри́зик ${\widehat {\theta }}$ визначають як $E_{\pi }(L(\theta ,{\widehat {\theta }}))$ , де береться математичне сподівання від розподілу ймовірності $\theta$ : це визначає функцію ризику як функцію від ${\widehat {\theta }}$ . Про оцінку ${\widehat {\theta }}$ кажуть, що вона є баєсовою оцінкою, якщо вона мінімізує баєсів ризик серед усіх оцінок. Рівноцінно, оцінка, що мінімізує апостеріорне математичне сподівання втрат $E(L(\theta ,{\widehat {\theta }})|x)$ для кожного x також мінімізує й баєсів ризик, а отже є баєсовою оцінкою.^[1]

Якщо апріорне є некоректним, то оцінка, що мінімізує апостеріорне математичне сподівання втрат для кожного x, називається узага́льненою ба́єсовою оці́нкою.^[2]

Приклади[ред. | ред. код]

Оцінка мінімальної середньоквадратичної похибки[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Мінімальна середньоквадратична похибка^[en].

Найпоширенішою функцією ризику, що застосовується для баєсової оцінки, є середньоквадратична похибка (СКП, англ. mean square error, MSE), що також називають квадратичним ризиком похибки. СКП визначається як

\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],

де математичне сподівання береться над спільним розподілом $\theta$ та $x$ .

Апостеріорне середнє[ред. | ред. код]

При використанні СКП як ризику баєсова оцінка невідомого параметру є просто середнім значенням апостеріорного розподілу,^[3]

{\widehat {\theta }}(x)=E[\theta |x]=\int \theta p(\theta |x)\,d\theta .

Це відомо як оцінка мінімальної середньоквадратичної похибки (МСКП, англ. minimum mean square error, MMSE). Баєсів ризик у цьому випадку є апостеріорною дисперсією.

Баєсові оцінки для спряжених апріорних[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Спряжений апріорний розподіл.

Якщо немає неусувної підстави віддавати перевагу одному апріорному розподілові перед іншим, іноді для спрощення обирають спряжений апріорний розподіл. Спряжений апріорний розподіл визначається як апріорний розподіл, що належить до параметричного сімейства^[en], для якого результатний апостеріорний розподіл також належить до цього ж сімейства. Це є важливою властивістю, оскільки баєсову оцінку, так само як і її статистичні властивості (дисперсію, довірчий інтервал тощо), може бути виведено з апостеріорного розподілу.

Спряжені апріорні є особливо зручними для послідовного оцінювання, коли апостеріорне поточного вимірювання використовується як апріорне в наступному вимірюванні. У послідовному оцінюванні, якщо не використовуються спряжені апріорні, апостеріорний розподіл типово стає складнішим із кожним доданим вимірюванням, і баєсову оцінку зазвичай неможливо обчислювати без удавання до чисельних методів.

Нижче наведено деякі приклади спряжених апріорних.

Якщо x|θ є нормальним, x|θ ~ N(θ,σ²) та апріорне є нормальним, θ ~ N(μ,τ²), тоді апостеріорне також є нормальним, а баєсова оцінка при СКП задається як

{\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.

Якщо x₁,…,x_n є незалежними однаково розподіленими пуассонівськими випадковими змінними x_i|θ ~ P(θ), та апріорне є гамма-розподіленим θ ~ G(a, b), тоді апостеріорне є також гамма-розподіленим, а баєсова оцінка при СКП задається як

{\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+{\frac {1}{b}}}}.

Якщо x₁,…,x_n є незалежними однаково розподіленими неперервними рівномірними x_i|θ~U(0,θ), а апріорне є паретівським θ~Pa(θ₀,a), тоді апостеріорне також має розподіл Парето, а баєсова оцінка при СКП задається як

{\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.

Альтернативні функції ризику[ред. | ред. код]

Функції ризику обираються в залежності від способу вимірювання відстані між оцінкою та невідомим параметром. Найпоширенішою функцією ризику у вжитку є СКП, головно завдяки її простоті. Проте іноді використовуються й альтернативні функції ризику. Далі наведено декілька прикладів таких альтернатив. Ми позначаємо функцію апостеріорного узагальненого розподілу через $F$ .

Апостеріорна медіана та інші квантилі[ред. | ред. код]

«Лінійна» функція втрат, з $a>0$ , що видає як баєсову оцінку апостеріорну медіану:

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Інша «лінійна» функція втрат, що призначає різну «вагу» $a,b>0$ для пере- та недооцінки. Вона видає квантиль апостеріорного розподілу, і є узагальненням попередньої функції втрат:

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Апостеріорна мода[ред. | ред. код]

Наступна функція втрат є хитрішою: вона видає або апостеріорну моду, або близьку до неї точку, в залежності від кривизни та властивостей апостеріорного розподілу. Малі значення параметру $K>0$ рекомендуються для того, щоби використовувати цю моду як наближення ( $L>0$ ):

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Може бути задумано й інші функції втрат, незважаючи на те, що середньоквадратична похибка є найширше вживаною й перевіреною.

Узагальнені баєсові оцінки[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Прийнятне правило ухвалення рішення § Правила Баєса та узагальнені правила Баєса^[en].

Апріорний розподіл $p$ досі вважався правильним розподілом ймовірності, в тому сенсі, що

\int p(\theta )d\theta =1.

Проте іноді це може бути обмежувальною вимогою. Наприклад, не існує розподілу (що покриває множину R усіх дійсних чисел), для якого будь-яке дійсне число є однаково ймовірним. Ще, у певному сенсі, такий «розподіл» виглядає як природний вибір неінформативного апріорного, тобто такий апріорний розподіл, що не віддає переваги жодному конкретному значенню невідомого параметра. Все ще можна визначити функцію $p(\theta )=1$ , але вона вже не буде коректним апріорним розподілом ймовірності, оскільки вона має нескінченну масу,

\int {p(\theta )d\theta }=\infty .

Такі міри $p(\theta )$ , що не є розподілами ймовірності, називаються некоректними апріорними.

Використання некоректного апріорного означає, що баєсів ризик є невизначеним (оскільки апріорне не є розподілом ймовірності, й ми не можемо взяти його математичне сподівання). Як наслідок, вже немає сенсу говорити про баєсову оцінку, що мінімізує баєсів ризик. Тим не менш, у багатьох випадках можна визначити апостеріорний розподіл

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }}.

Це є визначенням, але не застосуванням теореми Баєса, оскільки теорему Баєса можна застосовувати лише якщо всі розподіли є коректними. Проте для результатного «апостеріорного» не є незвичним бути чинним розподілом ймовірності. В такому випадку апостеріорні очікувані втрати

\int {L(\theta ,a)p(\theta |x)d\theta }

є добре визначеними та скінченними. Нагадаймо, що для коректного апріорного баєсова оцінка мінімізує апостеріорні очікувані втрати. Коли апріорне є некоректним, оцінка, що мінімізує апостеріорні очікувані втрати, називається узага́льненою ба́єсовою оці́нкою.^[2]

Приклад[ред. | ред. код]

Типовим прикладом є оцінювання коефіцієнту зсуву з функцією втрат типу $L(a-\theta )$ . Тут $\theta$ є коефіцієнтом зсуву, тобто $p(x|\theta )=f(x-\theta )$ .

В такому випадку є звичним застосовувати некоректне апріорне $p(\theta )=1$ , особливо якщо ніякої іншої суб'єктивнішої інформації немає в наявності. Це дає

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}={\frac {f(x-\theta )}{p(x)}}

таким чином, апостеріорні очікувані втрати дорівнюють

E[L(a-\theta )|x]=\int {L(a-\theta )p(\theta |x)d\theta }={\frac {1}{p(x)}}\int L(a-\theta )f(x-\theta )d\theta .

Узагальнена баєсова оцінка є значенням $a(x)$ , що мінімізує цей вираз для заданого $x$ . Це є еквівалентним мінімізації

\int L(a-\theta )f(x-\theta )d\theta

для заданого

x.

(1)

В цьому випадку може бути показано, що узагальнений баєсів оцінювач може мати вигляд $x+a_{0}$ , для деякої сталої $a_{0}$ . Щоби побачити це, нехай $a_{0}$ буде значенням, що мінімізує (1), коли $x=0$ . Тоді, маючи інше значення $x_{1}$ , ми мусимо мінімізувати

\int L(a-\theta )f(x_{1}-\theta )d\theta =\int L(a-x_{1}-\theta ')f(-\theta ')d\theta '.

(2)

Це є ідентичним до (1), крім того, що $a$ було замінено на $a-x_{1}$ . Отже, вираз, що мінімізується, задається як $a-x_{1}=a_{0}$ , тому оптимальна оцінка має вигляд

a(x)=a_{0}+x.\,\!

Емпіричні баєсові оцінки[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Емпіричний баєсів метод^[en].

Баєсова оцінка, виведена емпіричним баєсовим методом^[en], називається емпіри́чною ба́єсовою оці́нкою. Емпіричний баєсів метод дозволяє при побудові баєсової оцінки використовувати додаткові емпіричні дані зі спостережень пов'язаних параметрів. Це робиться із припущення, що оцінювані параметри отримуються зі спільного апріорного. Наприклад, якщо виконуються незалежні спостереження різних параметрів, то продуктивність оцінки певного параметру іноді може бути покращено за рахунок використання даних з інших спостережень.

Існують параметричний^[en] та непараметричний^[en] підходи до емпіричної баєсової оцінки. Параметричному емпіричному Баєсові зазвичай віддається перевага, оскільки він є застосовнішим та точнішим на малих об'ємах даних.^[4]

Приклад[ред. | ред. код]

Далі наведено простий приклад параметричної емпіричної баєсової оцінки. При заданих спостереженнях $x_{1},\ldots ,x_{n}$ , що мають умовний розподіл $f(x_{i}|\theta _{i})$ , потрібно оцінити $\theta _{n+1}$ на базі $x_{n+1}$ . Припустімо, що $\theta _{i}$ мають спільне апріорне $\pi$ , що залежить від невідомих параметрів. Наприклад, нехай $\pi$ є нормальним розподілом із невідомим середнім значенням $\mu _{\pi }\,\!$ та дисперсією $\sigma _{\pi }\,\!.$ Тоді ми можемо використовувати минулі спостереження для визначення середнього значення та дисперсії $\pi$ наступним чином.

Спочатку ми оцінюємо середнє значення $\mu _{m}\,\!$ та дисперсію $\sigma _{m}\,\!$ відособленого розподілу $x_{1},\ldots ,x_{n}$ за допомогою підходу максимальної правдоподібності:

{\widehat {\mu }}_{m}={\frac {1}{n}}\sum {x_{i}},

{\widehat {\sigma }}_{m}^{2}={\frac {1}{n}}\sum {(x_{i}-{\widehat {\mu }}_{m})^{2}}.

Далі ми використовуємо відношення

\mu _{m}=E_{\pi }[\mu _{f}(\theta )]\,\!,

\sigma _{m}^{2}=E_{\pi }[\sigma _{f}^{2}(\theta )]+E_{\pi }[\mu _{f}(\theta )-\mu _{m}],

де $\mu _{f}(\theta )$ та $\sigma _{f}(\theta )$ є моментами умовного розподілу $f(x_{i}|\theta _{i})$ , що вважаються відомими. Зокрема, припустімо, що $\mu _{f}(\theta )=\theta$ та $\sigma _{f}^{2}(\theta )=K$ ; тоді ми отримуємо

\mu _{\pi }=\mu _{m}\,\!,

\sigma _{\pi }^{2}=\sigma _{m}^{2}-\sigma _{f}^{2}=\sigma _{m}^{2}-K.

Нарешті, ми отримуємо оцінені моменти апріорного,

{\widehat {\mu }}_{\pi }={\widehat {\mu }}_{m},

{\widehat {\sigma }}_{\pi }^{2}={\widehat {\sigma }}_{m}^{2}-K.

Наприклад, якщо $x_{i}|\theta _{i}\sim N(\theta _{i},1)$ , і якщо ми розглядаємо нормальне апріорне (що є спряженим апріорним у даному випадку), ми доходимо висновку, що $\theta _{n+1}\sim N({\widehat {\mu }}_{\pi },{\widehat {\sigma }}_{\pi }^{2})$ , з чого може бути обчислено баєсову оцінку $\theta _{n+1}$ на базі $x_{n+1}$ .

Властивості[ред. | ред. код]

Прийнятність[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Прийнятне правило ухвалення рішення^[en].

Правила Баєса, що мають скінченний баєсів ризик, зазвичай є прийнятними^[en]. Далі наведено деякі конкретні приклади теорем прийнятності.

Якщо баєсове правило є унікальним, то воно є прийнятним.^[5] Наприклад, як зазначено вище, за середньоквадратичної похибки (СКП) правило Баєса є унікальним, а відтак і прийнятним.
Якщо θ належить до дискретної множини, то всі правила Баєса є прийнятними.
Якщо θ належить до неперервної (не дискретної) множини, і якщо функція ризику R(θ,δ) є неперервною за θ для будь-якого δ, то всі правила Баєса є прийнятними.

На противагу до цього, узагальнені правила Баєса часто мають невизначений баєсів ризик у випадку некоректних апріорних. Ці правила часто є неприйнятними, і перевірка їхньої прийнятності може бути складною. Наприклад, узагальнена баєсова оцінка коефіцієнту зсуву θ на базі ґаусових вибірок (описаних у розділі Узагальнені баєсові оцінки вище) є неприйнятною для $p>2$ ; це є відомим як феномен Штайна^[en].

Асимптотична ефективність[ред. | ред. код]

Нехай θ буде невідомою випадковою змінною, та припустімо, що $x_{1},x_{2},\ldots$ є незалежними однаково розподіленими пробами з густиною $f(x_{i}|\theta )$ . Нехай $\delta _{n}=\delta _{n}(x_{1},\ldots ,x_{n})$ буде послідовністю баєсових оцінок θ на базі збільшуваного числа вимірювань. Нас цікавить аналіз асимптотичної продуктивності цієї послідовності оцінок, тобто продуктивність $\delta _{n}$ для великих n.

Для цього прийнято вважати θ детермінованим параметром, чиїм справжнім значенням є $\theta _{0}$ . За особливих умов,^[6] для великих вибірок (великих значень n), апостеріорна густина θ є приблизно нормальною. Іншими словами, для великих n вплив апріорної ймовірності на апостеріорну є незначним. Більше того, якщо δ є баєсовою оцінкою за ризику СКП, то вона є асимптотично незміщеною та збігається за розподілом до нормального розподілу:

{\sqrt {n}}(\delta _{n}-\theta _{0})\to N\left(0,{\frac {1}{I(\theta _{0})}}\right),

де I(θ₀) є інформацією за Фішером θ₀. Звідси випливає, що баєсова оцінка δ_n за СКП є асимптотично ефективною^[en].

Іншою оцінкою, що є асимптотично нормальною та ефективною, є оцінка максимальної правдоподібності (ОМП, англ. maximum likelihood estimator, MLE). Відношення між максимальною правдоподібністю та баєсовими оцінками можна показати на наступному простому прикладі.

Розгляньмо оцінку θ на базі біноміальної вибірки x~b(θ,n), де θ позначає ймовірність успіху. За припущення, що θ розподілене згідно спряженого апріорного, що в даному випадку є бета-розподілом B(a,b), відомо, що апріорним розподілом є B(a+x, b+n-x). Отже, баєсовою оцінкою за СКП є

\delta _{n}(x)=E[\theta |x]={\frac {a+x}{a+b+n}}.

ОМП у даному випадку є x/n, і тому ми отримуємо

\delta _{n}(x)={\frac {a+b}{a+b+n}}E[\theta ]+{\frac {n}{a+b+n}}\delta _{MLE}.

Крайнє рівняння означає, що для n → ∞ баєсова оцінка (в описаній задачі) є близькою до ОМП.

З іншого боку, коли n є малим, апріорна інформація залишається доречною для задачі ухвалення рішення, і впливає на оцінку. Щоби побачити відносну вагу апріорної інформації, припустімо, що a=b; в такому випадку кожне вимірювання привносить 1 біт інформації; формула вище показує, що апостеріорна інформація має таку саму вагу, як a+b бітів нової інформації. На практиці про дрібні деталі апріорного розподілу часто відомо дуже мало; зокрема, нема резону припускати, що він збігається з B(a,b) точно. В такому разі однією з можливих інтерпретацій цього обчислення є: «існує не патологічний апріорний розподіл із середнім значенням 0.5 та стандартним відхиленням d, що дає вагу апріорної інформації, рівну 1/(4d²)-1 бітам нової інформації».

Іншим прикладом того ж явища є випадок, коли апріорна оцінка та вимірювання мають нормальні розподіли. Якщо апріорне відцентровано на B з відхиленням Σ, а вимірювання відцентровано на b із відхиленням σ, то апостеріорне відцентровано на ${\frac {\alpha }{\alpha +\beta }}B+{\frac {\beta }{\alpha +\beta }}b$ , з вагами у цій зваженій сумі, що є α=σ², β=Σ². Більше того, квадратичним апостеріорним відхиленням є Σ²+σ². Іншими словами, апріорне поєднується з вимірюванням в точності таким же чином, як ніби воно є додатковим вимірюванням, що треба врахувати.

Наприклад, якщо Σ=σ/2, то відхилення поєднаних разом 4 вимірювань відповідає відхиленню апріорного (за припущення, що похибки вимірювань є незалежними). А ваги α,β у формулі апостеріорного відповідають такому: вага апріорного складає 4 ваги вимірювання. Поєднання цього апріорного з n вимірюваннями із середнім v призводить до апостеріорного, відцентрованого у ${\frac {4}{4+n}}V+{\frac {n}{4+n}}v$ ; зокрема, це апріорне відіграє таку ж роль, як і 4 вимірювання, зроблені завчасно. У загальному випадку апріорне має вагу (σ/Σ)² вимірювань.

Порівняйте це із прикладом біноміального розподілу: там апріорне має вагу (σ/Σ)²−1 вимірювань. Видно, що точна вага дійсно залежить від деталей розподілу, але при σ≫Σ відмінність стає малою.

Практичний приклад баєсових оцінок[ред. | ред. код]

Internet Movie Database використовує формулу для обчислення та порівняння рейтингів фільмів її користувачами, включно з їхніми 250 найрейтинговішими фільмами, що претендує на надання «справжньої баєсової оцінки».^[7] Початково для обчислення зваженого середнього балу найкращих 250 фільмів використовувалася наступна формула, хоча її відтоді було змінено:

W={Rv+Cm \over v+m}\

де:

W\

= зважений рейтинг

R\

= зважений рейтинг фільму як число від 1 до 10 (середній) = (англ. Rating)

v\

= кількість голосів за фільм = (англ. votes)

m\

= вага, надана апріорній оцінці (що базується на розподілі середніх рейтингів серед усього фонду фільмів)

C\

= середній голос серед усього фонду (наразі 7.0)

Зауважте, що W є просто зваженим арифметичним середнім R та C з вектором ваг (v, m). Із переважанням кількості вимірів над m довіра до середнього рейтингу переважає довіру до апріорного знання, і зважений баєсів рейтинг (W) наближається до простого середнього (R). Що ближчим є v (кількість оцінок фільму) до нуля, то ближчим стає W до C, де W є зваженим рейтингом, а C є середнім рейтингом по всіх фільмах. Отже, простішими термінами, фільми із дуже нечисленними оцінками/голосами матимуть рейтинг, зважений в бік середнього по всіх фільмах, в той час як фільми з багатьма оцінками/голосами матимуть рейтинг, зважений в бік їхніх середніх оцінок.

Підхід IMDb гарантує, що фільм із лише декількома сотнями оцінок, всі по 10, не займе місце вище «Хрещеного батька», наприклад, із середнім 9.2 з понад 500 000 оцінок.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ Lehmann та Casella, 1998, теорема 4.1.1.
↑ ^а ^б Lehmann та Casella, 1998, визначення 4.2.9.
↑ Jaynes, E.T. (2007). Probability theory : the logic of science (вид. 5. print.). Cambridge [u.a.]: Cambridge Univ. Press. с. 172. ISBN 978-0-521-59271-0. (англ.)
↑ Berger, 1980, розділ 4.5.
↑ Lehmann та Casella, 1998, теорема 5.2.4.
↑ Lehmann та Casella, 1998, розділ 6.8.
↑ IMDb Top 250 [Архівовано 2012-06-01 у Wayback Machine.] (англ.)

Джерела[ред. | ред. код]

Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (вид. 2nd). Springer. ISBN 0-387-98502-6. (англ.)
Berger, James O. (1985). Statistical decision theory and Bayesian Analysis (вид. 2nd). New York: Springer-Verlag. ISBN 0-387-96098-8. MR 0804611. (англ.)

Посилання[ред. | ред. код]

Bayesian estimation on cnx.org [Архівовано 17 лютого 2012 у Wayback Machine.] (англ.)
Hazewinkel, Michiel, ред. (2001), Bayesian estimator, Математична енциклопедія, Springer, ISBN 978-1-55608-010-4 (англ.)

[FOOTNOTELehmannCasella1998теорема_4.1.1-1] Lehmann та Casella, 1998, теорема 4.1.1.

[FOOTNOTELehmannCasella1998визначення_4.2.9-2] а ^б Lehmann та Casella, 1998, визначення 4.2.9.

[3] Jaynes, E.T. (2007). Probability theory : the logic of science (вид. 5. print.). Cambridge [u.a.]: Cambridge Univ. Press. с. 172. ISBN 978-0-521-59271-0. (англ.)

[FOOTNOTEBerger1980розділ_4.5-4] Berger, 1980, розділ 4.5.

[FOOTNOTELehmannCasella1998теорема_5.2.4-5] Lehmann та Casella, 1998, теорема 5.2.4.

[FOOTNOTELehmannCasella1998розділ_6.8-6] Lehmann та Casella, 1998, розділ 6.8.

[7] IMDb Top 250 [Архівовано 2012-06-01 у Wayback Machine.] (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]