p-значення — Вікіпедія

При перевірці статистичних гіпотез p-значення (англ. p-value) або значення імовірності або асимптотична значимість^{[джерело?]} — за умови прийняття нульової гіпотези у статистичному тесті — є імовірністю отримати такі або ще більші відхилення за умови, що у генеральній сукупності насправді немає відмінностей. А отримані відхилення було зумовлено випадковими чинниками.^[1]

Використання p-значень при перевірці статистичних гіпотез є загальним для багатьох областей дослідження^[2] таких як фізика, економіка, фінанси, політологія, психологія,^[3] біологія, кримінологія, і соціологія.^[4] Їх неправильне використання було причиною багатьох суперечливих ситуацій.

Основні поняття

В статистиці, кожна гіпотеза щодо невідомого розподілу $F$ випадкової величини $X$ називається статистичною гіпотезою. Якщо ми стверджуємо про одну гіпотезу і нашою метою є статистична перевірка чи є ця гіпотеза не хибною, але не маємо наміру, одночасно з тим, досліджувати іншу гіпотезу, тоді така перевірка називається перевіркою значимості. Статистична гіпотеза, яка стосується лише числових значень невідомих параметрів певного розподілу називається параметричною гіпотезою. Методи перевірки статистичних гіпотез називаються статистичними тестами. Тести, що перевіряють параметричні гіпотези називаються параметричними тестами.^[5]

p-значення застосовується у контексті перевірки нульової гіпотези для надання кількісної оцінки поняттю статистичної значущості доведення. Зауважте що статистична значущість результату не означає те, що результат так само має наукову значимість. Доведення нульової гіпотези це метод доведення до абсурду — аргументування, що прийняте у статистиці. По суті, твердження вважається правильним, якщо його протилежне твердження є неймовірним.

Таким чином, єдиною гіпотезою яку необхідно визначити при такій перевірці є протилежна гіпотеза, що називається нульовою гіпотезою (тобто гіпотеза, яка вважається не правдивою). Результат вважатиметься статистично значимим якщо нульову гіпотезу можна перевірено спростувати. Тобто іншими словами, при методі доведення до абсурду, для статистично значимого результату нульова гіпотеза матиме дуже малу ймовірність того, що вона є правдивою. Спростування нульової гіпотези означає, що правильна гіпотеза полягає в логічному доповнені до нульової гіпотези. Однак, якщо існує хоча б одна альтернатива нульовій гіпотезі, її спростування не може точно означати яка з інших альтернативних гіпотез є правдивою.

Якщо $X$ є випадковою величиною, що представляє собою дані спостереження і $H$ — статистична гіпотеза, що розглядається, тоді нотація статистичної значимості можна інтуїтивно визначити за допомогою умовної імовірності $\Pr(X|H)$ , яка задає ймовірність спостереження за умови, що гіпотеза припускається правдивою. Однак, якщо $X$ є неперервною випадковою величиною і спостерігається її реалізація $x$ , $\Pr(X=x|H)=0.$ У такому застосуванні, інтуїтивне визначення є не адекватним і його необхідно змінити так, щоб воно відповідало неперервним випадковим величинам.

Визначення та інтерпретація

p-значення визначають як імовірність, за умови нульової гіпотези, тут позначеної як $H$ (але досить часто її позначають як $H_{0}$ , що є протилежним до $H_{a}$ , що іноді використовують для позначення альтернативної гіпотези), отримати результат рівний або більш екстремальний ніж той, що фактично спостерігався. В залежності від того як це розглядати, «більш екстремальний ніж той, що фактично спостерігався», може означати $\{X\geq x\}$ (подія із правого хвоста) або $\{X\leq x\}$ (подія із лівого хвоста) або «менший» із $\{X\leq x\}$ та $\{X\geq x\}$ (подія із обох хвостів). Таким чином, p-значення визначається як

$\Pr(X\geq x|H)$ для випадку події із правого хвоста,
$\Pr(X\leq x|H)$ для випадку події із лівого хвоста,
$2\min\{\Pr(X\leq x|H),\Pr(X\geq x|H)\}$ для обох хвостів.

Чим меншим є p-значення, тим вищою буде значимість, оскільки це говорить досліднику про те, що досліджувана гіпотеза не може адекватно пояснити спостереження. Нульова гіпотеза $H$ відкидається якщо будь-яка із цих імовірностей менша або дорівнює малій величині, що за відомо визначена як порогове значення $\alpha$ , яка називається рівнем статистичної значущості. На відміну від p-значення, $\alpha$ рівень не отримують із даних спостереження і він не залежить від даної гіпотези; значення $\alpha$ визначає дослідник перед вивченням статистичних даних. Надавати значення параметру $\alpha$ не обов'язково. Як правило, типовими можливим значенням для $\alpha$ можуть бути 0.05, 0.01, 0.005, або 0.001.

Оскільки значення $x$ , що відповідає події із лівого чи правого хвоста є випадковою величиною, це дозволяє розглядати p-значення як функцію від $x$ і як випадкову величину саму по собі. Відповідно до нульової гіпотези, p-значення визначено рівномірно в інтервалі $[0,1]$ , із припущення, що $x$ є неперервною. Таким чином, p-значення не є фіксованим. Це означає, що p-значенню не можна інтерпретувати як підрахунок частоти, оскільки імовірність повинна бути фіксована для здійснення підрахунку частоти. Іншими словами, якщо один і той самий тест повторити незалежним чином висуваючи ту саму загальну нульову гіпотезу, він призведе до іншого p-значення для кожного повтору. Тим не менш, ці різні p-значення можна об'єднати за допомогою Комбінованого ймовірнісного тесту Фішера^[en].

Приклад

Уявімо, що ми тестуємо нульову гіпотезу $H_{0}$ про відсутність зв'язку між двома знаками у таблиці спряженості 2×2 за допомогою критерію Хі-квадрат. Тут, р-значення є ймовірністю отримати таку або ще симетричнішу (рівномірнішу) табличку. Таблиця є симетричною, коли ми припускаємо відсутність залежності між знаками. Тому, що більшим є р-значення, то більшою є імовірність прийняти $H_{0}$ , звісно, за умови що р-значення > $\alpha$ (див. вище). Тому, р-значення є ймовірністю того, що всі відхилення від симетричності у табличці було зумовлено сторонніми чинниками, а не залежністю знаків. А це і є саме тим, що стверджує нульова гіпотеза — що залежності між знаками не існує, вони не впливають на значення один одного, а усі відмінності у таблиці є результатом стороннього впливу.^[6]

Критика

Деякі статистики рекомендують доповнювати або зовсім замінювати р-значення іншими статистичними методами. Такими як довірчі інтервали, коефіцієнти правдоподібності, баєсова статистика та моделювання з використанням теорії ухвалювання рішень. Ці підходи безпосередньо стосуються розміру ефекту і більше фокусуються на оцінці, ніж на тестуванні.^[1]

Критику р-значення є також пояснено в статті Джейкоба Коена^[en] 1994 року з іронічною назвою «Земля кругла (p < .05)» (англ. The Earth Is Round (p < .05))^[7]

Один з авторів статистичного пакету мови програмування R умисно не ввів р-значення до функції lmer() для розрахунку лінійних змішаних моделей.^[8]

Див. також

Статистична значущість

Посилання

Free online p-values calculators [Архівовано 26 жовтня 2018 у Wayback Machine.] for various specific tests (chi-square, Fisher's F-test, etc.).
Understanding p-values [Архівовано 26 жовтня 2018 у Wayback Machine.], including a Java applet that illustrates how the numerical values of p-values can give quite misleading impressions about the truth or falsity of the hypothesis under test.
StatQuest: P Values, clearly explained на YouTube
StatQuest: P-value pitfalls and power calculations на YouTube

Примітки

↑ ^а ^б Nahm, Francis Sahngun (2017-10). What the P values really tell us. The Korean Journal of Pain. Т. 30, № 4. с. 241—242. doi:10.3344/kjp.2017.30.4.241. ISSN 2005-9159. PMC 5665734. PMID 29123617. Архів оригіналу за 21 листопада 2020. Процитовано 22 травня 2021.
↑ Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). Median of the p value under the alternative hypothesis. The American Statistician. American Statistical Association. 56 (3): 202—6. doi:10.1198/000313002146. Архів оригіналу за 8 березня 2021. Процитовано 19 лютого 2016.
↑ Wetzels, R.; Matzke, D.; Lee, M. D.; Rouder, J. N.; Iverson, G. J.; Wagenmakers, E. -J. (2011). Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests. Perspectives on Psychological Science. 6 (3): 291—298. doi:10.1177/1745691611406923.
↑ Babbie, E. (2007). The practice of social research 11th ed. Thomson Wadsworth: Belmont, California.
↑ Fisz, Marek (1963). Significance Testing. Probability theory and mathematical statistics (вид. 3). New York: John Wiley and Sons, Inc. с. 425.
↑ Statistical Significance for 2 x 2 Tables (PDF) (English) . Brooks/Cole. 2005. Архів оригіналу (PDF) за 26 червня 2021. Процитовано 26.06.2021. {{cite web}}: |first= з пропущеним |last= (довідка)
↑ Cohen, Jacob (1994). The earth is round (p < .05). American Psychologist (англ.). Т. 49, № 12. с. 997—1003. doi:10.1037/0003-066X.49.12.997. ISSN 1935-990X. Процитовано 22 травня 2021.
↑ Luke, Steven G. (1 серпня 2017). Evaluating significance in linear mixed-effects models in R. Behavior Research Methods (англ.). Т. 49, № 4. с. 1494—1502. doi:10.3758/s13428-016-0809-y. ISSN 1554-3528. Процитовано 22 травня 2021.

[:0-1] а ^б Nahm, Francis Sahngun (2017-10). What the P values really tell us. The Korean Journal of Pain. Т. 30, № 4. с. 241—242. doi:10.3344/kjp.2017.30.4.241. ISSN 2005-9159. PMC 5665734. PMID 29123617. Архів оригіналу за 21 листопада 2020. Процитовано 22 травня 2021.

[Bhattacharya2002-2] Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). Median of the p value under the alternative hypothesis. The American Statistician. American Statistical Association. 56 (3): 202—6. doi:10.1198/000313002146. Архів оригіналу за 8 березня 2021. Процитовано 19 лютого 2016.

[3] Wetzels, R.; Matzke, D.; Lee, M. D.; Rouder, J. N.; Iverson, G. J.; Wagenmakers, E. -J. (2011). Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests. Perspectives on Psychological Science. 6 (3): 291—298. doi:10.1177/1745691611406923.

[4] Babbie, E. (2007). The practice of social research 11th ed. Thomson Wadsworth: Belmont, California.

[Fisz-5] Fisz, Marek (1963). Significance Testing. Probability theory and mathematical statistics (вид. 3). New York: John Wiley and Sons, Inc. с. 425.

[6] Statistical Significance for 2 x 2 Tables (PDF) (English) . Brooks/Cole. 2005. Архів оригіналу (PDF) за 26 червня 2021. Процитовано 26.06.2021. {{cite web}}: |first= з пропущеним |last= (довідка)

[7] Cohen, Jacob (1994). The earth is round (p < .05). American Psychologist (англ.). Т. 49, № 12. с. 997—1003. doi:10.1037/0003-066X.49.12.997. ISSN 1935-990X. Процитовано 22 травня 2021.

[8] Luke, Steven G. (1 серпня 2017). Evaluating significance in linear mixed-effects models in R. Behavior Research Methods (англ.). Т. 49, № 4. с. 1494—1502. doi:10.3758/s13428-016-0809-y. ISSN 1554-3528. Процитовано 22 травня 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]