Середнє квадратичне відхилення середнього арифметичного — Вікіпедія

Середнє квадратичне відхилення середнього арифметичного в математичній статистиці — величина, що характеризує стандартне відхилення вибіркового середнього, розраховане по вибірці розміром $n$ із генеральної сукупності. Термін уперше ввів Удні Юл 1897 року^[en]. Значення середнього квадратичного відхилення середнього арифметичного залежить від дисперсії генеральної сукупності $\sigma ^{2}$ та обсягу вибірки $n$ .

Вибірковий розподіл вибіркового середнього утворюється шляхом повторювання експериментів і фіксування щоразу отриманого середнього. Таким чином отримують розподіл різних середніх, і цей розподіл має своє власне середнє та дисперсію. Математично дисперсія отриманого вибіркового розподілу дорівнює дисперсії сукупності, поділеній на обсяг вибірки. Це тому, що за збільшення обсягу вибірки вибіркове середнє скупчується ближче до середнього сукупності.

Отже, співвідношення між середнім квадратичним відхиленням середнього арифметичного і стандартним відхиленням буде таким, що для даного обсягу вибірки середнє квадратичне відхилення середнього арифметичного дорівнює стандартному відхиленню, поділеному на квадратний корінь від обсягу вибірки. Іншими словами, середнє квадратичне відхилення середнього арифметичного є мірою розсіяння вибіркових середніх довкола центру розподілу сукупності.

У регресійному аналізі, термін "середнє квадратичне відхилення середнього арифметичного" відноситься або до квадратного кореня із скороченого критерію хі-квадрат^[en] або середнього квадратичного відхилення середнього арифметичного конкретного коефіцієнту регресії (як це використовується, наприклад, в довірчих інтервалах).

Середнє квадратичне відхилення середнього арифметичного іноді називають "стандартною помилкою" або "стандартною похибкою". Ці терміни є неоднозначними і не рекомендуються до використання як такі, що можуть призвести до плутанини.

Середнє квадратичне відхилення середнього арифметичного[ред. | ред. код]

Середнє квадратичне відхилення середнього арифметичного $\sigma _{\bar {x}}$ пов'язане зі стандартним відхиленням генеральної сукупності $\sigma$ наступним чином

\sigma _{\bar {x}}\ ={\frac {\sigma }{\sqrt {n}}},

де $\sigma$ — величина стандартного відхилення генеральної сукупності, ${n}$ — обсяг вибірки.

Оскільки дисперсія генеральної сукупності зазвичай невідома, то використовують відповідні статистичні оцінки:

\sigma _{\bar {x}}\ \approx {\text{S}}_{\bar {x}}\ ={\frac {s}{\sqrt {n}}},

де $s$ — статистична оцінка стандартного відхилення випадкової величини на основі незміщеної оцінки її вибіркової дисперсії.

Вибірка[ред. | ред. код]

Оцінки середнього квадратичного відхилення середнього арифметичного і стандартного відхилення невеликих вибірок мають тенденцію до систематичного заниження в порівнянні з їх значеннями, отриманими з генеральної сукупності: середнє квадратичне відхилення середнього арифметичного є зміщеною оцінкою. За n = 2 недооцінка значення становить близько 25%, а для n = 6 заниження оцінки становить лише 5%. Гурланд і Тріпані (1971) запропонували поправку і рівняння для врахування цього ефекту.^[1] Сокал і Рольф (1981) запропонували рівняння коефіцієнту поправки для малих вибірок із обсягом n < 20.^[2]

Практичний результат: Аби зменшити невизначеність в оцінці середнього значення вдвічі необхідно збільшити кількість спостережень в чотири рази, або, щоб зменшити середнє квадратичне відхилення середнього арифметичного в десять разів, необхідно в 100 раз збільшити число результатів спостережень.

Доведення[ред. | ред. код]

Докладніше: Дисперсія випадкової величини

Формулу можна отримати із розрахунку дисперсії для суми незалежних випадкових величин.^[3]

Якщо $x_{1},x_{2},\ldots ,x_{n}$ — це $n$ незалежних спостережень із сукупності, що має середнє $\mu$ і стандартне відхилення $\sigma$ , тоді дисперсія величини $T=(x_{1}+x_{2}+\cdots +x_{n})$ дорівнює $n\sigma ^{2}.$
Дисперсія для $T/n$ (вибіркового середнього ${\bar {x}}$ ) повинна бути $n\left({\frac {\sigma ^{2}}{n^{2}}}\right)={\frac {\sigma ^{2}}{n}}.$
Стандартне відхилення величини $T/n$ повинно бути $\sigma /{\sqrt {n}}$

Апроксимація Стьюдента за невідомого значення σ[ред. | ред. код]

Нехай X₁, …, X_n — це незалежні випадкові величини з розподілу N(μ, σ²), тобто це вибірка розміру n з генеральної сукупності з нормальним розподілом з середнім значенням μ і дисперсією σ².

Нехай

{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

буде середнім вибірки і нехай

S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

буде (виправлена згідно з Бесселем) дисперсія вибірки. Тоді випадкова величина

{\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}

має стандартний нормальний розподіл (тобто, з середнім 0 і дисперсією 1), а випадкова величина

{\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}

(де ми підставили S замість σ) має t-розподіл Стьюдента з n − 1 ступенями свободи.

Для невеликих вибірок оцінка стандартного відхилення сукупності як правило буде заниженою, і середнє значно відрізнятиметься від середнього сукупності, а t-розподіл Стьюдента для оцінки імовірностей цих подій матиме більш масивні бокові рукави в порівнянні із розподілом Гауса. Для оцінки середнього квадратичного відхилення середнього арифметичного для t-розподілу Стьюдента достатнім буде використати вибіркове стандартне відхилення "s" замість σ, і це значення можна використати для розрахунку довірчих інтервалів.

Примітка: t-розподіл Стьюдента наближується до Гаусового розподілу зі збільшенням обсягу вибірки. Останній є значно простіший, і його можна використовувати для великих вибірок.

Застосування[ред. | ред. код]

Докладніше: Довірчий інтервал

Прикладом використання середнього квадратичного відхилення середнього арифметичного є побудова довірчих інтервалів для невідомого математичного сподівання генеральної сукупності. Якщо вибірка є нормально розподіленою, тоді вибіркове середнє, середнє квадратичне відхилення середнього арифметичного і квантилі нормального розподілу можливо застосувати для розрахунку довірчих інтервалів математичного сподівання. Для визначення верхньої і нижньої межі 95%-го довірчого інтервалу можна використати наступний вираз, де ${\bar {x}}$ дорівнює вибірковому середньому, а 1,96 є 0.95 % квантилем нормального розподілу:

Верхня 95% межа

={\bar {x}}+(S_{\bar {x}}\times 1.96),

і

Нижня 95% межа

={\bar {x}}-(S_{\bar {x}}\times 1.96),

Зокрема, стандартна похибка для вибіркової статистики (такої як вибіркове середнє) є фактичним або оціненим стандартним відхиленням похибки, що визначається процесом, яким вона була породжена. Іншими словами, це є фактичне чи оцінене стандартне відхилення вибіркового розподілу вибіркової статистики.

Стандартна похибка є простою мірою невизначення величини (мірою невпевненості) і часто використовується з наступних міркувань:

в багатьох випадках, якщо відома стандартна похибка для декількох індивідуальних величин, тоді досить легко розрахувати стандартну похибку деякої функції цих величин;
коли відомий розподіл імовірностей випадкової величини, його можна використати аби розрахувати точний довірчий інтервал;
коли розподіл імовірностей не відомий, для розрахунку довірчого інтервалу можна використати нерівності Чебишова або Височанського-Петуніна^[en]; і
з тим як об'єм вибірки прямує до нескінченності Центральна гранична теорема гарантує, що вибірковий розподіл середнього буде асимптотично нормальним.

Середнє квадратичне відхилення середнього в порівнянні із стандартним відхиленням[ред. | ред. код]

В статистиці і технічній літературі дані експериментів часто оцінюють за допомогою середнього і стандартного відхилення даних вибірки або середнього і середнього квадратичного відхилення середнього. Це, як правило, приводить до хибного уявлення про те, що ці оцінки взаємозамінні. Однак середнє і стандартне відхилення відносяться до описової статистики, в той час як стандартна похибка середнього визначає опис випадкового процесу відбору вибірки. Стандартне відхилення вибіркових даних дозволяє описати варіацію в вимірюваннях, в той час як середнє квадратичне відхилення середнього - це ймовірнісне твердження про те, яким чином розмір вибірки може забезпечити кращу оцінку середнього значення сукупності, що відповідає центральній граничній теоремі, і надати його границі.^[4]

Простими словами, середнє квадратичне відхилення вибіркового середнього є оцінкою того ,як далеко вибіркове середнє швише за все буде знаходитися від середнього сукупності, в той час як стандартне відхилення для вибірки - це ступінь того, як окремі події в рамках вибірки відрізняються від вибіркового середнього. Якщо стандартне відхилення вибірки є скінченним, середнє квадратичне відхилення середнього для вибірки буде прямувати до нуля за збільшення обсягу вибірки, оскільки оцінка середнього сукупності буде покращуватися, а стандартне відхилення вибірки із збільшенням її обсягу буде краще оцінювати генеральне стандартне відхилення.

Корекція для скінченної сукупності[ред. | ред. код]

Щодо наведеної вище формули для середнього квадратичного відхилення середнього арифметичного припускають, що обсяг вибірки менший за обсяг генеральної сукупності настільки, що можна вважати що генеральна сукупність фактично є нескінченною. Це типовий випадок навіть у випадку скінченних сукупностей, оскільки в більшості людей здебільшого цікавить управління процесом, який створив цю існуючу скінченну сукупність; відповідно до В. Едвардс Демінгу це називається аналітичним дослідженням^[en]. Якщо метою є управління існуючою скінченною сукупністю, яка не змінюється із часом, тоді необхідно вводити поправку щодо розміру сукупності; це називається нумераційним дослідженням.

Коли частка вибірки є великою (приблизно 5 % або більше) за нумераційного дослідження для оцінки стандартного відхилення потрібно вводити корекцію, помноживши на "поправку для скінченної сукупності":^[5] ^[6]

{\text{ПСК}}={\sqrt {\frac {N-n}{N-1}}}

,

що для великих N буде мати вигляд:

{\text{ПСК}}\approx {\sqrt {1-{\frac {n}{N}}}}

аби врахувати додану точність, що буде отримана, якщо вибірка становитиме більший відсоток від генеральної сукупності. Суть ПСК полягає в тому, що похибка стає нульовою, коли обсяг вибірки n є рівним обсягу N генеральної сукупності.

Література[ред. | ред. код]

Hays, W. Statistics. Cengage Learning, 1994. (англ.)

Сеньо П. С. (2007). Теорія ймовірностей та математична статистика (вид. 2-ге, перероб. і доп.). Київ: Знання. с. 446.

Примітки[ред. | ред. код]

↑ Gurland, J; Tripathi RC (1971). A simple approximation for unbiased estimation of the standard deviation. American Statistician. American Statistical Association. 25 (4): 30—32. doi:10.2307/2682923. JSTOR 2682923.
↑ Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (вид. 2nd). с. 53. ISBN 0-7167-1254-7.
↑ Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 0-646-12621-0.
↑ Barde, M. (2012). What to use to express the variability of data: Standard deviation or standard error of mean?. Perspect Clin Res. 3 (3): 113—116. doi:10.4103/2229-3485.100662.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
↑ Isserlis, L. (1918). On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society. Blackwell Publishing. 81 (1): 75—81. doi:10.2307/2340569. JSTOR 2340569. (Equation 1)
↑ Bondy, Warren; Zlot, William (1976). The Standard Error of the Mean and the Difference Between Means for Finite Populations. The American Statistician. Taylor & Francis. 30: 96—97. JSTOR 2683803. (Equation 2)

Це незавершена стаття зі статистики.
Ви можете допомогти проєкту, виправивши або дописавши її.

[1] Gurland, J; Tripathi RC (1971). A simple approximation for unbiased estimation of the standard deviation. American Statistician. American Statistical Association. 25 (4): 30—32. doi:10.2307/2682923. JSTOR 2682923.

[2] Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (вид. 2nd). с. 53. ISBN 0-7167-1254-7.

[3] Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 0-646-12621-0.

[4] Barde, M. (2012). What to use to express the variability of data: Standard deviation or standard error of mean?. Perspect Clin Res. 3 (3): 113—116. doi:10.4103/2229-3485.100662.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)

[5] Isserlis, L. (1918). On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society. Blackwell Publishing. 81 (1): 75—81. doi:10.2307/2340569. JSTOR 2340569. (Equation 1)

[6] Bondy, Warren; Zlot, William (1976). The Standard Error of the Mean and the Difference Between Means for Finite Populations. The American Statistician. Taylor & Francis. 30: 96—97. JSTOR 2683803. (Equation 2)

[1]

[2]

[3]

[4]

[5]

[6]