Описова статистика — Вікіпедія

Описова статистика або дескриптивна статистика (англ. descriptive statistics) — розділ статистики, який займається обробкою емпіричних даних, їх систематизацією, наочним представленням у вигляді графіків та таблиць, а також їх кількісним описом через основні статистичні показники.

В певному розумінні протиставляється статистичним висновкам, оскільки не робить висновок про генеральну сукупність на основі результатів дослідження частинних випадків, в той час як статистичний висновок припускає, що властивості та закономірності, виявлені під час дослідження об'єктів вибірки, характеризують генеральну сукупність. Це означає, що описова статистика, як правило, не використовує апарат теорії ймовірностей. Навіть коли аналіз даних передбачає статистичні висновки, використовувані статистичні дані, зазвичай, представлені як дані описової статистики. Наприклад, в публікаціях, в яких узагальнюється якась інформація про людину, зазвичай наводиться таблиця із зазначенням загального обсягу вибірки, обсяги вибірок у важливих підгрупах (наприклад, для кожної групи хворих чи опромінюваних) та демографічних чи клінічних характеристик, таких як середній вік, пропорції за статтю, доля людей з певними захворюваннями тощо.

Основні статистичні показники, які використовуються для опису набору даних — це міри центральної тенденції та міри мінливості. До мір центральної тенденції включають середнє значення, медіану, моду, а до мір мінливості — стандартне відхилення (чи дисперсію), мінімальне та максимальне значення змінної, розмах, ексцес та коефіцієнт асиметрії.

Методи подання даних[ред. | ред. код]

Описова статистика використовує три основних методи представлення даних:

  1. Табличне представлення.
  2. Графічне представлення.
  3. Розрахунок статистичних показників.

Використання в статистичному аналізі[ред. | ред. код]

Описова статистика забезпечує короткий підсумок про вибірку та про спостереження, які були зроблені. Такі резюме можуть бути як кількісними, наприклад резюмуюча статистика, так і візуальна, наприклад прості графіки. Ці резюме можуть бути або основою початкового опису даних як частина більш обширного статистичного аналізу, або вони можуть бути достатніми самі по собі для конкретного дослідження.

Наприклад, розглянемо голи у відсотках в баскетболі, для цього використовуємо описову статистику, яка підсумовує виконані гравцем або командою голи. Це число є кількість зроблених голів, поділена на кількість всіх кидків. Наприклад, гравець, який попадає з відсотком 33 % — робить приблизно одне попадання з кожних трьох кидків. Відсоток підсумовує або описує кілька дискретних подій. Розглянемо також середній бал. Це єдине число описує загальну успішність студента по всьому спектру курсу.

Використання описової та сумарної статистики має багату історію. Справді, простий перепис населення та економічних даних був першою проблемою, якою зайнялась статистика. Зовсім недавно, колекція підсумкової методології була сформульована під заголовком дослідного аналізу даних, прикладом такого способу є «ящик з вусами».

У діловому світі, описова статистика дає змогу зведення безпеки, коли дослідники виконують емпіричний та аналітичний аналіз, так як він дає історичний нарис поведінки прибутків.

Одновимірний аналіз[ред. | ред. код]

Одновимірний аналіз передбачає, що описують розподіл однієї змінної, включаючи його центральну тенденцію (у тому числі середні значення, медіану і моду) та дисперсію (включаючи діапазон і квантилі набору даних, та заходи з розповсюдження такі як дисперсія і стандартне відхилення). Форма розподілу може також бути описана за допомогою індексів, таких як дисперсія випадкової величини та стандартне відхилення. Особливості розподілу змінної також можуть бути зображеними у графічному або табличному форматі, включаючи гістограми і діаграму «стовбур — листя».

Двовимірний аналіз[ред. | ред. код]

Коли модель складається з більш ніж однієї змінної, описова статистика може бути використана для опису відносин між парами змінних. У цьому випадку, описові статистичні дані включають в себе:

Основною причиною для диференціації одновимірного і двовимірного аналізу є те, що двовимірний аналіз — це не тільки просто описовий аналіз, а й опис зв'язку між двома різними змінними. Кількісні показники залежності включають коефіцієнти кореляції (наприклад,коефіцієнт Пірсона або Спірмана) і коваріації. Нахил в регресійному аналізі також відображає відношення між змінними. Нестандартизований нахил вказує на одиницю заміни змінної для критерію зміни змінних в одній системі вимірювання. Стандартизованих схил вказує, що це зміна в стандартних одиницях вимірювання. Вкрай нерівномірні дані часто можна перетворити за допомогою логарифмів. Використання логарифмів робить графіки більш симетричними і виглядають більш схожими на нормальний розподіл, завдяки чому їх легше інтерпретувати.

Джерела[ред. | ред. код]

  • Методи аналізу даних: навчальний посібник для студентів/ В. Є. Бахрушин. — Запоріжжя: КПУ, 2011. — 268 с. ISBN 978-966-414-103-8