Наука про дані — Вікіпедія

Наука про дані — це міждисциплінарна галузь про наукові методи, процеси і системи, які стосуються добування знань із даних у різних формах, як структурованих так і неструктурованих[1][2]. Наука про дані є продовженням деяких галузей аналізу даних, таких як статистика, класифікація, кластеризація, машинне навчання, добування даних і передбачувальна аналітика[3].

Лауреат Премії Тюрінга Джим Ґрей розглядав науку про дані як «четверту парадигму» науки (поруч з емпіричною, теоретичною та обчислювальною)[4][5].

Огляд[ред. | ред. код]

Наука про дані використовує методики та теоретичні напрацювання із багатьох галузей математики, статистики, дослідження операцій[6], наукової інформатики і комп'ютерних наук, зокрема з таких як обробка сигналів, ймовірнісні моделі, машинне навчання, статистичне навчання, класифікація, кластеризація, добування даних, бази даних, теорія розпізнавання образів, візуалізація, передбачувальна аналітика, нечітке моделювання, сховища даних, стиснення даних, програмування, штучний інтелект та ін. Методи, призначені для великих даних, є окремим об'єктом розгляду у науці про дані, але сама наука ними не обмежується; крім того, технології великих даних часто спрямовані на організацію та попереднє опрацювання даних, а не на їх аналіз. Розвиток машинного навчання призвів до зростання важливості науки про дані та її швидшого розвитку.

Наука про дані впливає на наукові та прикладні дослідження у багатьох галузях, зокрема таких, як машинний переклад, розпізнавання мови, робототехніка, пошукові системи, цифрова економіка, а також біологічні науки, комп'ютерні технології в медицині, охорона здоров'я та гуманітарні дисципліни. Вона сильно впливає на економіку, бізнес та фінанси. З точки зору бізнесу, наука про дані є невід'ємною частиною аналізу діяльності конкурентів — нової галузі, яка охоплює такі напрями, як добування даних та аналіз даних[7].

Дослідник даних[ред. | ред. код]

Дослідники даних використовують свої дані та аналітичні здібності для пошуку та інтерпретації великих джерел даних; керують великими обсягами даних безвідносно до апаратного та програмного забезпечення і обмежень пропускної здатності; об'єднують джерела даних; забезпечують цілісність наборів даних; створюють візуалізації для кращого розуміння даних; з використанням даних будують математичні моделі; надають тлумачення даних та висновки. Часто їм необхідно надати відповіді протягом кількох днів (а не місяців), проводити роботи з дослідницького аналізу, створювати та представляти результати у вигляді «панелі приладів» (показники поточних значень), а не у вигляді статей чи звітів, як це зазвичай роблять статистики.[8]

Фах дослідника даних став популярним після того, як у виданні «Harvard Business Review» його назвали «найсексуальнішою роботою 21-го століття» («The Sexiest Job of the 21st Century»),[9] а консалтингова компанія McKinsey & Company оцінила глобальний попит на нових вчених у сфері даних у 1,5 мільйона кадрів[10]. Університети пропонують магістерські курси у сфері даних[11]. Існують також інші програми для отримання сертифікату у сфері даних, такі як програми від General Assembly та The Data Incubator[12].

Історія[ред. | ред. код]

Блок-схема процесу

Термін «наука про дані» (який спочатку використовувався поруч із терміном «даталогія») існує вже понад 30 років. Його вперше використав Пітер Наур у 1960 році як замінник терміна «комп'ютерні науки». У 1974 році Наур опублікував працю «Короткий огляд комп'ютерних методів», у якій вільно використовував цей термін в огляді сучасних методів опрацювання даних, які широко використовуються у низці прикладних застосувань. У 1996 році у місті Кобе відбулася конференція Міжнародної федерації класифікаційних товариств. Тоді вперше термін «наука про дані» з'явився в назві конференції («Наука про дані, класифікація та пов'язані методи»).[13]

У листопаді 1997 року Ч.-Ф. Джефф Ву провів вступну лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?»)[14] у Мічиганському університеті[15]. У цій лекції він охарактеризував статистичну роботу як тріаду, до якої входять збирання даних, моделювання даних та аналіз, а також прийняття рішення. Своїм висновком вчений започаткував сучасне використання терміна «наука про дані», який не є тотожним до терміна «комп'ютерні науки», а також виступив за перейменування статистики на науку про дані, а фах статистика — на дослідник даних.[14] Пізніше він представив свою лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?») як першу із серії лекцій пам'яті Махаланобіса[en],[16] індійського науковця і статистика, засновника Індійського інституту статистики.

У 2001 році Вільям Клівленд у своїй статті «Наука про дані: план дій із розширення технічної сфери галузі статистики» («Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics»), представив науку про дані як незалежну дисципліну, розширивши сферу статистики «досягненнями у галузі обчислень із даними».[17] У своїй праці Клівленд виокремив 6 технічних сфер, які, на його думку, охоплювали науку про дані: багатопрофільні дослідження, моделі та методи для даних, обчислення з даними, педагогіка, аналіз інструментів та теорія.

У квітні 2002 року Комітет з питань даних для науки і технології Міжнародної ради науки[18] започаткував «Data Science Journal»[19] — видання, присвячене таким питанням, як опис систем даних, їхня публікація в Інтернеті, прикладні застосування та правові питання[20]. Невдовзі після цього, у січні 2003, Колумбійський університет започаткував видання «The Journal of Data Science»[21], який став платформою для фахівців у сфері даних для висловлення своїх думок та обміну ідеями. Цей журнал робив великий акцент на застосуванні статистичних методів та кількісних дослідженнях. У 2005 році Національна наукова рада опублікувала «Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century», де до фахівців у сфері даних віднесено «вчених у галузі інформації та комп'ютерів, розробників баз даних та програмного забезпечення, галузевих експертів, кураторів та анотаторів, бібліотекарів, архівістів та інших людей, які мають вирішальне значення для успішного керування колекціями цифрових даних», основною діяльністю яких є «супровід творчих запитів та аналіз»[22]. У 2015 році започатковано видання «International Journal on Data Science and Analytics»[23] (Springer) для публікації оригінальних праць у сфері науки про дані та великих даних. У 2013 році у Люксембурзі відбулася перша Європейська конференція із аналізу даних (European Conference on Data Analysis (ECDA)), а у серпні 2015 засновано Європейську асоціацію з питань науки про дані (European Association for Data Science (EuADS)).

Програмне забезпечення[ред. | ред. код]

За період 2010-2011 років програмне забезпечення науки про дані досягло тієї точки перегину, коли відкрите ПЗ почало витісняти пропрієтарне ПЗ[24]. Використання відкритого ПЗ дозволяє змінювати та розширювати ПЗ, а також обмінюватися алгоритмами.[25][26][27]

Примітки[ред. | ред. код]

  1. Dhar, V. (2013). Data science and prediction. Communications of the ACM. 56 (12): 64. doi:10.1145/2500499.
  2. Jeff Leek (12 грудня 2013). The key word in "Data Science" is not Data, it is Science. Simply Statistics. Архів оригіналу за 21 серпня 2018. Процитовано 29 липня 2023.
  3. Predictive Analytics Degree: Northwestern SPS. northwestern.edu. Northwestern University. Процитовано 28 травня 2016. The Master of Science in Predictive Analytics (MSPA) program, established in 2011, is a fully online part-time graduate program, one of the first to offer dedicated training in data science
  4. Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4.
  5. Bell, G.; Hey, T.; Szalay, A. (2009). COMPUTER SCIENCE: Beyond the Data Deluge. Science. 323 (5919): 1297—1298. doi:10.1126/science.1170411. ISSN 0036-8075.
  6. Foreman, John (2013). Data Smart: Using Data Science to Transform Information into Insight. John Wiley & Sons. с. xiv. ISBN 9781118839867.
  7. LaPonsie, Maryalene. Data scientists: The Hottest Job You Haven't Heard Of. Процитовано 7 жовтня 2012.
  8. Nguyen, Thomson. Data scientists vs data analysts: Why the distinction matters. Архів оригіналу за 4 жовтня 2015. Процитовано 2 жовтня 2015.
  9. Data Scientist: The Sexiest Job of the 21st Century.
  10. Big data: The next frontier for innovation, competition, and productivity. Архів оригіналу за 9 травня 2015. Процитовано 29 липня 2023.
  11. Big Data Analytics Masters. Information Week. Процитовано 22 лютого 2016.
  12. NY gets new bootcamp for data scientists: It’s free, but harder to get into than Harvard. Venture Beat. Процитовано 22 лютого 2016.
  13. Press, Gil. A Very Short History Of Data Science.
  14. а б Wu, C. F. J. (1997). Statistics = Data Science? (PDF). Процитовано 9 October 2014.
  15. Identity of statistics in science examined. The University Records, 9 November 1997, The University of Michigan. Архів оригіналу за 29 жовтня 2013. Процитовано 12 серпня 2013.
  16. P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. Процитовано 18 серпня 2013.
  17. Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, 21–26
  18. International Council for Science: Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science: Committee on Data for Science and Technology: http://www.codata.org/
  19. Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols [Архівовано 2012-04-03 у Wayback Machine.]
  20. Data Science Journal. (2002, April). Contents of Volume 1, Issue 1, April 2002. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
  21. The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Retrieved from http://www.jds-online.com/v1-1 [Архівовано 2012-08-22 у Wayback Machine.]
  22. National Science Board. Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. National Science Foundation. Процитовано 30 червня 2013.
  23. Journal on Data Science and Analytics.
  24. Chalef, Daniel (20 березня 2016). Data Science Tools – Are Proprietary Vendors Still Relevant?. kdnuggets.com. Процитовано 7 листопада 2016.
  25. Asay, Matt. For data scientists, the big money is in open source. TechRepublic. Процитовано 6 листопада 2016.
  26. Jones, M. Tim. Data science and open source. IBM DeveloperWorks. IBM. Процитовано 6 листопада 2016.
  27. Talbert, Neera. Open Source Software Fuels a Revolution in Data Science. insideBIGDATA. Процитовано 6 листопада 2016.

Подальше читання[ред. | ред. код]