Estatística não paramétrica – Wikipédia, a enciclopédia livre

Na estatística, o termo estatística não paramétrica refere-se às estatísticas que não possuem dados ou população com estruturas ou parâmetros característicos.

Definições[editar | editar código-fonte]

Em estatística, o termo "estatística não paramétrica" possui pelo menos dois significados diferentes:

O primeiro significado de "não paramétrica" abrange técnicas que não dependem de dados pertencentes a nenhuma distribuição particular. Entre elas estão:
métodos de distribuição livre, que não dependem de suposições extraídas dos dados fornecidos por uma distribuição de probabilidade. É o oposto de estatística paramétrica. Inclui estatística descritiva, modelos estatísticos, inferência estatística e testes de hipóteses não paramétricos.

estatísticas não paramétricas (no sentido de estatística de dados, que é definido como uma função de uma amostra que não tem dependência de parâmetros), cuja interpretação não depende da população, cabendo assim qualquer distribuição parametrizada. Estatísticas de ordem, que são baseadas no ranking de observações, são um exemplo desse tipo de estatística e desempenham um papel muito importante em muitas abordagens não paramétricas.[carece de fontes]
A seguinte discussão foi retirada do livro Kendall's.[1]
Hipóteses estatísticas dizem respeito ao comportamento de variáveis aleatórias observáveis... Por exemplo, a hipótese (a) que a distribuição normal tem uma média e uma variância especificados é estatística; Assim é a hipótese (b) de que tem uma hipótese dada mas uma variância não especificada; Assim é a hipótese (c) que a distribuição tem a forma normal com tanto a média quanto a variância não especificadas; Por fim, temos a hipótese (d) de que duas distribuições contínuas não especificadas são idênticas.
É notável que nos exemplos (a) e (b) a distribuição subjacentes às observações são de certa forma (normal) e a hipótese diz respeito inteiramente a valores de uma ou duas variáveis dos parâmetros. Essa hipótese é, portanto, chamada de "paramétrica".[carece de fontes]
A hipótese (c) foi de natureza diferente, pois nenhum dos valores dos parâmetros foram especificados na afirmação da hipótese; Nós podemos chamar essa hipótese de "não paramétrica". A hipótese (d) também é "não paramétrica" mas, além disso, não especifica a forma da distribuição, e por isso podemos nos referir como "distribuição livre". Apesar destas distinções, a literatura estatística utiliza comumente o termo "não paramétrica" para procedimentos de teste que nós acabamos de nos referir como "distribuição livre", perdendo assim uma classificação útil.[carece de fontes]
O segundo significado de "não paramétrica" faz referência a técnicas que não presumem que a "estrutura" de um modelo é fixa. Tipicamente, o modelo cresce no sentido de acomodar a complexidade dos dados. Nessas técnicas, variáveis individuais são normalmente consideradas a pertencer a distribuições paramétricas, e suposições sobre tipos de conexões entre as variáveis também são feitas. Essas técnicas incluem, entre outras:
Regressão não paramétrica, refere-se à modelação onde a estrutura das relações entre variáveis é tratada não parametricamente, mas que pode haver suposições paramétricas sobre a distribuição de modelos residuais.

Modelo hierárquico Bayesiano não paramétrico, como modelos baseados no processo de Dirichlet, que permite que o número de variáveis latentes cresça de forma necessária para se adequar aos dados, mas onde as variáveis individuais continuas seguindo modelos paramétricos de distribuição e até mesmo o processo de controlar a taxa de crescimento latente segue uma distribuição paramétrica.[carece de fontes]

Aplicações e propósito[editar | editar código-fonte]

Métodos não paramétricos são usados largamente no estudo das populações que são tomadas em ordem de classificação (como um filme que recebe de uma a quatro estrelas de classificação). O uso de métodos não paramétricos também pode ser necessário quando os dados tem um ranking mas nenhuma interpretação numérica clara, como quando se acessa preferências. Em termos de escala, métodos não paramétricos resultam em dados "em ordem".

Como métodos não paramétricos fazem menos suposições, a aplicabilidade deles é mais larga que os correspondentes métodos paramétricos. Em particular, eles podem ser aplicados em situações em que menos se sabe sobre o problema em questão. Além disso, devido à menor dependência de hipóteses, métodos não paramétricos são mais robustos.

Outra justificativa para o uso de métodos não paramétricos é a simplicidade. Em certos casos, até mesmo quando o uso de métodos paramétricos é justificado, métodos não paramétricos são mais fáceis de usar. Devido tanto à simplicidade quanto à maior robustez, métodos não paramétricos são vistos por algumas pessoas da área estatística como o método que deixa menos espaço para usos indevidos e mal-entendidos.

A maior aplicabilidade e a maior robustez dos testes não paramétricos têm um custo: em alguns casos onde testes paramétricos seriam apropriados, testes não paramétricos têm menos potência estatística. Em outras palavras, uma amostra maior pode ser necessária para retirar conclusões com o mesmo grau de confiança.

Modelos não paramétricos[editar | editar código-fonte]

Modelos não paramétricos diferem dos modelos paramétricos por conta do modelo de estrutura não ser especificado a priori, mas pode ser determinado pelos dados. O termo "não paramétrico" não significa que falta completamente todos os parâmetros, mas que o número e a natureza dos parâmetros são flexíveis e não fixados antecipadamente.

Um histograma é uma simples estimação não paramétrica de distribuição de probabilidade.
Estimativa de densidade kernel fornece melhores estimativas da densidade do que os histogramas.
Os métodos de regressão não paramétrica e regressão semi-paramétrica foram desenvolvidos baseados em kernels, splines e wavelets.
Análise por envoltória de dados fornece coeficientes eficientes similares aos obtidos por análise de multivariáveis sem nenhuma hipótese de distribuição.

Métodos[editar | editar código-fonte]

Métodos de inferência estatística não paramétricos (ou distribuição livre) são procedimentos matemáticos para testes de hipóteses que, diferentemente da estatística paramétrica, não fazem suposições sobre distribuição de probabilidade das variáveis a serem consideradas. Mais frequentemente esses testes incluem:

Anderson–Darling test: testa se uma amostra é retirada de uma distribuição dada;
Statistical Bootstrap Methods: Estima a precisão/amostragem da distribuição estatística;
Cochran's Q: Testa se "k" tratamentos em blocos aleatórios com 0/1 de resultado tem efeitos idênticos;
Kaplan–Meier: estima a função de sobrevivência a partir de dados de tempo de vida;
Kendall's tau: mede a dependência estatística entre duas variáveis;
Kolmogorov–Smirnov test: testa se uma amostra é retirada de uma distribuição dada ou se duas amostras são da mesma distribuição;
Kuiper's test: testa se uma amostra é retirada de uma distribuição dada, sensível a variações cíclicas como por exemplo os dias da semana;
Mann–Whitney U or Wilcoxon rank sum test: testa se duas amostras são retiradas da mesma distribuição, em relação a uma dada hipótese alternativa. Trata-se de um teste semi não paramétrico;
median test: testa se duas amostras são retiradas de distribuições com médias iguais;
Pitman's permutation test: um teste de significância estatística que produz valores exatos "p", examinando todos os possíveis rearranjos;
Siegel–Tukey test: teste que procura diferenças de escala entre grupos;
Squared ranks test: testa a igualdade das variâncias em duas ou mais amostras;
Wald–Wolfowitz runs test: testa se os elementos de uma sequência são mutuamente independentes/aleatórios;
Wilcoxon signed-rank test: testa se um par de amostras retirados de uma população tem médias diferentes.

Ver também[editar | editar código-fonte]

Notas[editar | editar código-fonte]

↑ Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).

Referências gerais[editar | editar código-fonte]

Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). "Non-parametric tests for complete data", ISTE&WILEY: London&Hoboken. ISBN 978-1-84821-269-5
Corder, G.W. & Foreman, D.I. (2009) Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach, Wiley ISBN 978-0-470-45461-9
Gibbons, Jean Dickinson and Chakraborti, Subhabrata (2003) Nonparametric Statistical Inference, 4th Ed. CRC ISBN 0-8247-4052-1
Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. John Wiley and Sons, Inc. Col: Kendall's Library of Statistics. 5 First ed. London: Edward Arnold. pp. xiv+467 pp. ISBN 0-340-54937-8, 0-471-19479-4 Verifique |isbn= (ajuda). MR 1604954
Wasserman, Larry (2007) All of nonparametric statistics, Springer. ISBN 0-387-25145-6

[1] Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).

[1]