Chegou a hora de abandonarmos os testes de significância e adotarmos métodos de estimativa

Um breve editorial recentemente publicado no Journal of Physiotherapy argumenta que chegou a hora de abandonarmos o uso de testes de hipóteses e testes de significância em pesquisas em saúde. A razão central do argumento é que valores de p e argumentos em favor de “significância estatística” (isto é, o resultado de testes estatísticos para testar a hipótese nula), apresentam falhas importantes, são frequentemente utilizados de forma equivocada e são responsáveis por interpretações equivocadas de resultados. Não é fácil descrever os problemas associados com esta abordagem de maneira simples. Este editorial aborda cada um dos problemas em diferentes seções do artigo: valores de p não indicam a probabilidade de que a hipótese é falsa (ou não), valores de p não representam evidência, significância estatística não gera resultados replicáveis, e a hipótese nula é falsa na grande maioria das pesquisas clínicas.

Por muito tempo, renomados estatísticos argumentaram que o conceito de significância estatística deveria ser abandonado. Entretanto, pesquisadores clínicos e de laboratório continuam a utilizar testes de hipóteses – presumivelmente porque esta é a abordagem que a eles foi ensinada, é o que a maioria dos periódicos científicos requerem, e também porque eles não conseguem visualizar os benefícios de abordagens alternativas. Este ano, contudo, duas publicações de alta relevância, The American Statistician e Nature, recomendaram fortemente que chegou a hora de parar de utilizar termos relacionados a significância estatística.

Uma alternativa altamente recomendada à testes de hipóteses em ensaios clínicos randomizados é reportar o tamanho do efeito (ou estimativa de ponto) e a precisão do efeito (ou intervalo de confiança). Pesquisadores podem então interpretar o tamanho da estimativa de ponto, isto é, se a estimativa de efeito de tratamento é grande o suficiente para ser clinicamente relevante. Os valores inferiores e superiores do intervalo de confiança podem ser considerados da mesma forma. Por exemplo, se ambos os extremos do intervalo de confiança estão contidos em um intervalo de valores considerados clinicamente importante, o ensaio clínico fornece uma resposta clara à pergunta de pesquisa elaborada.

A migração para intervalos de confiança já começou em diversos periódicos científicos. A proporção de ensaios clínicos em fisioterapia que agora utilizam intervalos de confiança em vez de (ou em conjunto com) valores de p vem crescendo nas últimas décadas. A migração de valores de p para intervalos de confiança é mais comum em ensaios clínicos de alta qualidade metodológica. Esta abordagem aumenta a necessidade de fisioterapeutas de entenderem intervalos de confiança.

Parar de utilizar termos relacionados a significância estatística e termos relacionados apresenta diversas implicações para muitos grupos. Estes incluem editores de periódicos científicos e políticas editorias destes periódicos, checklists conhecidos (por exemplo, checklist CONSORT), e elaboração de ferramentas de avaliação de qualidade que contém seções relacionadas a qualidade da descrição dos resultados (por exemplo, a escala PEDro). O grupo de periódicos membros da The International Society of Physiotherapy Journal Editors em breve publicará sua nova política sobre o assunto. Nós manteremos os usuários do PEDro informados em relação a quaisquer atualizações nesta área.

Leia este artigo disponível gratuitamente no link abaixo para ter certeza de que você entende as razões pelas quais os paradigmas em relação a análises estatísticas estão mudando.

Herbert R. Research note: significance testing and hypothesis testing: meaningless, misleading and mostly unnecessary. J Physiother 2019;65(3):178-181

News

Sign up to the PEDro Newsletter to receive the latest news