P-значение при тестировании статистических гипотез предлагается понизить до 0,005

31.07.2017 17:34

9489

P-значение при тестировании статистических гипотез предлагается понизить до 0,005

Группа влиятельных американских ученых во главе со специалистом по поведенческой экономике из университета Южной Калифорнии в Лос-Анджелесе Дэниелом Бенджамином (Daniel Benjamin) опубликовала в онлайн-журнале PsyArXiv препринт своей статьи (готовящейся к публикации в новом номере журнала Nature Human Behavior), в котором они предлагают понизить до 0,005 стандартный показатель убедительного p-значения (p-value) при тестировании статистических гипотез, с нынешнего значения в 0,05. Подробности рассказывает сайт журнала Science.

P-значение — это наименьшее значение уровня значимости (то есть вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы (то есть гипотезы, которая проверяется на правильность в данной научной работе). Чем ниже p-значение, тем больше отклонение нулевой гипотезы и выше ожидаемая значимость результата.

По мнению авторов статьи, среди которых такие крупные фигуры, как психолог Брайан Нозек (Brian Nosek) из университета Вирджинии в Шарлоттсвилле и эпидемиолог Джон Иоаннидис (John Ioannidis) из Стенфордского университета в Пало-Альто (Калифорния), действующий стандарт приводит к верификации слишком большого количества сомнительных результатов.

«Если мы хотим жить в мире, где исследовательское сообщество тщательно отбирает свои результаты, лучше, чтобы этот порог составлял 0,005, а не 0,05, — сказал Бенджамин. — Это вполне реально сделать, и подобные реформы работали в других областях».

Авторы статьи подкрепляют свою точку зрения расчетами, согласно которым понижение стандарта убедительного p-значения до 0,005 действительно снизит количество ошибочных научных результатов с 33% до 5%. Кроме того, это позволит избежать распространенной ошибки, когда смысл p-значения понимается неправильно. Например, p-значение 0,05 при тестировании нового лекарства на самом деле означает, что ожидаемые — или еще лучшие — результаты будут получены в одном из 20 тестов, если на самом деле новое лекарство не дает никакого значимого эффекта по сравнению с традиционным методом лечения. Однако зачастую из этого делают неправильный вывод, что вероятность того, что лекарство работает, составляет 95%.

Если реформа пройдет, это существенно осложнит жизнь фармацевтическим компаниям, которым придется проводить на 70% больше клинических испытаний. Однако, с другой стороны, им не придется тратить ресурсы на тестирование средств, доказательства эффективности которых изначально были слишком слабыми, пишет Бенджамин и его соратники.

У их коллег это предложение вызвало смешанные чувства. Медик Виктор де Груттола (Victor De Gruttola) из Гарвардской школы общественного здоровья в Бостоне сказал журналистам, что «сам по себе выбор показателя в 0,05 был чем-то вроде нумерологии — для этого нет никаких научных оснований». С другой стороны, биостатистик Стефан Зенн (Stephen Senn) из Люксембугского института здравоохранения признался, что не испытывает по поводу реформы энтузиазма. «Не думаю, что они действительно изучили все практические последствия того, что предлагают», — сказал он.