Гиппократ не рад. Путеводитель в мире медицинских исследований - Ирина Игоревна Бодэ
Шрифт:
Интервал:
Закладка:
Благодаря своей простоте и возможности применения даже на смартфоне при помощи калькулятора этот метод является одним из самых популярных в научной среде. Более того, повсеместность использования t-критерия позволяет вам как исследователю не только сравнивать что-то там у себя в больнице, но и обмениваться данными с коллегами по всему миру. Ведь если вы используете одни и те же методы для обработки данных, которые были собраны одинаково, вы имеете полное право сравнивать их между собой (а потом хвастаться, что у ваших пациентов, мол, показатели куда лучше, чем в соседней поликлинике). Однако не следует забывать, что верные данные и представления о результатах проведённого исследования можно получить тогда и только тогда, когда была правильно проведена вся подготовительная работа.
Для тех, кто захочет самостоятельно что-то вычислить, рекомендую начать с обыкновенных вычислений в Microsoft Excel. Все необходимые формулы легко можно найти в Гугле, только не забудьте заранее найти критические значения t по таблице. Для этого вам необходимо будет выбрать уровень значимости α и знать размер выборки. Этот случай – один из тех, когда первым ссылкам в поиске можно с лёгкостью доверять (рис. 9).
Рис. 9. Фрагмент таблицы со значениями t-критерия для разных уровней значимости и размеров выборки (n)
Множественные сравнения. Наверное, это самая больная мозоль многих исследований, к сожалению, чаще отечественных. Очень часто критерий Стьюдента неверно используется для того, чтобы оценить различия в большем числе групп. Напоминаю, что с помощью t-теста мы можем сравнить только две группы. Некоторые неопытные исследователи (ну или недобросовестные, чего уж греха таить) начинают сравнивать группы попарно. Например, всего было 3 группы, значит, можно сравнить 1 с 2, 2 с 3 и 1 с 3, после чего радостно публиковаться в не самом лучшем журнале (потому что в хороший не возьмут). Если в каких-то сравнениях такой исследователь получает заветное p < 0.05, он с уверенностью заверяет читателей в отличиях между группами, однако не учитывает факта множественных сравнений. По сути-то мы наши выборки использовали не в одном сравнении, а сразу в трёх! Для одного сравнения мы принимали вероятность ошибки в 5 %, но если количество сравнений увеличивается, на том же уровне значимости необходимое значение p также изменяется. Если прикидывать грубо, то в случае горе-исследователя вероятность ошибиться хотя бы в одном сравнении будет примерно 15 %.
Для избегания таких ошибок нужно применять специальные поправки на множественные сравнения. Их существует большое количество, для каждого конкретного случая лучше выбирать определённые поправки вручную с учётом целей исследования и полученных выборок. Самой грубой и простой является поправка Бонферрони, когда новый уровень значимости вычисляется простым делением начального уровня значимости на количество сравнений. То есть в случае с тремя группами (и тремя сравнениями) при уровне значимости 0.05 мы получим: 0.05: 3 = 0.017. Значит, значение p должно быть меньше, чем 0.017, чтобы отличия между группами считались значимыми, иначе вероятность ошибки слишком велика. Поправка Бонферрони применяется не всегда, так как является простейшей и довольно грубой, она довольно резко отсекает верные ненулевые гипотезы. Считается, что она неплохо работает тогда, когда мы проводим небольшое количество попарных сравнений.
Корреляция. Существует такое понятие как корреляция, по-простому это как один параметр зависит от другого, и зависит ли вообще, если да, то в какой степени. Например, с увеличением роста, как правило, увеличивается масса тела, следовательно, эти две характеристики коррелируют между собой. Коэффициент корреляции Пирсона используют для того, чтобы описывать количественные признаки, которые подчиняются нормальному распределению. Существует также коэффициент корреляции Спирмена, который используют в тех случаях, когда о распределении ничего неизвестно.
Тут только нужно особенно отметить тот факт, что «correlation does not imply causation» – корреляция не подразумевает причинно-следственную связь. Самый, к слову, простой пример может показаться довольно банальным. Некоторые дети, которые совершали жестокие преступления, много смотрели телевизор, очевидно, что телевизионные программы делают детей более жестокими. Но на самом деле всё может быть совсем не так, а может и с точностью до наоборот: возможно, жестоким детям просто нравится смотреть телевизор больше, чем нежестоким.
Ещё один пример – вши[29]. Сейчас мы осознаём, что вши – это опасные существа, разносящие опасные заболевания, но наши предки из средневековой Европы очень удивились бы такому повороту событий. Европейские аристократы наряду с прочими правилами этикета изучали также правильные по этикету способы избавления от вшей. Многие считали, что вши и вовсе оказывают положительное влияние на здоровье человека, так как у больных людей этих паразитов обнаруживали реже. Предполагали, что болезнь приходила тогда, когда человек избавлялся от вшей, но на самом же деле эти членистоногие просто очень чувствительны к температуре. Таким образом, корреляция «больше вшей – здоровее человек» никак не поможет нам установить причинно-следственную связь, а, может, даже и натолкнёт на неправильные выводы о том, что вши полезны для здоровья.
Непараметрические методы
Мы уже примерно поняли, когда нужно использовать параметрические методы. Чем же отличаются от них непараметрические? Например, вам нужно исследовать какой-то признак, который нельзя описать числами, какой-нибудь цвет или признак, который подразумевает дихотомичный ответ «да-нет». Подробнее мы остановимся на критерии Манна-Уитни и его многомерном расширении – критерии Краскела-Уоллиса. Интересно в этих методах то, что они являются ранговыми. Это означает, что каждому результату присваивается определённый «ранг». В итоге мы можем сказать о любых двух значениях только то, что одно из них больше или меньше другого,