Остановись и подумай: Идеи и стратегии, помогающие принимать верные решения - Джейми Лестер
Шрифт:
Интервал:
Закладка:
Пример из дисциплины: согласно исследованию, те, кто часто едят рыбу, совершают меньше тяжких преступлений. Авторы исследования приходят к выводу, что сам факт рыбной диеты делает людей более миролюбивыми. Но есть и альтернативное объяснение. Рыба – довольно дорогой продукт, значит, ее употребляют в пищу зажиточные граждане. В среднем чем человек богаче, тем он менее склонен к совершению тяжких преступлений.
Пример из жизни: продажи солнцезащитных очков растут в те же дни, что и продажи мороженого. Получается, что те, кому нравится ходить в солнцезащитных очках, также любят мороженое? Или это любители мороженого обожают расхаживать по улице в модных очках? Или же существует другое объяснение этого феномена (например, жаркая, солнечная погода)?
Комментарий: две переменные (или два набора данных), которые изменяются в одном направлении, в статистике называют положительно коррелирующими между собой. Например, если отслеживать потребление ребенком недиетической газировки и образование у него кариеса, можно обнаружить положительную корреляцию между двумя этими событиями: чем больше он пьет газировки, тем сильнее его зубы будут поражены кариесом. В данном случае взаимосвязь событий предельно ясна: в газировке много сахара, а из-за сахара появляется кариес. Это называют причинностью, потому что одна переменная становится причиной возникновения второй. Однако существует множество примеров, в которых причинность не так очевидна (рис. 5.1).
Рис. 5.1. Зависимость не равняется причинности. https://xkcd.com/552/
Те, кто держит дома собак, реже других страдают от разных видов аллергии. Но почему так происходит? Потому, что из-за постоянного контакта с аллергенами организмы хозяев собак начинают слабее на них реагировать, или потому, что аллергики никогда не станут заводить собак?
К сожалению, не всегда получается объяснить существование зависимостей. Переменная A может стать причиной возникновения переменной B, но также и B может породить A, или они обе появятся из-за переменной C или даже целого набора переменных. Именно поэтому неразборчивым или ленивым гораздо легче прийти к выводам, которые больше всего их устраивают. Кроме того, важно помнить и о том, что статистика показывает взаимосвязи, которые на первый взгляд кажутся вполне закономерными, но на самом деле появляются случайно (их называют ложными зависимостями). Если у вас достаточно данных, вы почти всегда сможете выявить среди них статистические зависимости, которые в действительности не имеют никакого смысла. Об этом даже написана книга, в которой приводятся примеры зависимостей вроде той, что указана на рис. 5.2{43}.
Никогда не забывайте, что делать выводы на основании статистики без понимания причинно-следственных связей крайне опасно (особенно когда речь идет о медицине и лекарственных средствах). Это доказывают последние открытия в области искусственного интеллекта и машинного обучения, которые связаны с опасными выводами, сделанными на основе ложных зависимостей{44}.
Упражнения
1. В Средние века люди верили, что вши полезны для здоровья, потому что на больных их находили очень редко. Считалось, что если с человека сбегут вши, он обязательно заболеет. Зная о том, что вши очень чувствительны к температуре тела хозяина, какое объяснение этого феномена можно предложить?
2. Дети, которые спят с включенным светом, во взрослом возрасте гораздо чаще страдают от близорукости. Связана ли близорукость со сном в освещенном помещении?
3. Как выяснилось, высокие продажи мороженого связаны с увеличением числа случаев утопления. Надо ли требовать от властей города запретить продажу мороженого?
Рис. 5.2. Ложная зависимость. https://www.tylervigen.com/spurious-correlations
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬГде используется: статистика.
Суть вкратце: анализ выборки из большого набора данных может привести к правильным выводам, а может и сбить с толку. Если не анализировать каждую частичку информации (это было бы непрактично), то надо быть готовыми к тому, что выборка окажется нерепрезентативной, и тогда любые выводы из нашего анализа будут ошибочными.
Почему это важно: статистика стала неотъемлемой частью повседневного быта. Вот некоторые сферы ее применения: личная жизнь (вопросы здоровья и питания), профессиональная деятельность (здравоохранение, финансы, производство, фундаментальная наука и профессиональный спорт), государственное управление (противоэпидемические мероприятия во время пандемии, например). Статистика выявляет истинные связи между явлениями, но статистическими данными легко манипулировать, чтобы привести кого-либо к заведомо ложным выводам. Следовательно, надо уметь разбираться, когда статистика используется правильно (а значит, имеет значение и вес), а когда – нет.
Пример из дисциплины: на рыбной ферме содержится 100 000 лососей. Работник вылавливает из воды 200 рыбешек, чтобы их взвесить. Затем другие сотрудники фермы вычисляют средний вес этих 200 рыб и пытаются понять, можно ли считать данные об этой группе рыб репрезентативными для всех остальных лососей на ферме (это называют определением доверительного интервала).
Пример из жизни: клинические исследования препарата проводятся на двух группах по 10 человек в каждой. Первой группе дают лекарство, а второй – плацебо. В первой группе от симптомов болезни избавились семь человек, а во второй – пять, но эта разница слишком мала и не может считаться статистически значимой – вероятно, она вообще обусловлена случайными изменениями. Поэтому Управление по санитарному надзору за качеством пищевых продуктов и медикаментов не выдало лицензию на производство этого препарата.
Комментарий: когда речь идет о больших наборах данных, самым понятным статистическим показателем считают среднее значение набора. Размах, или дисперсия, данных (показывает разброс между значениями относительно среднего значения величины) – это уже концепция, которую понять чуть-чуть труднее, но все еще не слишком сложно. Оба этих вида сводной статистики достаточно полезны в быту. Например, с их помощью можно предсказать, что реку со средней глубиной 1,5 м и размахом глубины от 1 до 2 м переходить гораздо безопаснее, чем реку с такой же средней глубиной и размахом глубин от 0,5 до 2,5 м. Оба этих показателя – среднее значение и размах – считаются основами понятия «статистическая значимость».
Зачастую удается собрать лишь небольшую выборку данных (например, во время тестирования лекарства на добровольцах). Именно поэтому важно понимать, можно ли считать показатели этой выборки отражением действительности или нет, – иначе исследование теряет всякий смысл. Благодаря статистике можно взять выборку данных, рассчитать среднее ее значение и размах и сделать вывод о том, насколько эта выборка репрезентативна. Чем больше выборка, тем более показательным будет результат, но на практике сбор большого количества образцов обычно стоит недешево, поэтому с точки зрения экономии небольшие выборки – оптимальный вариант.
Рассчитав среднее значение и дисперсию, можно посчитать доверительный интервал – диапазон значений, в котором наверняка находится искомое истинное значение. Проще говоря, мы не можем быть на все 100 % уверены, что средний вес американского мужчины равен 81 кг. Но зато мы на 99 % уверены, что вес среднего американца находится в диапазоне 79–83 кг, если предполагать, что по нашей выборке данных можно судить обо всем мужском населении США. На графиках такие данные обычно изображаются колоколообразной кривой, а доверительный интервал всегда располагается «под колоколом» (рис. 5.3).
Рассмотрим еще один пример. Надо узнать вес всех собак в США (около 100 млн особей). Мы в случайном порядке обзваниваем ветклиники и приюты для животных, чтобы собрать данные о весе собак, прошедших через эти учреждения. Допустим, нам удалось собрать