Путеводитель по лжи - Дэниел Левитин
Шрифт:
Интервал:
Закладка:
Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода – это то значение, которое встречается чаще всего. Во многих наборах данных – биологических, физических, социальных – у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.
Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y)[23]. Представьте, что вы изучали две группы людей: детей (левый горб) – они покупают школьные обеды – и руководителей компаний (правый горб) – они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае – это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, – ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность – вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.
Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут можно легко наткнуться на определенные подводные камни, которые даже получили собственные названия: «экологическая ошибка» и «ошибка исключения». Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных (таких как средняя величина группы), а ошибка исключения – если делать все ровно наоборот.
Представьте себе, например, два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по 80 тысяч долларов в год, а на земле одной женщины было найдено месторождение нефти, и теперь она одна получает 5 миллионов долларов в год. В городе Б живут 50 человек, которые зарабатывают по 100 тысяч долларов в год, а также 50 человек, которые получают по 140 тысяч долларов. Средний арифметический доход в городе А составляет 129 тысяч долларов, а в городе Б – 120 тысяч долларов. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А. Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то следует ожидать, что и у него доход будет выше. Самое замечательное в этом примере то, что в городе А выше среднее арифметическое, а мода выше в городе B (так бывает не всегда).
Вот еще один пример: считается, что состоятельные люди скорее проголосуют за республиканца, но, как показывает практика, более состоятельные штаты обычно голосуют за демократов. Дело в том, что общая картина благосостояния жителей процветающих штатов может быть немного перекошена из-за суперсостоятельных индивидуумов. Во время президентских выборов 2004 года за кандидата от Республиканской партии Джорджа Буша проголосовали 15 самых бедных штатов, а за кандидата от Демократической партии Джона Керри – девять из 11 самых состоятельных[24]. Если же изучить вопрос более детально, мы увидим, что за Буша отдали голоса 62 % тех, чей годовой доход составляет более 200 тысяч долларов, а за Керри – 36 % голосующих, зарабатывающих в год 15 тысяч долларов или меньше.
Чтобы понять, что такое ошибка исключения, давайте представим себе: вы прочли, что машины марки Volvo считаются самыми надежными, и решили купить такой автомобиль. По дороге в офис этой компании вы проходите мимо механика Volvo и парковки, заполненной машинами этой марки, которые ждут, пока их отремонтируют. Если вы измените свое решение о покупке машины этой марки, основываясь на том, что только что увидели, значит, вы по небольшому числу исключительных данных формируете выводы о целой группе. Никто ведь не говорил, что Volvo вообще не нуждается в ремонте, – скорее речь шла о следующем: вероятность того, что им может понадобиться техническая поддержка, гораздо меньше (отсюда и набившее оскомину предупреждение, которым заканчивается любой рекламный ролик, что «каждая машина индивидуальна»). Обратите внимание, что на вас оказывают огромное влияние и другим образом: единственное место, где должны стоять машины Volvo, требующие ремонта, – автосервис Volvo. Ваш «базовый показатель» сдвинулся, и вы не можете уже считать этот пример случайным.
Сейчас, когда вы уже эксперт по средним, вас не удивит заявление, что 100 лет назад наши предки жили меньше, чем мы сегодня. Возможно, вы читали, что продолжительность жизни в наше время сильно увеличилась. Продолжительность жизни тех, кто родился в 1850 году, была 38 лет для мужчин и 40 для женщин, а у тех, кто родился в 1990-м, она составляет 72 года и 79 лет соответственно[25]. Таким образом, возникает распространенное заблуждение, что в XIX веке было не так много людей в возрасте 50 и 60 лет, потому что они просто не доживали до этого возраста. На самом деле, конечно, доживали – просто детская смертность была такой высокой, что смещала средний показатель. Если человеку удавалось преодолеть возрастной рубеж в 20 лет, то жил он долго. В 1850 году 50-летняя белая женщина могла бы дожить до 73 с половиной лет, а женщина 60 лет – и до 77. По сравнению с 1850-ми годами сейчас продолжительность жизни 50- и 60-летних значительно увеличилась, лет на десять, и произошло это во многом благодаря более качественному здравоохранению.
Конец ознакомительного фрагмента.
Сноски
1
Дезинформация известна человечеству на протяжении тысячелетий… – Авраам специально дезинформировал правителя Авимелеха, говоря о своей жене Сарре, чтобы защитить себя. Троянский конь тоже был своего рода дезинформацией: он появился как подарок, но внутри сидели воины противника.
2
…научитесь распознавать неправду. – По мотивам книги Д. Хаффа (1954/1993) How to Lie with Statistics[268]. New York: W.W. Norton, p. 19. И, как вы узнаете дальше, он, вероятно, вторит Марку Твену, или Джошу Биллингсу, или Уиллу Роджерсу, а может, и еще кому-нибудь.
3
Люди выбирают, что считать… – практически прямая цитата из Best, J. (2005). Lies, calculations and constructions: beyond How to Lie with Statistics. Statistical Science, 20(3), 210–214.
4
Людей с мобильными телефонами больше, чем тех, у кого есть туалет. – Wang, Y. (2013, 25 марта). More people have cell phones than toilets. По материалам исследований ООН. http://newsfeed.time.com/2013/03/25/more-people-have-cell-phones-than-toilets-u-n-study-shows/.
5
Каждый год в США от анорексии умирает 150 тысяч девушек и молодых женщин. – Steinem, G. (1992). Revolution from Within. New York: Little, Brown. Wolf, N. (1991). The Beauty Myth. New York: William Morrow.
6
Добавьте сюда женщин от 25 до 45 – показатель все равно достигнет только 55 тысяч. – Этот пример зацепил меня, когда я читал Best, J. (2005). Lies, calculations and constructions: beyond How to Lie with Statistics, 20(3), 210–214. Статистику можно посмотреть на сайте www.cdc.gov.
7
Количество случаев смерти от анорексии за год не может превышать в три раза количество всех смертей. – Возможно, вы работаете в бухгалтерии крупной компании. Один из сотрудников потребовал возместить ему расходы на покупку бензина для служебной машины, 5 тысяч долларов за апрель. Призовите на выручку свой жизненный опыт: на сегодняшний день многие машины могут проехать более 70 километров на 10 литрах топлива (а то и в несколько раз больше). Кроме того, вы знаете, что максимально разрешенная скорость 100 км/час, и если бы вам приходилось быть за рулем по десять часов в день, вы бы проезжали 1000 километров. Умножьте это число на стандартный месяц, состоящий из 21,5 рабочего дня, – и вы получите 21 500 километров. Когда речь идет о приблизительных подсчетах, обычно используют круглые числа, чтобы было легче, поэтому давайте считать, что это 21 тысяча километров. Поделите это на расход топлива в 7 км/л – и, если грубо, вашему сотруднику понадобилось бы 3 тысячи литров топлива. Вы выясняете среднюю цену на бензин по стране в апреле – это 0,64 доллара за литр. Ну давайте скажем, что 3 литра можно купить на 2 доллара (снова округляем и при этом даем вашему сотруднику презумпцию невиновности – ему ведь могло и не посчастливиться заправляться по самой лучшей цене). Итак, если 3 литра можно купить на 2 доллара, то на 3 тысячи литров потребуется 2 тысячи долларов. Расходы в количестве 5 тысяч долларов в отчете о расходах теперь даже отдаленно не выглядят правдоподобными. Даже если бы ваш сотрудник проводил за рулем по 20 часов в день, расходы не были бы такими высокими. https://www.fueleconomy.gov/feg/best/bestworstNF.shtml, на 1 августа 2015 г.