Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
Шрифт:
Интервал:
Закладка:
Вацлав Гавел представляет собой иной тип знаменитости. Он был тихим драматургом, который увел Чехословакию прочь от коммунизма, во времена «бархатной революции». Через четыре года он возглавил процесс мирного разделения Чешской и Словацкой республик. Гавел – одна из самых знаменитых политических и литературных фигур XX века.
Оба они входят в число 10 людей, родившихся в 1936 году и обладающих самым высоким уровнем «флавы». При этом ни один из них не занимает лидирующей позиции. Кто же оказался человеком с наибольшим показателем «флавы» из родившихся в 1936 году? Женщина по имени Кэрол Гиллиган[124].
Гиллиган – психолог и знаменитая феминистка, которая после проведения своих революционных исследований стала преподавать в Гарварде, Кембридже, а теперь еще и в Университете Нью-Йорка. Как и Пинкер, она входит в список самых влиятельных американцев, составленный журналом Time. Кэрол – настоящая интеллектуальная суперзвезда. И книг с упоминанием Кэрол Гиллиган написано много, значительно больше, чем о Вацлаве Гавеле или Роберте Рэдфорде. Если бы «флава» и слава были одним и тем же, то именно эта ученая дама была бы самым прославленным представителем своего поколения.
Но давайте будем реалистами. Кэрол Гиллиган знаменита не больше, чем Роберт Рэдфорд. О ней больше говорят в книгах, поскольку она представляет тип личности, интересный для создателей книг, – научная знаменитость и социальный критик. Однако она совсем не тот человек, события из жизни которого могли бы ежедневно освещаться в прессе. Ее портрет вряд ли будет висеть на рекламных щитах, и перед ней вряд ли будут преклоняться девочки-подростки.
Проблема состоит в том, что «флава» не отражает более масштабную картину. Если бы мы приняли во внимание упоминания в выпусках телевизионных новостей, рассказы в таблоидах и на интернет-сайтах, посвященных знаменитостям, или беседы в офисах во время перекуров, то было бы очевидно, что Гавел и Рэдфорд смогут затмить Гиллиган, причем с большим перевесом. Гиллиган занимает лидирующие позиции благодаря тому, что статистики называют ошибкой выборки, – аспект культуры, который мы измеряем с помощью «флавы», дает ей несправедливое преимущество. Это не подлинная слава.
Наша аэродинамическая труба не лишена своих недостатков. Однако они не уникальны. Они вполне вписываются в классическую ошибку, присущую любым измерительным инструментам, с которой ученые и статистики имели дело в течение десятилетий. Помня об этом несовершенстве, мы наверняка сможем разработать более качественные инструменты в будущем.
Связь между «флавой» и подлинной славой отлично иллюстрирует наш общий подход. Привычное для повседневной жизни понятие славы слишком сложно и слишком неточно, чтобы подчиняться количественному анализу. Поэтому мы ищем что-то, что можем измерить (например, «флаву»), и стараемся оставаться максимально близко к изначальной концепции. Результатом становится компромисс – мы создаем своего рода имитатора знаменитости, которого используем в роли подопытного кролика и подвергаем тщательно продуманным экспериментам. Как только в нашем распоряжении появятся более обширные массивы данных, включающие информацию из таблоидов, журналов и научных статей, измеряемая нами «флава» станет уже ненужной и вместо нее будут использоваться более изощренные альтернативы. Аэродинамическая труба Райтов не выдерживает никакого сравнения с турбинами LenSx, создающими поток ветра со скоростью 30 М для тестирования новых космических аппаратов.
Но пока что «флава» вполне подходит для наших целей. И теперь для упрощения давайте больше не будем говорить об этом различии, а станем просто использовать в дальнейшем рассказе слово «слава», ведь «почти знаменитый» – это «достаточно знаменитый».
Итак, что же мы, вооружившиеся новой аэродинамической трубой, можем узнать об аэродинамике взлета личности и механике приземления обратно?
Слава как болезнь
Начав изучать славу с помощью данных n-грамов, мы быстро поняли, что каждая история отличалась от других. Мы попытались найти общие закономерности, однако результаты оказывались довольно противоречивыми и не поддающимися объяснению. По сути, мы просто застряли в бездонной яме с данными.
Чтобы понять, почему это произошло, нам нужно совершить путешествие во времени в 1930 год и попасть в небольшой норвежский городок под названием Кристиансанн. Живший там доктор по имени Кристиан Андворд пытался победить эпидемию, преследовавшую его пациентов и всю страну в целом. Андворд изучал туберкулез, от которого Норвегия страдала в невиданных для наших дней масштабах. К примеру, в норвежском городе Тронхейм более 1% детей, родившихся между 1887 и 1891 годами, умерло от туберкулеза на первом же году жизни. Туберкулез стал причиной смерти половины детей в возрасте между 11 и 15 годами.
При этом стала заметной довольно примечательная тенденция. От десятилетия к десятилетию средний возраст жертв туберкулеза в Норвегии увеличивался. В чем же была причина?
У Андворда (или, по другой версии, у работавшей с ним медсестры) возникла идея. Вместо того чтобы изучать протекание болезни по всей совокупности населения, он разбил его на «когорты», то есть группы людей, родившихся примерно в одно время[125]. Преимущество этого подхода состояло в том, что, учитывая год рождения, Андворду легче было отсекать различные вводящие в заблуждение факторы, такие как голод, от которого могло страдать лишь одно поколение детей. Основной недостаток этого подхода состоял в том, что он требовал значительно большего объема данных, чем те, которые можно было собрать в небольшом городке Кристиансанн.
Андворд, как и Ципф, отправился на поиски данных. К счастью для него и всей истории медицины, норвежское правительство прилагало серьезные усилия для ведения статистики по смертности. Андворд смог получить правительственные данные, охватывавшие период с 1896 по 1927 годы. Он дополнил результаты по Норвегии массивами данных из Англии, Уэльса, Дании и Швеции. Вооружившись всей этой информацией, Андворд стал задавать простые вопросы, волновавшие его прежде, и получать на них ответы. Например, в каком возрасте чаще умирали от туберкулеза люди, родившиеся в 1900 году (когорта 1900 года)? Как это соотносилось с данными когорты 1910 или 1920 года?
Полученные им ответы поражали. Судя по ним, жертвы заболевания могли (вне зависимости от своего года рождения) столкнуться с туберкулезом в возрасте между 5 и 14 годами или в период от 20 до 24 лет. Проведенный Андвордом анализ когорт показал, что туберкулез – это прежде всего болезнь молодых.
(adsbygoogle = window.adsbygoogle || []).push({});