Иногда трудно понять, какая статистика заслуживает доверия. Но нам не следует сбрасывать статистику со счетов — вместо этого мы должны научиться понимать, что она означает. Мона Чалаби делится советами, которые помогут исследовать и интерпретировать числа и по-настоящему понять, о чём они говорят.

Сегодня я расскажу вам о статистике. Если вы сразу же насторожились, это нормально, вы вряд ли выглядите сумасшедшим сторонником теории заговора, скорее, просто скептиком.Когда речь заходит о цифрах, особенно сейчас, нужно быть скептиком. Но вы также должны понимать, каким цифрам стóит доверять, а каким — нет. Сегодня я хочу дать вам несколько советов, как в этом разбираться. Но сначала хочу просто пояснить, о каких цифрах я веду речь. Речь не о таких утверждениях, как «9 из 10 женщин рекомендуют этот крем от морщин». Думаю, многие из нас не раз закатывали глаза, видя такие цифры. Разница в том, что сегодня люди ставят под сомнение такую статистику: «Уровень безработицы в США — 5%». Отличает это утверждение то, что исходит оно не от частной компании, а от правительства.

 

Около 4 из 10 американцев не верят экономическим показателям, о которых говорит правительство. Среди сторонников президента Трампа таких и того больше: приблизительно 7 из 10. Нет нужды объяснять вам, что сегодня в нашем обществе много разграничительных линий, и многие из них приобретают смысл, когда вы понимаете отношение людей к этим данным правительства. С одной стороны, найдутся те, кто скажет, что эта статистика важна,что она нужна, чтобы иметь представление об обществе в целом, а не судить только по чужим байкам, и оценивать прогресс объективно. Найдутся и те, кто скажет, что статистика элитарна,возможно, даже сфальсифицирована, она бессмысленна и на самом деле не отражает, что происходит в жизни общества.

Похоже, что вторая группа выигрывает спор прямо сейчас. Мы живем в мире альтернативных фактов, где люди не принимают статистику за некоего рода общий язык, отправную точку для дискуссии. В этом и проблема. Уже сейчас в США проводятся акции, призывающие избавиться от некоторых правительственных данных. Сейчас в Конгрессе есть законопроект об измерении расового неравенства. В законопроекте говорится, что государственные деньги не должны использоваться для изучения расовой сегрегации. Это полная катастрофа. Если не использовать эти данные, как мы узнаем о дискриминации, не говоря уже об исправлении ситуации? Другими словами: как правительство может вести честную политику, если оно не может подсчитать степень нечестности? Речь не только о дискриминации, а обо всём — задумайтесь об этом. Как принимать законы о здравоохранении, без достоверных данных о здоровье или нищете? Как участвовать в дебатах об иммиграции, если нельзя определить,сколько людей въезжают в страну и уезжают из неё? Статистика идёт от государства, statum на латыни, отсюда и название. Смысл в том, что чтобы лучше служить народу, надо лучше его узнать. Нам нужны эти цифры от государства, но мы должны двигаться дальше, не принимая их слепо и не отвергая не глядя. Нужно получить некоторые навыки, чтобы определять плохую статистику.

ВЫБОР FST. 12 МАЯ 2017

 

В день публикуются тысячи статей. 99,9% — это вода. Найти стоящие тексты займет у вас часы. FST отбирает для вас 0,1% жемчужин. Только умные материалы, лонгриды, обзоры, интервью. Мы экономим ваше время, расширяем кругозор, обращаем внимание на идеи, которые могут изменить жизнь, работу, бизнес.

Я начала этим заниматься, когда работала в департаменте статистики Организации Объединённых Наций. Работа заключалась в том, чтобы выяснить, сколько иракцев были вынуждены покинуть свои дома из-за войны, и как им помочь. Это важная работа, и она была невероятно тяжёлой. Каждый день мы принимали решения, которые влияли на точность наших данных, например, в какие регионы страны нужно ехать, с кем общаться, какие вопросы задавать. И я начала разочаровываться в своей работе. Потому что мы думали, что делаем реально хорошую работу, но единственными, кто действительно мог бы её оценить, были иракцы, а у них было мало шансов познакомиться с нашим анализом или задать вопросы. И я отчётливо поняла, что единственный способ сделать данные точнее — опрашивать как можно бóльшее число людей.

Я стала журналистом данных. Моя работа в том, чтобы находить данные и делиться ими с публикой. Любой это может, необязательно быть компьютерщиком или «ботаником». Не обращайте внимание на эти слова: их говорят люди, пытающиеся сказать, что они умные, притворяясь скромными. Абсолютно каждый это может.

Хочу дать вам три вопроса, которые помогут определить плохую статистику. Вопрос №1: видите ли вы неопределённость? Одна вещь, которая меняет отношение людей к данным и даже их доверие к СМИ, — это использование политических опросов. У меня лично много к ним претензий, потому что я считаю, что роль журналистов — сообщать факты, а не пытаться их предсказывать, особенно когда эти предсказания наносят вред демократии, говоря людям: даже не думайте голосовать за того парня, у него нет шансов. Давайте пока оставим это и поговорим о точности этих усилий.

Присоединяйся к FastSaltTimes в Facebook, Вконтакте, Телеграм, Twitter

 

Если исходить из выборов в Великобритании, Италии, Израиле и, конечно, недавних президентских выборов в США, использование опросов для предсказания итогов — это всё равно что предсказание по Луне количества случаев попадания в больницу. Серьёзно, я основывалась на научных данных для составления этого графика. Есть множество причин того, что прогнозы стали такими неточными. Наше общество стало очень разнообразным, поэтому социологам трудно получить действительно репрезентативную выборку населения для участия в опросах. Люди очень неохотно отвечают социологам по телефону, и что самое удивительное — могут лгать. Но вы не всегда об этом знаете, когда смотрите СМИ. Скажу одно: вероятность победы Хиллари Клинтон была установлена с точностью до десятичной дроби. Десятичные дроби не используются даже для обозначения температуры. Скажите, как можно с такой точностью предугадать поведение 230 миллионов жителей?! А тогда были такие гладкие графики. Большое количество визуальных данных повышает убедительность, и это работает:эти графики блокируют наше критическое мышление. Когда вы слышите статистику, вы проявите скептицизм. Как только данные приобретают форму графика, они становятся непреложной истиной, но это не так.

Поэтому я пыталась как можно понятнее объяснить людям, что наши данные неточны. Я начала с того, что брала реальные данные и визуализировала их вручную, чтобы люди могли увидеть их неточность, чтобы поняли, что это сделал человек, человек их нашёл и визуализировал. Так, вместо выяснения вероятности заболевания гриппом в определённый месяц, можно увидеть приблизительное распространение сезона гриппа. Это... неподходящая картинка для февраля. Но эта визуализация также более ответственна, потому что, если бы вы показали точную вероятность, это могло бы заставить людей сделать прививки от гриппа в неподходящий момент.

Смысл этих кривых линий в том, чтобы люди помнили о неточностях, а также о том, что необязательно запоминать точное число, можно запоминать важные факты. То, что несправедливость и неравенство сильно влияют на нашу жизнь. Факты о том, что продолжительность жизни у афроамериканцев и коренных американцев короче, чем у людей других рас, и в ближайшем времени это не изменится. Факты о том, что заключенных в США могут держать в одиночных камерах, размер которых не больше размера парковочного места.

Эти визуальные образы также должны напоминать людям о некоторых очень важных статистических понятиях, например, о средних величинах. Предположим, вы слышите это: «В среднем бассейне в США происходит 6,23 происшествия с фекалиями». Это не означает, что каждый бассейн в стране содержит 6,23 какашки. Чтобы это показать, обратимся к первоначальным данным Центра контроля заболеваний, который обследовал 47 заведений с бассейнами. И я просто один вечер перераспределяла экскременты. Вы можете видеть, сколь ошибочны бывают средние показатели.

Хорошо. И второй вопрос, который вы должны задать, определяя неверные цифры: вижу ли я себя в этих данных? В некотором смысле это тоже касается средних величин, потому что одна из причин разочарования людей в общенациональной статистике — это то, что она не рассказывает, кто выигрывает и кто проигрывает от национальной политики. Легко понять, почему людей разочаровывают глобальные средние показатели, когда они не соответствуют их личному опыту. Я хотела показать людям, как данные влияют на их каждодневную жизнь. Я начала с колонки под названием «Дорогая Мона», в которой люди задают мне вопросы и пишут о проблемах, а я пытаюсь им ответить, используя данные. Спрашивали о чём угодно.Например: «Нормально ли спать с женой в разных кроватях?» «Жалеют ли люди о своих тату?»«Что значит — умереть по естественным причинам?»

Все эти вопросы важны, потому что они заставляют задуматься о том, как найти и интерпретировать эти данные. Если кто-нибудь спросит вас: «Сколько мочи — много?», такой вопрос я однажды получила, вы должны быть уверены, что визуализация будет понятна как можно большему числу людей. Эти данные вполне доступны. Иногда они спрятаны в приложениях какого-нибудь научного исследования. И уж точно они вполне постижимы. Если вы действительно хотите протестировать объём мочи, можете взять бутылку и проверить самостоятельно.

Суть в том, что нет необходимости каждый набор данных соотносить лично с собой. Меня интересует, скольким женщинам во Франции выписали штрафы за ношение на лице никаба,даже если я не живу во Франции или не ношу никаб. Смысл вопроса о своём месте в том, чтобы собрать больше сопутствующих фактов. В том, чтобы более широко посмотреть на данные, например, на уровень безработицы в 5%, и узнать, как эти данные меняются со временем или в зависимости от уровня образования — вот почему ваши родители хотели, чтобы вы поступили в колледж, — или как они меняются в зависимости от пола. В наши дни уровень безработицы среди мужчин выше, чем среди женщин. До начала 80-х годов было с точностью до наоборот. Это история об одной из величайших перемен в американском обществе, которую можно увидеть на графике, если смотреть не только на средние значения.Оси значат много, стоит изменить шкалу, и вы поменяете всю историю.

Наконец, я хочу, чтобы вы задумались над вопросом №3, когда будете смотреть на статистику:как эти данные были получены? До сих пор я говорила о том, как данные интерпретируются, но то, как они собираются, тоже очень важно. Я знаю, что это тяжело, потому что методики могут быть неясными и даже скучными, но есть некоторые простые способы это проверить.

Приведу недавний пример. Один опрос выявил, что 41% мусульман в этой стране поддерживают джихад, что само по себе ужасно, об этом везде писали в 2015 году. Когда я решила проверить эти данные, я начала с поисков первоначальной анкеты. Выяснилось, что журналисты, составившие отчёт об этой статистике, проигнорировали вопрос в конце списка:как респонденты понимают слово «джихад»? И большинство ответили: «Это личная и мирная борьба мусульман за право соблюдать религию». Только 16% определили его как «жестокую священную войну против неверных». Это на самом деле очень важно: если исходить из тех данных, вполне возможно, что никто из тех, кто назвал джихад насильственной священной войной, не сказал, что поддерживает его. Эти две группы могли вообще не пересекаться.

Стоит также спросить, как проводилось исследование. Это так называемый добровольный опрос, это значит, что любой мог найти анкету в интернете и заполнить. Нет возможности узнать, были ли эти люди на самом деле мусульманами. И наконец, в том опросе участвовало 600 респондентов. По данным исследовательского центра «Пью Ресёрч», в этой стране около трёх миллионов мусульман. Это значит, что в опросе участвовал один из 5 000 мусульман этой страны.

Это одна из причин, почему государственная статистика часто лучше частной. Опрос может проводиться среди 200 человек или 1 000, а если вы из L'Oreal и пытаетесь продать продукты по уходу за кожей в 2005 году, тогда вы попросите 48 женщин сказать, что они работают.

7 КНИГ ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ И РОБОТАХ

У частных компаний интерес не в том, чтобы получить данные правильно, а в том, чтобы получить «правильные данные». Государственные специалисты не такие. По крайней мере, в теории они полностью беспристрастны, не потому, что большинство делают свою работу независимо от того, кто у власти. Они госслужащие. И чтобы делать свою работу добросовестно, они не просто говорят c парой сотен человек. Эти данные по безработице, на которые я ссылаюсь, приходят от Бюро статистики труда, и чтобы их подсчитать, они опрашивают более 140 000 предприятий.

Я понимаю, что это вызывает уныние. Если хотите проверить статистику, исходящую от частной компании, можете купить крем для лица себе и своим друзьям, протестировать его, и если он не работает, можете сказать, что цифры неверны. Но как проверить государственную статистику? Просто продолжайте всё проверять. Узнайте, как собирались данные.Удостоверьтесь, что на графике отражено всё, что нужно. Но не отказывайтесь от цифр совсем, потому что если откажетесь, мы будем вести публичную политику вслепую, так как нами будут руководить только частные интересы.

Читайте также:

КОГДА И КАК ХАКНУТ ВАШУ АЭС? BLACK HAT 2015 В РАЗГАРЕ

 

В МИРЕ ЦРУ И ХАЙТЕКА

 

ФБР ПРОТИВ ПРОГРАММЫ «1000 ТАЛАНТОВ» КИТАЯ