Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт

Текст
Читать фрагмент
Отметить прочитанной
Как читать книгу после покупки
Шрифт:Меньше АаБольше Аа
Анализ реальной ситуации: показатели заболеваемости раком почки

Самые высокие показатели заболеваемости раком почки в США, измеряемые как число случаев на 100 000 человек, наблюдаются в сельских округах, разбросанных по Среднему Западу, Южному и Западному регионам страны.

Остановитесь на мгновение и подумайте, чем это обусловлено.

Вы можете подумать, что жители сельской местности не имеют доступа к качественному медицинскому обслуживанию. Или, может быть, это результат нездорового образа жизни, диеты с высоким содержанием мяса, соли и жира или злоупотребления алкоголем. На самом деле строить предположения на основе фактов вполне естественно. Вы уже наверняка представляете, как исследователи начинают разрабатывать меры, необходимые для решения этой проблемы.

Однако есть еще один факт: самые низкие показатели заболеваемости раком почки в Соединенных Штатах также отмечаются в сельских округах, находящихся на Среднем Западе, а также в Южном и Западном регионах страны, которые часто соседствуют с округами с самыми высокими показателями заболеваемости[19].

Как такое может быть? Как в двух городах с похожей демографией могут наблюдаться столь разные результаты? Любая причина, которую вы могли бы предложить для объяснения высокого уровня заболеваемости раком почки в сельских округах, наверняка (в некоторой степени) применима и к соседним округам. Значит, дело в чем-то еще.

Возьмем два соседних сельских округа на Среднем Западе, округ А и округ Б, и предположим, что в каждом из них проживает всего 1000 жителей. Если в округе А отсутствуют случаи заболевания, то соответствующий уровень будет равен 0, а значит, этот округ будет относиться к категории с самым низким уровнем заболеваемости. Но если в округе Б есть хотя бы один случай заболевания раком почки, то соответствующий уровень там будет составлять 100 случаев на 100 000 жителей, что является самым высоким показателем в стране. Именно низкая численность населения в подобных округах обусловливает вариацию, которая одновременно приводит к самым высоким и самым низким показателям заболеваемости. И наоборот, один дополнительный случай заболевания в округе Нью-Йорк (в который входит Манхэттен) с населением более 1,5 миллиона человек вряд ли может повлиять на этот показатель. Увеличение количества случаев с 75 до 76 изменило бы число случаев на 100 000 человек с 5 на 5,07.

Рис. 3.2. График из статьи в журнале American Scientist


Все эти результаты реальны и взяты из статьи в журнале American Scientist под названием «The Most Dangerous Equation» («Самое опасное уравнение»)[20]. Результаты измерения уровня заболеваемости в разных округах США показаны на рис. 3.2. Малонаселенные округа в левой части графика демонстрируют гораздо более высокую вариацию уровня заболеваемости раком – от 0 до 20 (самый высокий показатель в стране). По мере движения слева направо с ростом численности населения вариация уменьшается, что придает графику треугольную форму. В правой части вариация совсем небольшая. Это значит, что в густонаселенных округах уровень заболеваемости стабилизируется у отметки 5 случаев на 100 000 человек и практически не меняется при выявлении дополнительных случаев.

В этой же статье приводятся и другие примеры того, как небольшие числа приводят к большой вариации. Например, были бы вы удивлены, узнав о том, что маленькие школы демонстрируют как лучшие, так и худшие результаты тестов? Один или два ученика, провалившие экзамен, могут очень сильно повлиять на общий процент. Экстремальные результаты часто обусловливаются именно небольшими числами.

Вероятности и статистика

В нескольких предыдущих разделах мы говорили о вариации и о том, что она – источник неопределенности для многих бизнесов. Однако неопределенностью можно управлять, и именно здесь в игру вступают вероятность и статистика.

При описании математики, лежащей в основе результатов, мы часто используем термины «вероятность» и «статистика» как взаимозаменяемые. Давайте немного глубже разберемся в этих понятиях, чтобы по-настоящему осознать разницу между ними.

Представьте большой мешок со стеклянными шариками. Вы не знаете, какого они цвета. Вы не знаете ни их формы, ни размера. Вы даже не знаете, сколько их. Вы опускаете руку в мешок и вслепую берете горсть шариков.

Давайте остановимся на мгновение. У вас есть мешок, в который вы не заглядывали, и горсть стеклянных шариков в руке, которые вы никогда не видели. У вас нет никакой информации о том, что находится у вас в руке или в мешке.

И вот в чем разница. Теория вероятности позволяет вам угадать, что находится у вас в руке, если вам точно известно содержимое мешка. А статистика позволяет вам узнать о содержимом мешка на основании того, что оказалось у вас в руке.

Теория вероятности позволяет двигаться от общего к частному, а статистика – от частного к общему. Надеемся, так понятнее.

А теперь давайте рассмотрим два примера из реальной жизни.


– В основе работы казино Лас-Вегаса лежит вероятность. Каждый раз, когда вы играете в азартные игры, вы вытаскиваете из принадлежащего казино мешка шарики, которые являются либо выигрышами, либо проигрышами. Количество выигрышных шариков в этом мешке достаточно ровно для того, чтобы вы не утратили интерес к игре. Владельцы казино хорошо понимают суть вариации; более того, они ее коммерциализировали, оптимизировав выигрыши и проигрыши, чтобы поддерживать в вас определенный уровень интереса и возбуждения. Однако владельцы точно знают, что в долгосрочной перспективе казино окажется в выигрыше: именно они создали мешок, из которого игроки достают шарики, поэтому они точно знают, что внутри. Когда вы делаете ставку, кладете фишку на стол или дергаете за рычаг игрового автомата, казино точно знает вероятность вашего выигрыша. Если вы подумаете о том, каким количеством данных располагает казино, вы поймете, что они буквально живут в мире вариаций и при этом имеют четкое представление о возможных результатах.

– В основе политических опросов лежит статистика. В случае с казино содержимое мешка с шариками тщательно продумано, и из него постоянно делается выборка. Что касается выборов, то политики не знают, что на самом деле находится внутри всего мешка, вплоть до дня голосования, когда все шарики (то есть голоса) вытаскиваются наружу[21]. Только тогда политики могут узнать, что в мешке, и достаточно ли в нем выигрышных для них шариков. До выборов политики и политические партии имеют доступ лишь к небольшому набору случайных шариков (результатов опросов), и за этот доступ они платят огромные деньги. На основании анализа результатов опросов они делают выводы о закономерностях распределения шариков внутри мешка и соответственно корректируют свои предвыборные кампании. Поскольку их информация является неполной (и поскольку они часто допускают предвзятость и ошибки), они не всегда правильно ее понимают. Но когда им это удается, полученный результат определяет разницу между их победой и поражением на выборах.


Некоторые важные концепции теории вероятности и статистики мы кратко рассмотрим в следующих разделах.

Вероятность и интуиция

Ранее в этой главе мы говорили о том, что случайная вариация не поддается контролю. Однако ее можно измерить, и теория вероятности дает нам для этого инструменты.

Иногда вероятности для нас вполне понятны. Если вы бросили честный кубик, то вы знаете, какова вероятность выпадения того или иного числа (1 из 6) или буквы (1 из 4). При игре в простые азартные игры вероятности кажутся нам интуитивно понятными. Однако это интуитивное понимание зачастую скрывает сложность, лежащую в основе этих вероятностей. Например, рекламные ролики часто апеллируют к простым вероятностям, сводя их к тому, что кажется нам интуитивно понятным.


Табл. 3.1. Вероятность того, что стоматологи согласятся с рекламным утверждением


Вы наверняка видели рекламные ролики, в которых говорилось что-то вроде: «4 из 5 стоматологов согласны» с рекламным утверждением X (X может быть чем угодно, начиная с того, что жевательная резинка снижает риск развития кариеса, и заканчивая тем, что пищевая сода отбеливает зубы).

 

Теперь предположим, что перед вами сидят пять стоматологов. Если вы знаете, что 80 % всех стоматологов согласны с утверждением Х, насколько вероятно, что с ним согласны ровно четыре из пяти сидящих перед вами стоматологов?[22] 100 %, 90 % или 80 %?

На самом деле ответ равен 41 %.

Интуитивно он может показаться слишком маленьким, но он правильный. Давайте разберемся, почему. Таблица 3.1 отражает одну из комбинаций ответов пяти стоматологов на вопрос о том, согласны ли они с утверждением X.


Вероятность такой комбинации = 0,8 × 0,8 × 0,8 × 0,8 × 0,2 = 0,08192


Или, если кратко,

p = 0,84 × 0,2 = 0,08192


Однако ответ «Нет», показанный в табл. 3.2, может быть дан пятью разными стоматологами, поэтому существуют пять комбинаций ответов.

Таким образом, мы должны умножить исходную вероятность на пять: 0,08192 × 5 = 0,4096, что примерно равно 41 %.

Мы знаем, что с утверждением X соглашаются в среднем четверо из пяти стоматологов, но это не гарантирует того, что такой результат будет наблюдаться в каждой выборке, состоящей из пяти стоматологов. Вернемся к нашей аналогии с шариками. Если 80 % шариков в мешке соответствует ответу «да», а 20 % – ответу «нет», то иногда все пять шариков, оказавшихся у вас в руке, будут соответствовать положительному ответу, а в очень редких случаях – отрицательному. (Так проявляется вариация.)

Мы привели этот пример, чтобы еще раз подчеркнуть то, что люди часто недооценивают значение вариации, особенно когда имеют дело с небольшими числами. Их ожидания, основанные на интуиции, редко совпадают с реальными результатами расчета вероятностей. Недооценка вариации заставляет людей переоценивать свою уверенность в тех случаях, когда они имеют дело с небольшими значениями. Эта «склонность преувеличивать вероятность того, что малая выборка точно отражает свойства генеральной совокупности»[23] получила название «закона малых чисел».

Мыслить статистически, как и подобает главному по данным, значит помнить о том, что интуиция может сыграть с нами злую шутку. Мы рассмотрим еще несколько подобных примеров и заблуждений в следующих главах.


Табл. 3.2. Возможные комбинации из пяти стоматологов, среди которых четверо согласны с рекламным утверждением

Открытия с помощью статистики

Статистика часто делится на описательную и индуктивную. Скорее всего, вы уже знакомы с описательной статистикой, даже если не используете это выражение. Описательная статистика – это числа, обобщающие некие данные, значения, которые вы видите в газете или на проекционном экране в офисе. Средние объемы продаж за последний квартал, рост по сравнению с прошлым годом, уровень безработицы и так далее. Такие показатели, как среднее значение, медиана, размах, дисперсия и стандартное отклонение, относятся к описательной статистике, и для их расчета требуются специальные формулы, которые во множестве встречаются в соответствующих учебниках.

Описательная статистика предполагает преднамеренное упрощение данных и позволяет, например, свести всю электронную таблицу с данными о продажах компании в несколько ключевых показателей. В аналогии с шариками описательная статистика предполагает простое суммирование шариков, оказавшихся в вашей руке.

Несмотря на полезность этой операции, мы редко на ней останавливаемся. Мы хотим сделать дополнительный шаг и понять, как мы можем сделать предположение о содержимом мешка на основании информации о шариках, оказавшихся в нашей руке. В этом заключается суть индуктивной статистики, которая позволяет «перейти от мира к данным, а затем от данных обратно к миру»[24]. (Подробнее об этом мы поговорим в главе 7.)

А пока давайте рассмотрим пример. Представьте, как бы вы отреагировали на заголовок «75 % американцев верят в существование НЛО!», зная о том, что этот результат был получен в ходе опроса 20 посетителей Международного музея и исследовательского центра НЛО в Розуэлле, штат Нью-Мексико. Как вы думаете, можно ли на основе подобного исследования сделать вывод об истинном проценте американцев, верящих в НЛО?

Главный по данным отнесся бы к такому результату весьма скептически, поскольку в данном случае показатель 75 % основан на:


– Предвзятой выборке. Люди, посещающие Розуэлл, с гораздо большей вероятностью верят в НЛО, чем среднестатистические жители США.

– Небольшой выборке. Вы уже знаете, какая значительная вариация может наблюдаться в выборке небольших размеров. Нет смысла делать выводы о том, что думают миллионы, на основе мнений 20 человек.

– Основополагающих допущениях. В заголовке говорится о том, что «американцы» верят в НЛО просто потому, что опрос был проведен в Америке. Однако данный музей – международная достопримечательность. Вы не можете быть уверены в том, что участники опроса были американцами.


Такие понятия, как предвзятость и размер выборки, – инструменты статистического вывода, помогающие нам понять, заслуживают ли доверия те статистические данные, которые мы видим или получаем в результате вычисления. Они – важная часть нашего инструментария. Основополагающие допущения также важно учитывать. Если вы хотите мыслить как главный по данным, не стоит принимать за чистую монету допущения, лежащие в основе высказанного вывода.

Сталкиваясь с какими-либо данными в своей работе, старайтесь не принимать предложенную информацию на веру и не прислушиваться к собственной интуиции.

Думайте статистически. Задавайте вопросы. Именно это делают главные по данным. В следующих главах вы найдете вопросы, которые помогут вам освоить статистический образ мышления.

Ресурсы для освоения статистического образа мышления

Ранее в этой главе мы сказали о том, что в ходе дальнейшего обсуждения статистического мышления мы собираемся лишь коснуться поверхности. К счастью, есть несколько отличных книг, в которых эта тема рассматривается более подробно. Больше всего нам нравятся следующие:

• «Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists», Joel Best (University of California Press, 2001);

• «Как не ошибаться. Сила математического мышления», Джордан Элленберг (Издательство: Манн, Иванов и Фербер, 2021);

• «Как лгать при помощи статистики», Дарелл Хафф (Издательство: Альпина Паблишер, 2015);

• «Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022);

• «Proofiness: How You’re Being Fooled by the Numbers», Charles Seife (Penguin Books, 1994);

• «(Не)совершенная случайность. Как случай управляет нашей жизнью», Леонард Млодинов (Издательство: Livebook, 2021);

• «Сигнал и Шум. Почему одни прогнозы сбываются, а другие – нет», Нейт Сильвер (Издательство: КоЛибри, 2016);

• «Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

Подведение итогов

В этой главе мы заложили основы для освоения статистического образа мышления, от которых будем отталкиваться в следующих главах книги.

В частности, мы поговорили о важности вариаций и понимания их существования в контексте измеряемых нами вещей. Мы показали, что результаты опросов клиентов могут иметь широкий разброс не потому, что обслуживание было плохим (хотя и это возможно), а потому, что сам вопрос предрасполагает к даче совершенно разных ответов, которые до измерения могут характеризоваться как похожие.

Мы также поговорили о вероятности и статистике, которые помогают нам управлять вариациями, демонстрируя то, что некоторые из этих вариаций являются предсказуемыми, а некоторые не имеют значения в долгосрочной перспективе.

Теория вероятности позволяет нам двигаться от общего к частному, то есть делать выводы о небольшом фрагменте данных на основе знаний о совокупности информации. А статистика позволяет нам двигаться от частного к общему, то есть делать выводы о совокупности информации на основе доступных нам фрагментов. И теория вероятности, и статистика – инструменты, которые помогают нам узнать больше о полной картине, пока она остается для нас неясной. Наконец, мы поговорили об использовании знаний о теории вероятности и статистике для оттачивания навыка критического мышления.

Часть II
Говорите как главный по данным

Часть II, «Говорите как главный по данным», так же, как и первая, побуждает вас мыслить статистически и подвергать все сомнению. В ней вы найдете вопросы, которые следует задать, и вещи, которые следует обдумать независимо от того, о чьем проекте по работе с данными идет речь – о вашем или о чужом. Многие из этих вопросов отражены в названиях будущих разделов. Считайте это своеобразной подсказкой. Данная часть книги состоит из следующих глав:


Глава 4. Сомневайтесь в данных.

Глава 5. Исследуйте данные.

Глава 6. Изучайте вероятности.

Глава 7. Бросайте вызов статистике.


Прочитав эти главы, вы научитесь задавать правильные вопросы относительно данных и аналитики, с которыми будете сталкиваться на работе.

Глава 4
Сомневайтесь в данных

«Для извлечения разумного ответа из имеющейся совокупности данных одного страстного желания недостаточно»

– Джон Тьюки, известный статистик

Как главный по данным, именно вы должны подвергать сомнению данные, используемые в рамках того или иного проекта.

Мы говорим о необработанных данных – исходном материале, на основе которого рассчитываются все статистические показатели, строятся модели машинного обучения и создаются визуализации, отображаемые на информационных панелях. Это данные, которые хранятся в ваших электронных таблицах или базах данных. Если эти необработанные данные плохие, то никакие методы очистки, статистической обработки или машинного обучения не помогут это скрыть. В качестве резюме для данной главы лучше всего подходит фраза, которую вы, вероятно, уже слышали: «Мусор на входе, мусор на выходе». В этой главе мы перечислим те типы вопросов, которые вам следует задать, чтобы оценить качество имеющихся у вас данных.

Мы выделили три основных и несколько уточняющих вопросов, которые помогут вам поспорить с имеющимися данными.


– Какова история происхождения этих данных?

• Кто собирал данные?

• Как собирались эти данные?

– Являются ли данные репрезентативными?

• Имеет ли место предвзятость выборки?

• Что вы сделали с выбросами?

– Какие данные я не вижу?

• Как вы поступили с отсутствующими значениями?

• Позволяют ли данные измерить то, что вас интересует?


В следующих разделах мы подробно рассмотрим каждый вопрос, поговорим о причинах, по которым его следует задавать, и о том, какие проблемы он обычно позволяет обнаруживать.

Однако прежде, чем это сделать, мы предлагаем вам выполнить одно мысленное упражнение.

Что бы вы сделали?

Вы отвечаете за крупный проект в технологической компании, которая находится на пороге прорыва в области создания беспилотных автомобилей. Это важный момент для вас и вашей работы, не говоря уже о карьере. Успешная демонстрация вашего продукта обещает искупить все сверхурочные часы работы, чрезмерно оптимистичные обещания, данные руководству, задержки в реализации проекта и бюджетные затраты на исследования и разработки.

 

И сейчас вечер накануне презентации прототипа нового автомобиля.

Руководители компании, десятки сотрудников, потенциальные инвесторы и представители СМИ проехали сотни километров, чтобы засвидетельствовать то, что может стать переломным моментом в истории автомобилестроения. Однако поздно вечером ваш старший инженер сообщает, что на завтра синоптики прогнозируют 31 °F (–1 °C). По словам инженера, низкие температуры могут поставить под угрозу жизненно важные компоненты инновационной системы автономного вождения прототипа автомобиля. Дело не в том, что он уверен в непременном возникновении проблемы. Просто система, которую в будущем планируется адаптировать и испытать при отрицательных температурах, еще не была опробована на морозе, так что демонстрация рискует превратиться в публичную и дорогостоящую катастрофу.

Однако перенести подобное мероприятие дорого и непросто. Если презентация не состоится завтра, то идеальных условий придется ждать месяцами. Ваша компания потратила большую часть предыдущего года на создание ажиотажа вокруг этого момента. Если презентацию перенести, уровень заинтересованности уже не будет таким высоким.

Вы просите инженера предоставить данные, заставляющие его беспокоиться о возможном повреждении внутренних компонентов автомобиля из-за низких температур. Он показывает вам график, представленный на рис. 4.1.

По словам инженера, компания провела 23 тест-драйва при различных температурах, и в ходе семи из них (отмеченных на графике) имел место выход из строя критической части системы самонавигации. В ходе двух тест-драйвов из строя вышли сразу два критических компонента.


Рис. 4.1. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов


Ваши инженеры учли вероятность подобных отказов, поэтому они обеспечили избыточность. Каждая система предусматривает шесть критических компонентов (вот почему максимальное значение на вертикальной оси – 6). Наличие запасных частей означает, что даже в случае поломки некоторых из них машина продолжит функционировать. В ходе 23 тест-драйвов из строя ни разу не вышло сразу более двух компонентов, поэтому и проблем с использованием автомобиля ни разу не возникло. В обоих случаях, имевших место при температуре 53 °F (12 °C) и 75 °F (24 °C), машина так и не остановилась. Минимальная температура, при которой проводилось испытание, составляла 53 °F (12 °C), а максимальная – 81 °F (27 °C).

«Однако мы не тестировали систему при более низких температурах», – говорят инженеры. И вы понимаете, что они обеспокоены.

Но как бы вы ни старались, вы не можете заметить связь между температурой и вероятностью отказа компонентов за исключением того, что все они имели место при температурах значительно выше 30 °F (–1 °C). Вам трудно представить сценарий, при котором низкие температуры могут вывести из строя более двух компонентов из шести, учитывая данные, полученные в ходе 23 тест-драйвов. Кроме того, машина вполне может продолжать движение и при наличии четырех исправных критических компонентов. Если во время демонстрации выйдет из строя максимум два, узнает ли об этом кто-нибудь вообще?

Что бы вы сделали? Отложили бы презентацию или провели ее в запланированный день?

Остановитесь на мгновение и подумайте о том, есть ли какие-нибудь недостающие данные, которые вы захотели бы учесть.

19Представьте, что мы описали обратную ситуацию и сказали вам, что в сельской местности наблюдается самый низкий уровень заболеваемости раком почки. Какие причины вы бы назвали? Попробуйте поразмышлять о них, и вы увидите, как легко сочинить историю на основе имеющихся данных.
20Wainer, H. (2007). The most dangerous equation. American Scientist, 95(3), 249.
21Здесь мы немного упрощаем. Перед выборами политические партии пытаются повлиять как на количество шариков в мешке, так и на их цвет. Но даже это не позволяет им узнать все о содержимом мешка, поэтому им приходится полагаться на выборку.
22Данный пример взят с сайта www.johndcook.com/blog/2008/01/25/example-of-the-law-of-small-numbers
23Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131.
24О’Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
Бесплатный фрагмент закончился. Хотите читать дальше?
Купите 3 книги одновременно и выберите четвёртую в подарок!

Чтобы воспользоваться акцией, добавьте нужные книги в корзину. Сделать это можно на странице каждой книги, либо в общем списке:

  1. Нажмите на многоточие
    рядом с книгой
  2. Выберите пункт
    «Добавить в корзину»