Искусственный интеллект, аналитика и новые технологии

Текст
Автор:
Читать фрагмент
Отметить прочитанной
Как читать книгу после покупки
Нет времени читать книгу?
Слушать фрагмент
Искусственный интеллект, аналитика и новые технологии
Искусственный интеллект, аналитика и новые технологии
− 20%
Купите электронную и аудиокнигу со скидкой 20%
Купить комплект за 1098  878,40 
Искусственный интеллект, аналитика и новые технологии
Искусственный интеллект, аналитика и новые технологии
Аудиокнига
Читает Андрей Троммельман
599 
Подробнее
Шрифт:Меньше АаБольше Аа

Почему умные алгоритмы нас запутывают?

Как показывает практика, очеловечивание алгоритмов делает их более удобными для нас. Оно может быть полезно, к примеру, если вы разрабатываете функцию автоответчика. Живой голос будут слушать более охотно, чем машинный. Однако фундаментальная проблема заключается в том, что люди относятся к алгоритмам и выполняющим их компьютерам так же, как к работнику, начальнику или коллеге. Но в поведении любого алгоритма есть два очень важных отличия от человеческого.

Алгоритмы ужасно буквальны

В фильме «Мстители: Эра Альтрона» Тони Старк (также известный как Железный человек) создает Альтрона, охранную систему с искусственным интеллектом, чьей обязанностью является защита Земли. Но Альтрон воспринимает задачу буквально, заключив, что лучшим способом защитить Землю будет уничтожение всех людей. Во многих ситуациях Альтрон ведет себя как типичный алгоритм: делает именно то, что от него требуется, игнорируя дальнейшие обсуждения. Алгоритмам нужно точное управление, иначе появляются проблемы.

Идея вкратце

Проблема

Алгоритмы – обязательный инструмент планирования, но они могут легко завести в тупик людей, принимающих решения.

Причины

Все алгоритмы обладают двумя свойствами: они буквальны, то есть делают именно то, что от них требуют. И они представляют собой черные ящики, не объясняя, почему дают ту или иную рекомендацию.

Решение

В процессе формулирования алгоритмов будьте точны в выражении всех своих целей. Рассмотрите долгосрочное применение изучаемых данных. Удостоверьтесь, что вводите именно те данные, которые необходимы.

Создатели сайтов социальных медиа, внезапно заваленных ссылками-приманками, попали в ту же ловушку. Их общая цель ясна: предоставлять наиболее привлекательные и вызывающие любопытство пользователей материалы. Чтобы сообщить это алгоритму, программисты подобрали ряд инструкций, похожих на хорошее приближение: найти то, на что пользователь будет больше всего нажимать. И это неплохое приближение: обычно люди нажимают на то, что интересует их больше всего. Но из-за решений, основанных только на этом, сайты быстро заполнились поверхностными и оскорбительными материалами, которые плохо отразились на их репутации. Человек бы понял, что разработчики сайта имели в виду «максимально увеличить качество, измеряемое в кликах», а не «максимально увеличить количество кликов даже в ущерб качеству». Алгоритм понимает только то, что сказано точно.

Алгоритмы – это черные ящики

В «Юлии Цезаре» Шекспира прорицатель предостерегает Цезаря: «Тебе грозят бедою иды марта». Рекомендация абсолютно ясна: Цезарю следует опасаться. Но, с другой стороны, она совершенно неразъяснима. Опасаться чего? Почему? Цезарь, опечаленный таинственной фразой, отпустил прорицателя со словами: «Он бредит. Бросим же его». Конечно, иды марта оказались плохим днем для правителя. Проблема была в том, что прорицатель дал неполную информацию. К тому же не существовало ни единой зацепки, чтобы догадаться, чего именно не хватает и насколько важным было сообщение.

Как и шекспировский прорицатель, алгоритмы часто могут предсказывать будущее с огромной точностью, но без указания причин и обстоятельств событий. Алгоритм может просмотреть все статьи в The New York Times и определить, какую из них с наибольшей вероятностью перепостят в Twitter, но сделает это без обязательных объяснений, что к этому подвигнет. Алгоритм может предсказать, кто из сотрудников в самые короткие сроки окажется наиболее успешным, не уточняя, какие качества наиболее важны для успеха.

Осознание этих двух ограничений алгоритмов – первый шаг к улучшению управления ими. А теперь рассмотрим, какие еще шаги можно предпринять для их более успешного использования.

Будьте точны в выборе каждой цели

У всех есть задачи и требования, но очевидно, что окончательный результат не всегда оправдывает средства. Мы осознаем, что есть необязательные (обычно не обсуждаемые) цели и уступки. Мы можем допустить небольшое снижение прибыли сегодня ради повышения репутации завтра. Мы можем бороться за равенство, даже если в краткосрочной перспективе это обещает организационные проблемы.

Алгоритмы же, напротив, будут целеустремленно продвигаться к означенной цели.

Если вам важны промежуточные цели, нужно сформулировать их, определить и количественно выразить их значимость. В случаях, когда эти задачи сложно измерить, держите их в приоритете, изучая результаты работы алгоритма.

В компании Google (которая оплачивала некоторые наши исследования на другие темы) проблема промежуточных целей возникла при работе с алгоритмом, определяющим, какую рекламу показывать. Профессор Гарварда Латания Суини обнаружила ее в процессе исследования. Оказалось, что при наборе типично афроамериканских имен, например Латания Фаррелл, отображаются ссылки, предлагающие просмотреть записи о возможных арестах, чего не происходит в случае ввода имен вроде Кристен Херинг. Четкая цель Google – максимальное увеличение количества переходов по ссылкам – привела к ситуации, в которой ее алгоритмы, улучшаемые со временем с помощью обратной связи, стали фактически порочить людей с определенными именами. Это произошло вследствие того, что люди, искавшие те или иные имена, с большей вероятностью переходили на записи об арестах, что заставило подобные записи появляться чаще, создавая замкнутый круг. Скорее всего, это не ожидаемый исход, но без постановки промежуточной цели не было механизма, позволявшего увести от него алгоритм.

Недавно мы наблюдали важность промежуточных целей в действии. Один из нас работал в городе на Западном побережье США, улучшая эффективность работы его ресторанных инспекций. Десятилетиями в этом городе подобные инспекции, как правило, проводились наугад, но чаще проверки «с пристрастием» доставались уже проштрафившимся заведениям. Выбор заведений для проверки – идеальная работа для алгоритма. И наш алгоритм нашел массу других переменных для прогнозирования, кроме уже существовавших попаданий. В результате департаменту здравоохранения было бы гораздо проще определять возможных нарушителей и затем обнаруживать проблемы, проводя при этом гораздо меньше проверок.

В департаменте одобрили идею повышения эффективности процесса и захотели реализовать ее. Мы поинтересовались, есть ли у представителей департамента какие-либо вопросы или сомнения. После неловкого молчания руку подняла одна сотрудница. «Я не знаю, как это объяснить, – сказала она, – но есть один момент, который нам нужно обсудить». Она объяснила, что в некоторых районах с более плотной застройкой имеется тенденция к большему количеству нарушений. Также оказалось, что в этих районах проживает больший процент меньшинств с низкими доходами. Она не хотела, чтобы алгоритм одержимо набрасывался на эти районы, и сформулировала промежуточную цель, связанную с равномерностью. Мы приняли простое решение установить максимальное число проверок для каждой зоны. Таким образом достигались обе цели: и основная – выявление ресторанов, с наибольшей вероятностью имеющих проблемы, и промежуточная – гарантия, что бедные районы не подвергнутся излишнему прессингу.

Обратите внимание на дополнительный шаг, позволивший нам учесть промежуточные цели: мы дали всем возможность высказать любые сомнения. Оказалось, что люди часто формулируют промежуточные цели в виде сомнений, поэтому четкий вопрос об их наличии дает начало более открытому и плодотворному обсуждению. Также чрезвычайно важно дать людям возможность быть откровенными и честными, чтобы говорить о том, о чем они обычно молчат. Такой подход помогает обнаружить разнообразные проблемы, но те, что мы обычно видим, относятся к справедливости и к работе с тонкими моментами.

Имея базовую цель и список сомнений, разработчик алгоритма может встроить в него необходимые компромиссы. Часто это означает расширение цели до различных исходов, распределенных по важности.

Минимизация близорукости

Популярная компания, занимающаяся продажей упакованных товаров, заказывала дешевую продукцию в Китае и продавала ее в США. Выбор продукции осуществлялся с помощью алгоритма, который предсказывал самые продаваемые позиции. Будучи полностью в нем уверенной, компания запустила продажи, которые шли неплохо, пока через несколько месяцев покупатели не начали возвращать товары.

Между прочим, можно было предвидеть удивительно высокое и устойчивое количество возвратов (даже несмотря на то что алгоритм не смог этого предсказать). Компания, безусловно, заботилась о качестве, но не заложила этой заинтересованности в алгоритм, который был точно запрограммирован на удовлетворение покупателей, заставив его сосредоточиться исключительно на продажах. А именно этот новый подход должен был блестяще спрогнозировать не просто то, насколько хорошо будут продаваться товары, но и то, насколько они понравятся людям и насколько долго те будут ими пользоваться. Теперь возвраты резко упали, а фирма ищет на Amazon и других платформах предложения, о которых будут с восторгом говорить все покупатели.

Эта компания попала в обычную ловушку работы с алгоритмами – тенденцию к ограниченности. Они фокусируются на существующих данных, а те часто имеют отношение к краткосрочным исходам. Может происходить задержка между кратковременным успехом и долговременной прибылью с более широкими корпоративными целями. Люди понимают это без пояснений, алгоритму же нужны уточнения и указания.

Эту проблему можно решить в фазе целеполагания, идентифицируя и конкретизируя долговременные цели. Но, действуя по прогнозам алгоритма при работе с долгосрочными целями, менеджеры должны приспособиться и к масштабу, который задается алгоритмом.

Близорукость – это тоже скрытая слабость программ, создающих низкокачественный контент путем поиска способа увеличения количества переходов по ссылкам. Алгоритмы оптимизируются, чтобы достичь цели, которую можно измерить в данный момент (переходит посетитель по ссылке или нет), не принимая во внимание долгосрочную и более важную задачу: сохранять удовлетворение пользователей от работы с данным сайтом.

 

Близорукость также может иметь место в ходе маркетинговых кампаний. Вспомните заурядную рекламную кампанию Gap в Google. С наибольшей вероятностью она должна была привести к всплеску посещаемости сайта Gap.com, потому что алгоритм Google хорошо угадывает людей, которые перейдут по рекламной ссылке. Но дело в том, что настоящая цель – это рост продаж, а не посещаемости сайта. Чтобы достичь ее, рекламные платформы могут собирать данные о продажах различными способами, такими как партнерство с платежными системами, и внедрять их в свой алгоритм.

Более того, посещаемость сайта – краткосрочное поведение, в то время как долговременное влияние рекламы включает в себя «эффекты нижнего течения» на имидже бренда и постоянных клиентах. Идеальные данные для таких эффектов найти трудно, но здесь может очень помочь внимательный аудит уже имеющихся данных. Менеджерам следует систематически составлять списки внешних и внутренних данных, которые могут соответствовать текущему проекту. В случае с кампанией Google маркетологам Gap следовало начать с описания всех своих целей – больших продаж, малого количества возвратов, хорошей репутации и так далее, – а затем проговорить способы измерения каждой из них. Возвраты товара, отзывы в сети и поиски по слову «Gap» стали бы отличными критериями. И тогда алгоритм смог бы построить лучший прогноз из комбинации этих переменных, калибруя их относительную важность.

Выбор правильных вводных данных

Вернемся к примеру с департаментом здравоохранения, который пытается определить рестораны, рискующие оказаться причиной пищевых отравлений и кишечных заболеваний. Как уже упоминалось, раньше в этом городе проверка проводилась либо случайным образом, либо по следам уже имевшихся нарушений. Работая с сайтом Yelp, один из нас помог городу Бостону использовать отзывы в сети для определения ресторанов, с наибольшей долей вероятности нарушающих местные санитарно-гигиенические правила. Он разработал алгоритм, который сравнивал текст в отзывах с историей проверок. Применяя его, город обнаружил обычное число нарушений, но для этого понадобилось на 40 % меньше проверяющих – налицо резкое повышение эффективности.

Этот подход сработал хорошо не только потому, что у нас было много ресторанов для проверки, а потому, что отзывы на Yelp – это огромный набор данных, нечто, чему города, как правило, не уделяют должного внимания. В этих отзывах содержится много слов и различной информации. Кроме того, данные распределенные, потому что взяты из различных источников. В общем, они довольно сильно отличаются от данных, созданных инспекторами и более привычных для чиновников городских служб.

При выборе правильного источника данных не забывайте о следующем.

Шире – значит лучше

Одна из ловушек, в которые попадают компании, – это восприятие больших данных просто как огромного набора записей, к примеру, о миллионе покупателей, а не десяти тысячах. Но это только половина картины. Представьте свои данные в виде таблицы, где каждый покупатель имеет собственную строку. Количество покупателей – это длина таблицы. Известная информация по покупателям ограничивает ее ширину – количество признаков каждого из них в строке. И так как увеличение длины данных улучшает ваши прогнозы, максимальная продуктивность больших данных проистекает из широкого сбора данных. Эффективное использование полной информации – вот ключевой момент прогнозирования. Каждая дополнительная деталь, которую вы узнаете об исходе, подобна еще одной подсказке, которую можно сопоставить с уже собранными. Текстовые документы, к примеру, отличный источник «широких» данных, каждое слово – это подсказка.

Распределенность имеет значение

Вывод, который из этого следует, – данные должны быть распределенными в том смысле, что разные источники не должны иметь относительных связей друг с другом. В этом и состоит дополнительная сила прогнозирования. Относитесь к каждому набору данных как к рекомендациям друга. Если наборы слишком похожи, от добавления каждого из них предельный результат увеличится ненамного. Но если набор данных имеет уникальную перспективу, создается гораздо бóльшая ценность.

Поймите ограничения

Знание того, что алгоритм не может предсказать, так же важно, как и знание того, что он способен предсказать. Легко поддаться ложному представлению о том, что прогноз, сделанный в одном контексте, будет точно так же хорош в другом. Это то, что не дало конкурсу Netflix 2009 принести компании больше прибыли. Алгоритм, который точно предсказал, какой DVD зритель захочет заказать по почте, уже далеко не так хорошо угадывал, какой фильм человек выберет для онлайн-просмотра прямо сейчас. Netflix получил полезные идеи и хорошую рекламу от проведения конкурса, но данные, собранные по DVD, были неприменимы к потоковому видео.

Алгоритмы используют существующие данные, чтобы спрогнозировать, что может произойти, если немного изменить условия, количество участников, время или вопрос. В сущности, происходит перенос идеи из одного контекста в другой. Таким образом, эта практика оказывается мудрой – перечислять возможные причины того, почему алгоритм нельзя автоматически применить к новой проблеме, и оценивать их значимость. К примеру, алгоритм проверки соблюдения санитарно-гигиенических норм, основанный на отзывах и нарушениях в Бостоне, мог бы оказаться менее эффективным в Орландо, где жарче, что является источником других проблем безопасности питания.

Также помните, что корреляция еще не означает наличия причинно-следственной связи. Например, алгоритм предсказал, что короткая запись имеет больше шансов на ретвит, чем длинная. Это ни в коем случае не означает, что вы должны укорачивать свои записи в Twitter. Это прогноз, а не совет. Это работает как предсказание, поскольку существует множество других факторов, коррелирующих с короткими твитами и делающих их эффективными. По этой же причине данное утверждение является плохим советом: укорачивание своих твитов не обязательно изменит остальные факторы.

Рассмотрим случай с компанией eBay, которая использует рекламу в Google годами. В eBay заметили, что люди, просматривавшие эту рекламу, совершали покупки на их сайте чаще, чем те, кто рекламы не видел. Но что ускользнуло от их внимания – так это то, заставляет ли реклама (которую показывали миллионы раз) приходить на их сайт. В конце концов дошло до того, что рекламу стали видеть только покупатели eBay. Чтобы отделить корреляцию от причины, eBay провела большой эксперимент, в котором реклама показывалась случайным образом одним людям, а не другим. Результат? Оказалось, что реклама в большей части случаев бесполезна, поскольку люди, которые ее видят, уже знают о eBay и в любом случае совершили бы там покупки.

____________________________________

Алгоритмы, способные делать прогнозы, не отменяют необходимости внимательно изучать связи между причиной и следствием, они не заменяют контролируемых экспериментов. Но могут делать очень мощную вещь: определять зависимости, слишком неявные для человека, используя их для создания точного понимания и получения информации с целью лучшего принятия решений. Наша задача – понять связанные с ними риски и ограничения, а также, эффективно управляя процессом, раскрыть их замечательный потенциал.

Впервые опубликовано в выпуске за январь – февраль 2016 года.
Бесплатный фрагмент закончился. Хотите читать дальше?
Купите 3 книги одновременно и выберите четвёртую в подарок!

Чтобы воспользоваться акцией, добавьте нужные книги в корзину. Сделать это можно на странице каждой книги, либо в общем списке:

  1. Нажмите на многоточие
    рядом с книгой
  2. Выберите пункт
    «Добавить в корзину»