Опасная сторона «больших данных»

На конференции EmTech 2013, которую на этой неделе провёл Массачусетский технологический институт, то и дело всплывала тема «больших данных». По мнению некоторых выступающих, эта технология даёт слишком богатые возможности для злоупотреблений.

Первым об этом заговорил Крейг Манди, бывший директор Microsoft по исследованиям и стратегии, который руководил разработкой Windows CE и стоял за инициативой Trustworthy Computing. Год назад он отошёл от дел, но пока остаётся советником главы Microsoft Стива Балмера.

По мнению Манди, сбор информации о людях, которым занимаются и корпорации, и государственные органы, вышел из-под контроля. Ограничивать его нужно было раньше. Сейчас запреты не помогут. Момент, когда джинна ещё можно было загнать в бутылку, давно миновал.

Манди считает, что теперь стоит бороться не со сбором, а с использованием персональной информации без разрешения. Причём бороться очень жёстко. «Лично я сделал бы это тяжким уголовным преступлением, — говорит бывший руководитель Microsoft. — В противном случае наказание будет слишком лёгким и никого не отпугнёт».

Чем именно опасен сбор и анализ данных, объяснила участникам EmTech Кейт Кроуфорд из Microsoft Research.

Компании всё чаще и чаще пытаются узнать о своих клиентах побольше, по крупицам отыскивая информацию о них из общедоступных источников — например, публичных постов в социальных сетях. Как правило, эти данные используются для того, чтобы точнее подбирать рекламу и маркетинговые предложения.

Речь идёт не только о контекстной рекламе Google и «Яндекс» или персонализированных рекомендациях в Amazon и Netflix. Тот же подход эксплуатируют и преимущественно компании, работающие преимущественно в офлайне. Вспомните, например, сеть супермаркетов Walmart, которая разработала систему, внимательно следящую за тем, что пишут в интернете её покупатели:

Система Social Genome в реальном времени переваривает все публичные посты в социальных сетях, до которых ей удаётся дотянуться: Twitter, Facebook, даже Foursquare. Посты подвергаются семантическому анализу. Social Genome способна по контексту обходить большинство ловушек, связанных с неоднозначностью естественного языка. Добытая информация помогает составлять пугающе точные рекомендации и персонализировать рекламные рассылки.

Обычно подобная персонализация делает сервис удобнее для потребителей, но так происходит не всегда. Узнав о человеке побольше, компания может решить, что она не желает иметь с ним дело. В этом случае он лишится возможностей, которыми обладают другие.

Кроуфорд видит в таком подходе обновлённую версию печально известной «политики красной черты» (redlining), которая была распространена в Соединённых Штатах несколько десятилетий назад. В те времена банки и страховые компании предпочитали сотрудничать с состоятельными белыми мужчинами. Шансы женщин, представителей меньшинств и обитателей бедных кварталов на получение кредита или страховки стремились к нулю.

Взгляните, например, на эту карту Филадельфии. В 1936 году её использовала госкорпорация HOLC, помогавшая жертвам Великой депрессии перекредитовывать свои ипотеки. Красным цветом отмечены бедные районы. Обращения, поступающие оттуда, отвергались без рассмотрения.

Home_Owners'_Loan_Corporation_Philadelphia_redlining_map

В 1968 году подобная практика была запрещена. Теперь для того, чтобы отказать в обслуживании, американским компаниям требуется более веская причина, чем раса, происхождение, религиозные взгляды, пол, семейное положение или наличие инвалидности.

Сбор и анализ данных — это лазейка, помогающая обойти этот запрет, считает Кроуфорд. Если компания решила, что её клиент относится к одной из нежелательных категорий, она может просто не сообщать ему о существовании некоторых услуг или предложить менее выгодные условия. Формально отказа нет, но эффект тот же.

Кроуфорд утверждает, что банки и страховые компании уже применяют «большие данные» для того, чтобы отсеивать клиентов, которые особенно нуждаются в помощи. Они добывают анонимизированные сведения о покупателях Amazon и посетителях медицинского портала WebMD, а затем сличают её с демографической информацией, пытаясь определить, кто есть кто. Это может привести, например, к тому, что женщина, которая разыскивала в WebMD сведения о раке груди и покупала в Amazon книги на ту же тему, вряд ли удастся получить страховку или ссуду.

По мнению Кроуфорд, с этим нужно что-то делать. При достаточно большом количестве данных анонимность превращается в иллюзию и больше не защищает людей. Первым шагом к решению проблемы могла бы стать большая прозрачность процесса сбора и анализа данных. Кроуфорд считает, что компании должны сообщать людям, какой информацией о них они обладают, и как именно это влияет на их решения.

В этом есть логика, но нужно заметить, что пример Кроуфорд — это лишь часть картины. Ничуть не реже использование «больших данных» приводит к совершенно иному эффекту.

В чём заключался смысл «политики красной черты»? Она представляла собой очень грубый и неточный способ оценки риска. Именно грубость, заставляющая стричь под одну гребёнку целые социальные группы, вела к дискриминации.

«Большие данные» решают эту проблему. Они позволяют оценивать риск индивидуально и разобраться в особенностях каждого случая по отдельности. Так делает, к примеру, компания ZestFinance, о которой мы не так давно писали. Она предоставляет краткосрочные кредиты малообеспеченным людям с плохой кредитной историей:

Обычные кредиторы опасаются доверять деньги тем, кто не способен подтвердить свою платёжеспособность, но они не знают о своих потенциальных клиентах и половины того, что знает о них ZestFinance.

В отличие от конкурентов, которые по старинке оценивают риск, руководствуясь дюжиной простых и очевидных признаков, в ZestFinance принимают во внимание тысячи факторов. Влияние многих факторов на результат трудно объяснить, но данные свидетельствуют, что оно есть. В ZenCash делают ставку на технологии, которые позволяют увидеть в данных закономерности, которые незаметны и даже непонятны для человека.

Вот пример: клиент, признавшийся в том, что он вряд ли успеет вернуть деньги в срок, в большинстве банков попадёт в списки неблагонадёжных. Логично? Да. Проблема в том, что логика в таких вопросах — плохой помощник. В ZestCash обнаружили, что в действительности такое признание не уменьшает, а увеличивает вероятность того, что кредит будет выплачен до конца.

Это полная противоположность «политике красной черты».

В конечном счёте всё сводится к тому, что у «больших данных», как и у любой другой важной технологии, есть две стороны. Она может использоваться во вред людям (и, вероятно, используется). Но она может использоваться и во благо (и это происходит как минимум не реже). Занимаясь борьбой с первым, не следует забывать о втором.

Компьютерра

Хакери Head Mare виклали дані клієнтів російського провайдера з Кубані

Охота продолжается. Китай усилит борьбу с майнерами, которые маскируются под «исследователей данных»

Веб-адрес Dell захватила «третья сторона»

IBM видит своё будущее в «больших данных»

Анализ «больших данных» выводит персонализированную рекламу на новый уровень

Тёмная сторона силы: почему Google — единственный конкурент Amazon

Новый этап развития «больших данных» — анализ видео

Logi Analytics делает визуализацию «больших данных» доступной для всех

Infor приобретает PeopleAnswers для усиления позиций в сфере «больших данных»

LinkedIn подаёт иск в связи с кражей «больших данных»

В Бостоне открылся специализированный сайт, посвящённый вопросам «больших данных»