«Большие данные» на службе полиции и преступников

Существует клише, кочующее по фильмам и сериалам о полицейских и агентах спецслужб. Когда приходит время разгадать очередную загадку, они достают улики, вешают на стену карту, где отмечены нераскрытые преступления, и пытаются понять, что их объединяет. 

Кадр из сериала FlashForward.
Кадр из сериала FlashForward.

Современные средства анализа данных предназначены для решения поразительно похожей задачи. Они, как и агенты в кино, ищут скрытые закономерности в имеющейся информации. Правда, как правило, с более мирными целями. 

Сети магазинов используют анализ «больших данных», чтобы узнать предпочтения своих покупателей. Финансовые организации ищут в скудной информации о клиентах зацепки, помогающие оценить вероятность возврата кредита. Платёжные системы пытаются отсеять мошенников, учитывая тончайшие отличия их поведения.

Эти технологии вполне могли бы применяться для того, чтобы раскрывать или даже предотвращать преступления. Оценивать вероятность совершения преступлений можно с помощью тех же средств, которые предсказывают невыплату кредита или составляют портрет покупателя. У преступников должно быть что-то общее — и анализ данных способен показать, что именно.

Это не новая идея. Около двадцати лет назад лондонская полиция предприняла попытку найти черты, которые объединяют людей, осуждённых за изнасилования. Оказалось, что многие будущие насильники в прошлом имели дело с полицией в связи с мелким, но очень своеобразным преступлением: воровством женского белья, которое сушится на улице. После этого открытия таких воришек поставили на особый учёт.

В девяностые подобные исследования были исключительно трудоёмким занятием. Готового программного обеспечения, автоматизирующего процесс, да и сами данные представляли собой записи на бумаге, пылящиеся в архивах. Вся работа выполнялась вручную, а это значит, что анализу подвергалась лишь малая доля возможной информации. 

Сейчас один из лидеров в этой области — корпорация IBM. В 2011 году она приобрела британскую компанию i2 Group, которая разрабатывала аналитические средства для правоохранительных органов, спецслужб, военной разведки и специалистов по борьбе с «фродом». 

Один из продуктов, основанных на i2, предназначен специально для полиции. Он позволяет быстро получить доступ к информации, накопленной американскими правоохранительными огранами, и проявить в ней скрытые связи между людьми, местами, автомобилями, мобильными телефонами и тому подобными объектами.

IBM i2 COPLINK
IBM i2 COPLINK

В 2007 году полиция города Дарем в Северной Каролине начала использовать средства i2 для анализа своего архива данных о преступности. За четыре года в одном из районов города количество совершаемых преступлений удалось сократить на 50 процентов. Вряд ли такой прогресс объясняется исключительно силой софта IBM, но и его вклад никто не отрицает.

В канадском Ванкувере полиция внедрила систему анализа данных, основанную на разработках IBM и географической информационной системе Esri. Система не только выявляла тенденции, но и предсказывала вероятное время и место совершения преступлений. С 2007 до 2011 года количество преступлений, связанных с собственностью, сократилось на 24 процента, а насильственная преступность — на 9 процентов.

Похожие результаты сообщают полицейские департаменты Лас-Вегаса, Мемфиса, Теннеси и других городов, где экспериментируют с программами для анализа данных.

Простым и доступным для понимания примером того, как устроены такие программы, может служить «классификатор преступников», продемонстрированный на конференции Strata 2013. Специалист по анализу данных Джим Адлер сделал его для того, чтобы показать, насколько полицейские «большие данные», с одной стороны, полезны, а с другой — опасны.

Адлер скормил самообучающемуся алгоритму (ADTree) сведения о нескольких десятках тысяч жителей американского штата Кентукки, привлекавшихся к уголовной ответственности с начала восьмидесятых годов прошлого века. Из опубликованных полицией записей извлекались приметы: наличие татуировок, цвет кожи, глаз и волос, пол, история столкновений с законом и тяжесть правонарушений, совершённых в прошлом.

Алгоритм построил дерево решений, где каждой ветви присвоен определённый вес. Например, при выборе мужского пола результат вырастает на 0,1, а при выборе женского пола — уменьшается на 0,5. Вес всех выбранных ветвей суммируется. Если результат превышает вычисленное при обучении пороговое значение, то рассматриваемый человек объявляется потенциальным преступником.

Зависимость доли ошибок первого рода (горизонтальная ось) и ошибок второго рода (вертикальная ось) от порогового значения, которое использует алгоритм.
Зависимость доли ошибок первого рода (горизонтальная ось) и ошибок второго рода (вертикальная ось) от порогового значения, которое использует алгоритм в эксперименте Адлера.

На первый взгляд, классификатор неплохо справлялся со своей работой. При тестировании с наиболее «агрессивными» настройками алгоритм верно идентифицировал 51246 человек, осуждённых за тяжкие преступления, то есть все сто процентов преступников, упомянутых в выборке Адлера. При этом количество ложных срабатываний составило 2200. При более мягких настройках невиновные попадаются реже (152 ложных срабатывания), но тогда ускользает и часть преступников (учтено 37842 из 51246).

Адлер не уверен, что это можно считать успехом. Что, в сущности, показал этот эксперимент? Что преступников можно отличить по цвету кожи, полу и наличию татуировок? Или то, что в людях с известным цветом кожи полиция заранее подозревает престуников, а наличие татуировок оказывает влияние на отношение суда? В базе данных, по которой обучался алгоритм, нет нераскрытых преступлений. Отсутствуют в ней и оправдательные приговоры, а ведь цвет кожи определённо коррелирует с финансовыми возможностями, нужными для того, чтобы нанять хорошего адвоката. Это не может не влиять на результат.

В результате переработки исторических данных получился не классификатор престуников, а экспертная система, кодирующая предрассудки полицейских из Кентукки. По мнению Адлера, это демонстрирует необходимость критичнее относиться к анализу данных. Некоторые результаты — не то, чем кажутся. «Как и настоящее искусство, настоящий анализ данных порождает не меньше вопросов, чем ответов, — пишет он в блоге. — Иногда эти вопросы неприятны, но в конечном счёте они ведут к лучшему итогу».

Двусмысленный исход эксперимента Адлера вовсе не значит, что порочен сам метод. В данном случае подвели исходные данные. Большее количество учитываемых критериев и куда более серьёзный объём исходных данных, скорее всего, смогли бы сделать выводы алгоритма точнее, неожиданнее и ценнее.

Правоохранительным органам так или иначе придётся осваивать «большие данные». В противном случае их опередят преступники, которых не сдерживают бюрократия, законы и приличия. Если «анализ данных» даёт нужный результат, ничто не помешает им построить свои кластеры, добыть продукты IBM и нанять аналитиков. Это уже происходит.

Когда лондонская полиция вела раскопки в архивах дедовскими методами, в колумбийском наркокартеле Кали анализ данных давно был поставлен на широкую ногу. В начале девяностых картель приобрёл мейнфрейм IBM AS/400, стоивший в те времена полтора миллиона долларов, и обзавёлся штатом сисадминов и программистов, разрабатываюших специализированный софт для data mining. 

Техника была нужна для того, чтобы прочесать краденые базы данных с рабочими и домашними телефонами сотрудников американских спецслужб и дипломатических работников в Колумбии, сопоставить их с полным списком всех телефонных звонков, которые совершаются в стране, и выявить потенциальных информаторов, подлежащих ликвидации. Об эффективности затеи можно судить по тому факту, что когда эта история всплыла на свет, американское Управление по борьбе с наркотиками предпочло сохранить подробности произошедшего в секрете.








Интересные новости
Перша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботиПерша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботи
Блок рекламы


Похожие новости

Twitter оспорил в суде требование Германии передавать полиции данные пользователей и удалять незаконный контентTwitter оспорил в суде требование Германии передавать полиции данные пользователей и удалять незаконный контент
Украина приняла участие в международной операции по закрытию популярного у преступников VPN-сервисаУкраина приняла участие в международной операции по закрытию популярного у преступников VPN-сервиса
ФБР обвинило РоSSию в бездействии относительно киберпреступников
В Главном управлении полиции Польши тайно майнили биткоин
Мошенники рассылают фишинговые письма с домена Нацполиции
Хакеры украли у полиции Новой Зеландии $32 тыс. в биткоинах
Украинцев предупреждают об опасной спам-рассылке якобы от полиции
Как мошенники воруют деньги украинцев в соцсетях. Советы Киберполиции
Киберспециалисты установили, каким образом взломали сайты Нацполиции
На сайтах полиции Херсонщины и Ровенщины хакеры опубликовали фейки о гибели американских военных и выбросе радиации
Последние новости

Подгружаем последние новости