XRay помогает узнать, какие персональные данные используют компании

В Колумбийском университете разработано приложение XRay, которое определяет детали использования персональных данных популярными интернет-ресурсами. Эта программа способна выяснить, какая именно информация личного характера сохраняется при использовании онлайновых сервисов. Её отчёт помогает выявлять возможные злоупотребления со стороны рекламодателей и владельцев сайтов, а также вносит свой вклад в создание прозрачной схемы обработки приватной информации.

Ещё до шпионского скандала вокруг истории с Эдвардом Сноуденом было очевидно, что многие правительственные организации и частные компании собирают через интернет и хранят в своих базах информацию о всех людях, попадающихся им в поле зрения. Как правило, речь шла об анализе предпочтений на основе технической информации: версии браузера, списка наиболее посещаемых адресов, времени и места выхода в сеть…

Схема работы программы XRay (изображение: mathias.lecuyer.me).
Схема работы программы XRay (изображение: mathias.lecuyer.me).

С недавних пор список существенно расширился. Популярные сайты и мобильные приложения через один запрашивают геоданные и языковые настройки, определяют наличие AdBlock и просят разрешить им доступ к аккаунтам в соцсетях. Некоторые даже пытаются получить доступ к истории поиска и адресной книге.

Все эти действия традиционно объясняются заботой о пользователе: попыткой создать более эффективные и персонализированные сервисы или автоматически подбирать личные рекомендации. Однако реальные причины обычно другие и касаются они схем монетизации дохода от предоставляемых бесплатно услуг. В самом безобидном случае сбор данных необходим для демонстрации целевой рекламы. Однако на основе поведенческого анализа и набора легко доступных сетевых идентификаторов предпринимаются даже попытки идентифицировать пользователя без явной авторизации и без его ведома.

Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы (изображение: mathias.lecuyer.me).
Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы (изображение: mathias.lecuyer.me).

К примеру, использование Google Now постепенно становится удобнее, но расплатой за это служит утрата пользователями последних остатков приватности. Зачастую такая жертва приносится даже не вполне осознанно, поскольку мало кто вчитывается в тексты лицензионных соглашений и задумывается о деталях реализации бесплатных сервисов.

В дата-центрах Google и Apple сохраняются все актуальные контакты пользователей и пароли от Wi-Fi сетей, а по данным GPS легко определить фактическое место проживания самого человека, узнать его ближайшее окружение и многое другое. Конечно, корпорации сотрудничают с правительством, но гораздо охотнее – друг с другом.

Вопреки распространённому мнению, правоохранительные органы мало интересует сетевая активность граждан (пока она не приводит к серьёзным последствиям в обычной жизни, приводящим к подаче исковых заявлений и постановлениям правительства). Основные охотники за личными данными – рекламодатели, маркетологи, кредитные организации и страховые компании. Все они платят не малые средства за детали о личной жизни своих клиентов – реальных и потенциальных.

Ограничение уровня вмешательства в личную жизнь и предотвращение злоупотреблений персональными данными стало юридической и технической проблемой. Чтобы решить её, исследователи из Колумбийского университета предложили универсальный статистический подход. Они создали наборы с ключевыми словами, некоторые из которых содержали конфиденциальную информацию, и внедрили их в тестовые аккаунты.

Программа XRay - тест с ключевыми словами (изображение: columbia.edu).
Программа XRay — тест с ключевыми словами (изображение: columbia.edu).

Затем с помощью вероятностной математической модели они проверили, как наличие определённых слов среди личных данных влияет на характер предлагаемой рекламы. Тексты с набором ключевых слов добавлялись в профили пользователя и отправлялись в его почтовые ящики, имитируя сетевую активность. Это позволило соотнести частоту встречаемости определённых терминов в созданной подборке и демонстрируемых предложениях персонального характера.

На основе этого алгоритма было создано приложение XRay, помогающее выяснить, какие именно данные и как используют компании. Программа отслеживает, как активность пользователя влияет на характер предлагаемой ему рекламы, персональные рекомендации и предложения посмотреть определённое видео на YouTube. По словам авторов исследования, их система была в состоянии предсказать таргетинг с точностью от восьмидесяти до девяноста процентов.

Количество целевых рекламных объявлений после добавления разных ключевых слов (изображение: columbia.edu).
Количество целевых рекламных объявлений после добавления разных ключевых слов (изображение: columbia.edu).

Анализ результатов привёл к выводам, что рекламодатели часто злоупотребляют таргетированными сообщениями, используя в качестве источника темы писем в почтовых ящиках пользователей. Особенно это касается здравоохранения и финансовой сферы. Специфические средства для лечения различных заболеваний быстро добавлялись к потоку общей рекламы при попадании в почтовые ящики Gmail писем с соответствующими ключевыми словами. Аналогичным образом предлагались услуги кредитования, если в ящике было тестовое письмо о задолженности.

Программа XRay всё ещё находится на стадии ранней беты, но исследователи надеются, выпуск программного обеспечения по лицензии с открытым исходным кодом будет способствовать развитию целого класса подобных приложений. Текущая версия может анализировать использование данных в Google Gmail, YouTube и Amazon, однако сам подход легко адаптировать и для других веб-сервисов.



Андрей Васильков, Компьютерра





Интересные новости
Дети обмениваются порно-фото и выкладывают их в Сеть, а взрослые не понимают Интернет-слэнг
Марк Цукерберг раскритиковал "Социальную сеть"
Американских игроков начали сажать
1го апреля один из сайтов дошутился: на него подают в суд
Масоны онлайн
Блок рекламы


Похожие новости

Данные даркнет-магазина по продаже наркотиков "Гидра" были переданы правоохранителям Украины, - СМИДанные даркнет-магазина по продаже наркотиков "Гидра" были переданы правоохранителям Украины, - СМИ
Маск поставил на паузу сделку с Twitter. Акции компании обвалилисьМаск поставил на паузу сделку с Twitter. Акции компании обвалились
Хакеры выложили в свободный доступ 15,6 тысяч писем компании, связанной с Минобороны РФХакеры выложили в свободный доступ 15,6 тысяч писем компании, связанной с Минобороны РФ
Мошенники используют Facebook, чтобы получить данные банковских карт украинцевМошенники используют Facebook, чтобы получить данные банковских карт украинцев
Роскомнадзор запретил компании Google рекламировать себя в РоSSииРоскомнадзор запретил компании Google рекламировать себя в РоSSии
За какие посты в соцсетях украинцы могут загреметь в тюрьму по новому закону: "Категорически запрещено..."За какие посты в соцсетях украинцы могут загреметь в тюрьму по новому закону: "Категорически запрещено..."
Хакеры, атакующие Украину, используют данные какой-то государственной разведки - ГосспецсвязиХакеры, атакующие Украину, используют данные какой-то государственной разведки - Госспецсвязи
Хакеры Anonymous слили в сеть данные Центробанка РоSSииХакеры Anonymous слили в сеть данные Центробанка РоSSии
СБУ, фонд "Вернись живым" и волонтеры создали общий сервис, который будет собирать данные об оккупантахСБУ, фонд "Вернись живым" и волонтеры создали общий сервис, который будет собирать данные об оккупантах
Twitter оспорил в суде требование Германии передавать полиции данные пользователей и удалять незаконный контентTwitter оспорил в суде требование Германии передавать полиции данные пользователей и удалять незаконный контент
Последние новости

Подгружаем последние новости