Мир дикого скрэпинга: как собирать данные в сети легально?

Фундамент Четвертой индустриальной революции составляет Big Data — большое и разнообразное количество данных о поведении пользователей и активности их устройств в сети. Технологические решения позволяют изучать поведение человека и механизмы принятия решений, выводить полезные закономерности и использовать их при ведении дел. Это неоценимые возможности, пишут AIN.UA.

Обработка данных все чаще используется для маркетинговых целей. Для этого компании собирают бесплатные, на первый взгляд, данные с открытых источников интернета.

С появлением новых возможностей развивается и государственное регулирование, и частное – со стороны интернет-ресурсов. Кажется, что данные только лежат и ждут, пока их используют. На самом деле компанию могут привлечь к ответственности за неправильный сбор и обработку данных.

Для сбора данных в интернете компании чаще всего используют автоматические решения, в том числе ботов. Сам же сбор данных может осуществляться в двух формах: в форме веб-скрэпинга — сбора данных с определенного веб-ресурса, или же в форме веб-кроулинга — сбора и систематизации данных с гиперссылок, которые размещены на определенном веб-ресурсе. Всегда ли он является легальным? Сам по себе скрэпинг/кроулинг не расценивается как правонарушение. Юридические аспекты, в первую очередь, касаются персональных данных, правил пользования ресурса и других вопросов.

Персональные данные – что это?

Сегодня в массах активно обсуждают тему персональных данных. В сети мы везде оставляем за собой след. Отпечатки наших действий могут использовать в разных целях – совершенствовать сервисы или же направить против нас.

Что такое персональные данные? Это сведения, по которым можно идентифицировать человека (связать информацию с определенной личностью). Ими могут быть: ФИО, домашний адрес, паспортные данные, банковские данные, возраст, профессия, религиозные, политические взгляды, IP-адрес. Информация о взглядах, привычках и интересах, IP-адрес помогает определить, что лучше всего продавать человеку и как максимально привлечь его внимание к рекламе. Эта же информация может быть базой для планирования преступления по отношению к человеку самым эффективным способом.

По этим причинам персональные данные — объект повышенного внимания и охраны, причем неважно, находятся они в открытом доступе или же защищены от внимания третьих лиц. Не так давно Европейский суд в деле Maximillian Schrems v. Data Protection Commissioner рассматривал информацию из публичного профиля Facebook как персональные данные. Поэтому под защиту попадают даже те сведения о пользователе, которые находятся в публичном доступе.

Одно из главных ограничений для использования персональных данных — их сбор и обработка допускается только при наличии согласия, причем исключительно в тех целях, на которые его давали. Такое требование можно найти как в украинском (ст. 6 ЗУ «Про защиту персональных данных»), так и в европейском законодательстве (ст. 6 GDPR).

Получается, что привилегией обрабатывать персональные данные обладают только ресурсы, которым пользователи предоставляют данные. Ресурс может передать данные третьим лицам, но только если пользователи дадут разрешение. А по законам Калифорнии (согласно пар. 22575 Калифорнийского Business and Professions code) еще и необходимо уведомлять по запросу пользователя, кому такие данные передаются. Нельзя так просто взять и начать скрэпить персональные данные с ресурса, если не договориться с ним о сотрудничестве. Европейский Регламент по защите персональных данных требует прямо указывать тех третьих лиц, которым данные передаются. В таком случае, передача данных третьим лицам и уведомление об этом пользователей несет для ресурса репутационные риски.

Зачем учитывать этот аспект? Нарушение требований может привести к серьезной ответственности – внушительным штрафам, возмещению убытков за утечку персональных данных, блокировке ресурсом, а в некоторых странах даже на основании судебного решения, как в РФ). Например, п. 5 ст. 83 Европейского Регулирования по защите данных устанавливает штраф за несоблюдение надлежащей защиты до 20 000 000 евро или до 4% от годовой выручки по всему миру. При этом выплата штрафа не освобождает от дальнейшего обязательства соблюдать правила обращения с персональными данными.

Что же по другим данным?

В коммерческих целях могут собираться данные веб-активности, анонимизированные данные, любые другие статистические данные, проводиться порт-сканнинг — сбор информации о подключениях к интернет-провайдерам. Даже если данные не определяются как персональные, их сбор и использование все равно может вызвать проблемы. В западных странах проблематичность темы доказывает как активное обсуждение в интернет-сообществе, так и большое количество судебных дел.

Недовольство скрэпингом или кроулингом, в первую очередь, проявляют владельцы веб-сайтов, затем оно переходит в юридическую плоскость. Что именно вызывает диссонанс? У использования софта для сбора данных есть своя особенность – бот посылает запросы на веб-сайт куда больше и чаще, чем это может позволить себе пользователь, и это может вызывать большую нагрузку на серверы ресурсов. Владельцы ресурсов считают, что использование ботов и другого софта для сбора данных на их сайтах может нанести вред деловой репутации, так как это потенциальная угроза замедления работы ресурса, падения серверов и утечки данных вследствие этого.

Как результат, владельцы онлайн-площадок могут подать в суд с требованием запретить автоматический сбор данных на их ресурсе. Примерно так поступил в свое время Ebay в деле Ebay Inc. v. Bidder’s Edge, Inc. Иск был обоснован тем, что использование ботов BE (Bidder’s Edge, ответчик) подвергало опасности серверы ресурса Ebay и наносило вред площадке – боты заходили и собирали информацию на сайте Ebay около 100 000 раз в день. На 2000 год это составляло около 1,5% процента трафика и могло вызвать поломку системы, а также потерю данных. В результате суд установил предварительный запрет на автосбор данных с площадки Ebay, после чего стороны пошли на мировую с условием, что ответчик обязуется впредь не скрэпить данные с Ebay.com с помощью ботов.

Подобные иски не всегда увенчиваются успехом. Например, в деле Американской телевизионной сети QVC Inc. v. Resulty LLC суд рассматривал вопрос нарушения CFAA (Computer Fraud and Abuse Act – закона США о компьютерных правонарушениях, а именно 18 USC 1030(a)(5)(A) – намеренное нанесение ущерба использованием компьютерной программы. Было установлено, что веб-кроулинг от компании Resulty (ответчик) не нанес и без намерения нанести вред, а поэтому, именно в аспекте CFAA нарушения не было. В деле учитывались также и намерения Resulty, которые были определены как информирование пользователя и их дальнейшее направление на веб-сайт QVC.

В таких случаях ответственность может варьировать, зависимо от того, какую сумму физических и моральных убытков понес и заявил в суде истец. Запрет на использование ботов для скрэпинга будет обеспечен, независимо от того, какое количество убытков будет заявлено. Кроме того, сам по себе судебный процесс – очень затратный, как по времени, так и финансово.

Вопрос для Terms of Use

IT-ресурсы могут запретить скрэпинг в правилах пользования на сайте, чтобы избежать длительного и ресурсозатратного судебного процесса либо упростить его. С этими правилами мы все знакомы, но никто их не читает – на английском языке они называются Terms of Use (Terms and Conditions, User Agreement, Terms of Service etc.). Стоит четко понимать, что такие правила – это договор, который автоматически заключают пользователи с владельцем ресурса при его использовании, и поэтому правила имеют силу закона для них. Если хотите использовать ресурс, то необходимо придерживаться правил.

Негативный опыт приводит к появлению новых правил. Правила большинства ресурсов сегодня запрещают использовать ПО для сбора данных. Ответственность скрэперов/кроулеров переходит из нарушений закона (что в суде доказывать долго и трудно) в нарушение положений договора, а это более однозначное нарушение. Примером могут послужить дела LinkedIn Corporation v. Robocog Inc и Southwest Airlines Co. V. BoardFirst, LLC.

В первом случае, ответчик (Robocog) скрэпил данные с известной бизнес-соцсети. Скрэпинг был прямо запрещен правилами пользования ресурса, за что LinkedIn подал на Robocog в суд. Во избежание дорогостоящей судебной тяжбы ответчик согласился прекратить скрэпинг и выплатить истцу $40 000 за нарушение правил и нанесение ущерба.

Во втором случае ответчик собирал с сайта авиакомпании данные об их рейсах и размещал их у себя на ресурсе. Как можно догадаться, правила пользования запрещали это. Southwest Airlines были недовольны положением вещей и подали соответствующий иск. На основании нарушения правил пользования суд вынес решение в пользу истца (Southwest Airlines) с запретом дальнейшего скрэпинга и покрытием всех убытков.

Аспекты авторского права

В интернете популярны ресурсы, которые структурируют и систематизируют информацию с разных сайтов. Такой контент может охраняться авторским правом как форма выражения или структуризации информации. Например, использование статьи или базы данных без спроса правообладателя будет правонарушением и почвой для подачи иска о нарушении авторских прав.

В этом ключе суды англо-саксонской системы права обычно ставят вопрос о применимости доктрины fair use: можно ли считать сбор, структурирование и размещение контента правообладателя без его разрешения допустимым бесплатным использованием. Необходимо, чтобы использование было «трансформативным» — то есть либо изменило форму объекта, либо добавило информационную ценность материала, либо внесло в него существенные изменения. Суд учитывает также, что сама информация не охраняется авторским правом, а охране подлежит лишь определённая форма изложения.

В деле Associated Press v. Meltwater ответчик (Meltwater) отслеживал и собирал интернет-новости с разных ресурсов. После этого, контент структурировался по тематикам и размещался на сайте Meltwater. При этом указывался источник информации. Судом было установлено, что в использовании не было элемента «трансформации», а цель использования была определена как исключительно коммерческая. Суд признал это нарушением авторских прав, что вызвало возмущения о сокращении сферы применения fair use и, как следствие — о нанесении вреда общественным интересам.

Ещё одной причиной возмущений стало дело Fox News Network, LLC v. TVEyes Inc., где ответчик (TVEyes) действовал по схожему образу – скрэпил новости, но с радио и телевидения. Ответчик аргументировал использование как такое, что не подпадает под обычное авторское право – контент обрабатывался не человеком, а программой, в слишком больших для человека объемах. В остальном дело было схожим с предыдущим. Такое использование было признано правомерным (fair use).

Такие кейсы показывают, что судебная практика часто бывает неоднозначной, а похожие иски могут привести совершенно к разным последствиям.

Скрэпинг авторского материала для тренировки искусственного интеллекта порождает ещё один критерий для определения fair use — это характер использования объектов, а именно expressive и non-expressive. Первый тип использования означает взаимодействие с формой материала, на что в этом контексте не будет распространяться fair use. Второй же способ использования характеризуется разбором синтаксических составляющих объекта и его фактической стороны, оставляя форму выражения на второй план.

В свое время такое использование видеоигр Sega (разбор кода) рассматривалось в деле Sega Enters. v. Accolade, Inc. Ответчик (Accolade) использовал код игр не как основу для новой программы, а как материал для тренировки искусственного интеллекта. ИИ учился самостоятельно писать код, а потому суд посчитал, что интересам правообладателя это не вредит. Использование было признано fair use.

В странах Европы и (тем более) Украине дело обстоит немного иначе. Суд не владеет свободными полномочиями в такой мере, а больше действует согласно букве закона. Если в дата-скрэпинге будет установлено нарушение авторских прав, ответственность будет выводиться из упущенной выгоды за каждое использование авторского материала, что при неадекватном расчете может оказаться большой суммой.

Выводы о рисках сбора данных

Как итог, при разработке эффективной бизнес-модели со сбором данных, необходимо грамотно просчитывать юридические риски. Каждый случай индивидуален, но несколько простых правил помогут очертить рамки, в которых можно действовать:

  • Определите тип данных, которые вы собираете – многие из них ограничены в использовании, даже если находятся в открытом доступе (персональные данные, авторский контент).
  • Учитывайте источник, откуда берете данные – правила пользования ресурса часто устанавливают запрет на автоматизированный сбор данных, что в конечно итоге приводит к ответственности.
  • Всегда можете попробовать договориться с администрацией ресурса, как это и случилось в деле American Airlines v. FareChase, где стороны судебного дела пошли на мировую и заключили лицензионный договор об использовании FareChase данных компании American Airlines.
  • Если использование ботов для скрэпинга ресурсом не запрещено, всё равно не злоупотребляйте ботами – чрезмерная нагрузка на серверы в любом случае не одобряется, и в конечно итоге может вызвать неприятности.

Общественные отношения развиваются с огромной скоростью, а за ними постепенно меняется и правовое регулирование. Киберпространство – не исключение. То, что вчера было в свободном доступе в силу отсутствия социального запроса на защиту, сегодня получает свой регламент – со штрафами и другими вытекающими. Поэтому стоит учитывать, как выгоду технологий, так и вектор правового регулирования в этой сфере. Scrap your data safely.

Автор: Владислав Некрутенко, младший юрист TMT «Юскутум»


Ольга Карпенко, AIN


!

Если для Вас конкретно эта новость оказалась важной или интересной - пожалуйста, поделитесь ею в своей любимой социальной сети с помощью кнопок, расположенных под этим текстом. Это поможет нам в будущем делать более качественную подборку материалов, исходя из Ваших потребностей\интересов.




Коды для вставки в блог\форум

blog comments powered by Disqus


Вспомним другие новости из этого раздела?


Internet и сети

←+Ctrl+→

Интересные новости
Google ищет способы улучшить опыт европейских пользователей, страдающих из-за GDPRGoogle ищет способы улучшить опыт европейских пользователей, страдающих из-за GDPR
Google Canada поймали на «покупке» ссылокGoogle Canada поймали на «покупке» ссылок
Арестованный в США роSSийский хакер Левашов признал свою винуАрестованный в США роSSийский хакер Левашов признал свою вину
Европарламент одобрил директиву об авторских правах в интернетеЕвропарламент одобрил директиву об авторских правах в интернете
YouTube запустил вертикальную видеорекламу для TrueView и UACYouTube запустил вертикальную видеорекламу для TrueView и UAC
Блок рекламы


Похожие новости

Хакеры похитили данные почти 400 тысяч клиентов British AirwaysХакеры похитили данные почти 400 тысяч клиентов British Airways
Google начал удалять данные об анонимных запросах из отчётов в Search ConsoleGoogle начал удалять данные об анонимных запросах из отчётов в Search Console
Google Chrome собирает данные пользователей даже в режиме инкогнитоGoogle Chrome собирает данные пользователей даже в режиме инкогнито
Сколько в Украине абонентов мобильной связи и ШПД-интернета — данные Госстата
Пентагон намерен разместить данные в "облаке" Amazon – ReutersПентагон намерен разместить данные в "облаке" Amazon – Reuters
Число транзакций в сети биткоина упало до минимума 2,5 лет
Киевлянин создал карту с адресами всех украинских айтишников. Это вообще легально?Киевлянин создал карту с адресами всех украинских айтишников. Это вообще легально?
Мошенники создали фишинговый сайт НАПК, через который воруют данные е-декларантовМошенники создали фишинговый сайт НАПК, через который воруют данные е-декларантов
10 зарубежных интернет-магазинов, на которых чаще всего отовариваются украинцы — данные «Нова пошта»
Показана скорость свыше 10 Гбит/с в сети 5G в движенииПоказана скорость свыше 10 Гбит/с в сети 5G в движении
Последние новости

Подгружаем последние новости