Мир дикого скрэпинга: как собирать данные в сети легально?
Фундамент Четвертой индустриальной революции составляет Big Data — большое и разнообразное количество данных о поведении пользователей и активности их устройств в сети. Технологические решения позволяют изучать поведение человека и механизмы принятия решений, выводить полезные закономерности и использовать их при ведении дел. Это неоценимые возможности, пишут
Обработка данных все чаще используется для маркетинговых целей. Для этого компании собирают бесплатные, на первый взгляд, данные с открытых источников интернета.
С появлением новых возможностей развивается и государственное регулирование, и частное – со стороны интернет-ресурсов. Кажется, что данные только лежат и ждут, пока их используют. На самом деле компанию могут привлечь к ответственности за неправильный сбор и обработку данных.
Для сбора данных в интернете компании чаще всего используют автоматические решения, в том числе ботов. Сам же сбор данных может осуществляться в двух формах: в форме веб-скрэпинга — сбора данных с определенного веб-ресурса, или же в форме веб-кроулинга — сбора и систематизации данных с гиперссылок, которые размещены на определенном веб-ресурсе. Всегда ли он является легальным? Сам по себе скрэпинг/кроулинг не расценивается как правонарушение. Юридические аспекты, в первую очередь, касаются персональных данных, правил пользования ресурса и других вопросов.
Персональные данные – что это?
Сегодня в массах активно обсуждают тему персональных данных. В сети мы везде оставляем за собой след. Отпечатки наших действий могут использовать в разных целях – совершенствовать сервисы или же направить против нас.
Что такое персональные данные? Это сведения, по которым можно идентифицировать человека (связать информацию с определенной личностью). Ими могут быть: ФИО, домашний адрес, паспортные данные, банковские данные, возраст, профессия, религиозные, политические взгляды, IP-адрес. Информация о взглядах, привычках и интересах, IP-адрес помогает определить, что лучше всего продавать человеку и как максимально привлечь его внимание к рекламе. Эта же информация может быть базой для планирования преступления по отношению к человеку самым эффективным способом.
По этим причинам персональные данные — объект повышенного внимания и охраны, причем неважно, находятся они в открытом доступе или же защищены от внимания третьих лиц. Не так давно Европейский суд в деле
Одно из главных ограничений для использования персональных данных — их сбор и обработка допускается только при наличии согласия, причем исключительно в тех целях, на которые его давали. Такое требование можно найти как в украинском (ст. 6 ЗУ «
Получается, что привилегией обрабатывать персональные данные обладают только ресурсы, которым пользователи предоставляют данные. Ресурс может передать данные третьим лицам, но только если пользователи дадут разрешение. А по законам Калифорнии (согласно
Зачем учитывать этот аспект? Нарушение требований может привести к серьезной ответственности – внушительным штрафам, возмещению убытков за утечку персональных данных, блокировке ресурсом, а в некоторых странах даже на основании судебного решения, как в РФ). Например,
Что же по другим данным?
В коммерческих целях могут собираться данные веб-активности, анонимизированные данные, любые другие статистические данные, проводиться порт-сканнинг — сбор информации о подключениях к интернет-провайдерам. Даже если данные не определяются как персональные, их сбор и использование все равно может вызвать проблемы. В западных странах проблематичность темы доказывает как активное обсуждение в интернет-сообществе, так и большое количество судебных дел.
Недовольство скрэпингом или кроулингом, в первую очередь, проявляют владельцы веб-сайтов, затем оно переходит в юридическую плоскость. Что именно вызывает диссонанс? У использования софта для сбора данных есть своя особенность – бот посылает запросы на веб-сайт куда больше и чаще, чем это может позволить себе пользователь, и это может вызывать большую нагрузку на серверы ресурсов. Владельцы ресурсов считают, что использование ботов и другого софта для сбора данных на их сайтах может нанести вред деловой репутации, так как это потенциальная угроза замедления работы ресурса, падения серверов и утечки данных вследствие этого.
Как результат, владельцы онлайн-площадок могут подать в суд с требованием запретить автоматический сбор данных на их ресурсе. Примерно так поступил в свое время Ebay в деле
Подобные иски не всегда увенчиваются успехом. Например, в деле Американской телевизионной сети
В таких случаях ответственность может варьировать, зависимо от того, какую сумму физических и моральных убытков понес и заявил в суде истец. Запрет на использование ботов для скрэпинга будет обеспечен, независимо от того, какое количество убытков будет заявлено. Кроме того, сам по себе судебный процесс – очень затратный, как по времени, так и финансово.
Вопрос для Terms of Use
IT-ресурсы могут запретить скрэпинг в правилах пользования на сайте, чтобы избежать длительного и ресурсозатратного судебного процесса либо упростить его. С этими правилами мы все знакомы, но никто их не читает – на английском языке они называются Terms of Use (Terms and Conditions, User Agreement, Terms of Service etc.). Стоит четко понимать, что такие правила – это договор, который автоматически заключают пользователи с владельцем ресурса при его использовании, и поэтому правила имеют силу закона для них. Если хотите использовать ресурс, то необходимо придерживаться правил.
Негативный опыт приводит к появлению новых правил. Правила большинства ресурсов сегодня запрещают использовать ПО для сбора данных. Ответственность скрэперов/кроулеров переходит из нарушений закона (что в суде доказывать долго и трудно) в нарушение положений договора, а это более однозначное нарушение. Примером могут послужить дела
В первом случае, ответчик (Robocog) скрэпил данные с известной бизнес-соцсети. Скрэпинг был прямо запрещен правилами пользования ресурса, за что LinkedIn подал на Robocog в суд. Во избежание дорогостоящей судебной тяжбы ответчик согласился прекратить скрэпинг и выплатить истцу $40 000 за нарушение правил и нанесение ущерба.
Во втором случае ответчик собирал с сайта авиакомпании данные об их рейсах и размещал их у себя на ресурсе. Как можно догадаться, правила пользования запрещали это. Southwest Airlines были недовольны положением вещей и подали соответствующий иск. На основании нарушения правил пользования суд вынес решение в пользу истца (Southwest Airlines) с запретом дальнейшего скрэпинга и покрытием всех убытков.
Аспекты авторского права
В интернете популярны ресурсы, которые структурируют и систематизируют информацию с разных сайтов. Такой контент может охраняться авторским правом как форма выражения или структуризации информации. Например, использование статьи или базы данных без спроса правообладателя будет правонарушением и почвой для подачи иска о нарушении авторских прав.
В этом ключе суды англо-саксонской системы права обычно ставят вопрос о применимости доктрины fair use: можно ли считать сбор, структурирование и размещение контента правообладателя без его разрешения допустимым бесплатным использованием. Необходимо, чтобы использование было «трансформативным» — то есть либо изменило форму объекта, либо добавило информационную ценность материала, либо внесло в него существенные изменения. Суд учитывает также, что сама информация не охраняется авторским правом, а охране подлежит лишь определённая форма изложения.
В деле
Ещё одной причиной возмущений стало дело
Такие кейсы показывают, что судебная практика часто бывает неоднозначной, а похожие иски могут привести совершенно к разным последствиям.
Скрэпинг авторского материала для тренировки искусственного интеллекта порождает ещё один критерий для определения fair use — это характер использования объектов, а именно expressive и non-expressive. Первый тип использования означает взаимодействие с формой материала, на что в этом контексте не будет распространяться fair use. Второй же способ использования характеризуется разбором синтаксических составляющих объекта и его фактической стороны, оставляя форму выражения на второй план.
В свое время такое использование видеоигр Sega (разбор кода) рассматривалось в деле
В странах Европы и (тем более) Украине дело обстоит немного иначе. Суд не владеет свободными полномочиями в такой мере, а больше действует согласно букве закона. Если в дата-скрэпинге будет установлено нарушение авторских прав, ответственность будет выводиться из упущенной выгоды за каждое использование авторского материала, что при неадекватном расчете может оказаться большой суммой.
Выводы о рисках сбора данных
Как итог, при разработке эффективной бизнес-модели со сбором данных, необходимо грамотно просчитывать юридические риски. Каждый случай индивидуален, но несколько простых правил помогут очертить рамки, в которых можно действовать:
- Определите тип данных, которые вы собираете – многие из них ограничены в использовании, даже если находятся в открытом доступе (персональные данные, авторский контент).
- Учитывайте источник, откуда берете данные – правила пользования ресурса часто устанавливают запрет на автоматизированный сбор данных, что в конечно итоге приводит к ответственности.
- Всегда можете попробовать договориться с администрацией ресурса, как это и случилось в деле American Airlines v. FareChase, где стороны судебного дела пошли на мировую и заключили лицензионный договор об использовании FareChase данных компании American Airlines.
- Если использование ботов для скрэпинга ресурсом не запрещено, всё равно не злоупотребляйте ботами – чрезмерная нагрузка на серверы в любом случае не одобряется, и в конечно итоге может вызвать неприятности.
Общественные отношения развиваются с огромной скоростью, а за ними постепенно меняется и правовое регулирование. Киберпространство – не исключение. То, что вчера было в свободном доступе в силу отсутствия социального запроса на защиту, сегодня получает свой регламент – со штрафами и другими вытекающими. Поэтому стоит учитывать, как выгоду технологий, так и вектор правового регулирования в этой сфере. Scrap your data safely.
Автор: Владислав Некрутенко, младший юрист TMT «