Парсинг: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов в России и по миру?

webscraping
Попробуем рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Внимание! Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией.

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов добычи контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны. Парсинг – это процесс, посредством которого автоматизированная часть программного обеспечения извлекает данные веб-сайта, «прочесывая» многочисленные страницы. Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы.


Парсинг – не то же самое, что API. Например, компания может открыть доступ к API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через API, как правило, ниже, чем можно получить, используя парсинг. Кроме того, парсинг предоставляет более актуальную информацию, чем через API, и значительно проще настраивается со структурной точки зрения.

Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать парсинг, чтобы исследовать бейсбольную статистику для статьи. Или, например, в электронной коммерции можно извлекать наименования товаров и цены на них из разных источников для последующего анализа (как пример в России - сервис мониторинга цен xmldatafeed.com).

Но, хоть парсинг и, несомненно, мощный инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе парсинга изначально существующий контент из разных источников присваивается тем, кто этот инструмент использует, появляются этические и юридические затруднения.

На сегодняшний день в среде парсинга нет четко очерченных юридических рамок, это состояние постоянного движения, но можно попытаться приблизительно обрисовать зоны наибольшего риска. Ниже в общих чертах описываются самые яркие случаи судебных разбирательств, имевшие место в США, и ставшие прецедентными.

2000-2009: eBay

После появления парсинга юридических проблем не возникало довольно долгое время. Но в 2000 году использование этого инструмента спровоцировало настоящее сражение – eBay выступил против компании по сбору аукционных данных Bidder’s Edge. Компания eBay обвиняла Bidder’s Edge в незаконном использовании извлечения данных, обращаясь к Доктрине о нарушении границ движимого имущества. Судья поддержал истца, заявив, что высокая активность программ-роботов может подорвать работу eBay.

Затем в 2003 году в судебном процессе Intel против Hamidi, Верховный суд Калифорнии отклонил то обоснование, которое eBay использовала против Bidder’s Edge, постановив, что Доктрина о нарушении границ движимого имущества не может распространяться в компьютерной среде, если не было причинено настоящего ущерба личной собственности.

Все самые ранние дела против парсинга опирались на Доктрину о нарушении границ движимого имущества и заканчивались успехом истцов. Но этот подход больше не действенен.

2009: Facebook

В 2009 году Facebook подал в суд на Power.com – сайт, который объединял различные социальные сети в один централизованный ресурс, – когда последний включил Facebook в свой сервис. Поскольку Power.com парсил контент Facebook, вместо того чтобы придерживаться установленных стандартов гиганта, Facebook предъявил иск на основании нарушения авторского права. Компания Facebook обвиняла Power.com в копировании веб-сайта Facebook в процессе извлечения информации о пользователях. Facebook утверждала, что этот процесс является прямым и косвенным нарушением авторского права. Решение суда было в пользу Facebook, и с этого времени решения относительно законности парсинга начали приниматься в пользу авторов содержимого сайтов.

Даже если парсер игнорирует контрафактный контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный контент все равно «копируется».

2011-2014: Ауэрнхаймер

В 2010 году хакер Эндрю Ауэрнхаймер нашел брешь в системе безопасности на веб-сайте AT&T и извлек адреса электронной почты пользователей, которые посещали сайт со своих iPad. Воспользовавшись недостатком системы безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных.

Использование парсинга для извлечения конфиденциальной личной информации может привести к обвинению, даже если эта информация была номинально общедоступной. Можно попробовать убедить суд, что ни пароли, ни коды не взламывались для получения доступа к информации, тем не менее, это опасная территория.

2013: Meltwater

Meltwater – компания-разработчик программного обеспечения, чей продукт Global Media Monitoring, использует парсинг для сбора новостей. Ассошиэйтед Пресс подала в суд на Meltwater за парсинг статей, некоторые из которых были защищены авторским правом, и за незаконное присвоение новостей. Факты нельзя защищать авторским правом, но суд решил, что сами статьи и авторское изложение фактов копировать незаконно. Кроме того, использование статей компанией Meltwater не соответствовало установленным стандартам. Авторский контент не всегда можно парсить !

2014: QVC

В 2014 году QVC (известный телевизионный ритейлер) и Resultly (приложение-магазин) судились из-за того, что QVC назвал «чрезмерным парсингом». Обвинение QVC было в том, что Resultly маскировала своих поисковых роботов, чтобы скрыть исходный IP-адрес, таким образом QVC не могли блокировать нежелательных для них парсеров. Из-за того, что боты были достаточно агрессивны к серверам QVC, произошла перегрузка с отключением электричества, которое повлекло ущерб в 2 миллиона долларов. Суд оправдал Resultly, постановив, что намерений нанести ущерб не было.

А что в России?

Вопрос, который мы задали юридической компании ("Фрезе и партнеры"): "Вправе ли организация осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернете (парсинг)?" В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг сайтов является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

Не допускается нарушение Авторских и смежных прав.
Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
Не допускается использование гражданских прав в целях ограничения конкуренции.

Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
Автоматизированный сбор осуществляется законными способами.
Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
Автоматизированный сбор информации не приводит к ограничению конкуренции.

При соблюдении установленных ограничений Парсинг является законным. Выводы:

Есть рекомендации, которых стоит придерживаться, если используется парсинг:

Извлекаемый контент не должен быть защищен авторским правом

Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
Парсинг не должен нарушать условия использования сайта
Парсер не должен извлекать личную информацию пользователя
Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования

Поделиться:
1579
Комментарии
Подписаться на канал
Наверх