Как выбрать решение для парсинга сайтов: классификация и большой обзор программ, сервисов и фреймворков

Парсинг или как его еще иногда называют web scraping – процесс автоматического сбора информации с различных сайтов. Форумы, новостные сайты, социальные сети, маркейтплейсы, интернет-магазины и даже поисковая выдача, вот далеко не полный список ресурсов с которых собирают контент.

И часто контент требуется собирать в больших объемах, массово, а если еще данные нужны с определенной периодичностью, то решить такую задачу руками не представляется возможным. Вот тут на помощь приходят специальные алгоритмы, которые по определенным условиям собирают информацию, структурируют и выдают в нужном виде.

Кому и зачем нужно парсить сайты?

В основном парсинг используют профессионалы для решения рабочих задач, поскольку автоматизация позволяет получить сразу большой массив данных, но также он пригодится и для решения частных задач.

  • Маркетологи собирают информацию об объемах продаж, выявляют долю полки, узнают категорийный спрос и другие показатели позволяющие прогнозировать продажи;
  • Продукт-менеджеры собирают информацию об изменении метрик продукта, проводят A/B тесты, меряют статистическую значимость; 
  • Аналитики мониторят изменение цен конкурентов;
  • Разработчики наполняют интернет-магазины контентом оптовика и автоматически обновляют цены;
  • SEO-специалисты узнают заполнены ли все метаданные, H1, Title, Description, анализируют наличие несуществующих страниц показывающих 404 ошибку, выявляют ключевые слова;
  • Управленцы производственных компаний следят за тем, чтобы партнеры не демпинговали и получают бизнес показатели;
  • Для частных целей можно собрать коллекцию рецептов, уроков или любой другой информации, которую нужно сохранить для личных целей.

Кто бы и какую информацию не собирал важно помнить о соблюдении рамок законодательства, подробно об этом мы рассказали в статье парсинг сайтов, это законно?

С целями применения понятно, давайте теперь разберемся какие парсеры бывают и подберем инструмент для решения ваших задач, для этого разделим парсеры на несколько групп и посмотрим какие решения есть на рынке.

Классификация программ и инструментов для парсинга

По использованию ресурсов

Это важный момент, если парсер будет использоваться для бизнес задач и регулярно, вам нужно решить на чьей стороне будет работать алгоритм, на стороне исполнителя или вашей. С одной стороны, для развертывания облачного решения у себя, потребуется специалист для установки и поддержки софта, выделенное место на сервере, и работа программы будет отъедать серверные мощности. И это дорого. С другой, если вы можете себе это позволить, возможно такое решение обойдется дешевле (если масштабы сбора данных действительно промышленные), нужно изучать тарифные сетки.

Есть еще момент с приватностью, политики некоторых компаний не позволяют хранить данные на чужих серверах и тут нужно смотреть на конкретный сервис, во-первых, собранные парсером данные могут передаваться сразу по API, во-вторых, этот момент решается дополнительным пунктом в соглашении.

По способу доступа

Удаленные решения

Сюда отнесем облачные программы (SaaS-решения), главное преимущество таких решений в том, что они установлены на удаленном сервере и не используют ресурсы вашего компьютера. Вы подключаетесь к серверу через браузер (в этом случае возможна работа с любой ОС) или приложение и берете нужные вам данные.

Облачные сервисы, как и все готовые решения в этой статье, не гарантируют, что вы сможете парсить любой сайт. Вы можете столкнуться со сложной структурой, технологией сайта, которую “не понимает” сервис, защитой, которая окажется “не по зубам” или невозможностью интерпретировать данные (например, вывод текстовых данных не текстом, а картинками).

Плюсы:

  • Не требуют установки на компьютер;
  • Данные хранятся удаленно и не расходуют место, вы скачиваете только нужные результаты;
  • Могут работать с большими объемами данных;
  • Возможность работы по API и последующей автоматизации визуализации данных;

Минусы:

  • Как правило, дороже десктоп решений;
  • Требуют настройки и обслуживания;
  • Невозможность парсить сайты со сложной защитой и/или интерпретировать данные.

Рассмотрим популярные сервисы и условия работы.

Octoparse – один из популярных облачных сервисов.

Octoparse - облачный парсер

Особенности сервиса: 

  • Визуальный интерфейс для захвата данных;
  • Не требующий знания программирования;
  • Работает с динамическими элементами сайтов, такими как бесконечная прокрутка, окна авторизации, раскрывающиеся списки;
  • Язык сервиса – английский;

Стоимость, в месяц:

  • Бесплатный план позволяет собрать до 10 000 значений и запустить параллельно 2 потока;
  • Платные тарифы $89 и $249 с разным лимитом на парсинг данных;
  • Настраиваемый план для компаний с индивидуальными требованиями.

Scraper API – сервис, работающий через API, с подробной документацией.

Scraper API - облачный парсер

Особенности сервиса:

  • Автоматическое подставление прокси адресов и повторение неудачных запросов;
  • Ввод капчи;
  • Работает через API и требует знания кода;
  • Язык сервиса – английский;

Пример GET запроса:

Scraper API - пример запроса

Стоимость, в месяц:

  • Бесплатно – 1000 вызовов API (до 5 одновременных запросов);
  • Начальный и средний платный план 29$ и 99$ без геотаргетинга прокси и без поддержки JavaScript;
  • Бизнес план с поддержкой JavaScript и расширенными лимитами сбора данных;
  • Кастомный план для компаний с индивидуальными требованиями.

ScrapingHub – функциональный облачный инструмент, включающий инструмент для ротации прокси серверов, headless браузер для парсинга (требующий написания кода) и инструмент для хранения данных.

ScrapingHub – функциональный облачный парсер

Особенности сервиса:

  • Сервис представляет набор инструментов, можно выбрать необходимые, в противовес удобству каждый инструмент нужно оплатить отдельно;
  • Наличие API;
  • Наличие видео уроков для быстрого старта;
  • Язык сервиса – английский.

Стоимость прокси, в месяц:

  • Демо доступ с 10 000 запросами;
  • $99 в месяц за 200 000 запросов и $349 за 2,5м запросов;
  • Безлимитный сервис стартует от $999.

Стоимость облачного хранилища для данных, в месяц:

  • Бесплатный тариф ограничивает хранение данных 7 днями и время сканированием 1 часом;
  • Платный тариф $9.

Браузер для парсинга, в месяц:

  • $25/$50/$100 за доступ к браузеру на серверах с различной мощность.

Стоимость настраиваемого сервиса под индивидуальные запросы рассчитывается индивидуально.

Mozenda – популярный сервис позволяющий работать в облаке и на локальной машине, имеет интерфейс для визуального захвата данных без знания программирования.

Mozenda – популярный сервис позволяющий работать в облаке

Особенности сервиса:

  • Возможность вернуть деньги, если вы не сможете собрать нужные данные с помощью сервиса;
  • Хорошая тех поддержка;
  • Возможность парсить без знания программирования;
  • Наличие API;
  • Интеграция с различными сервисами, трекерами, Bl системами;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тариф на 30 дней;
  • Платные тарифы от $250 до $450 с различным набором включенных сервисов;
  • Настраиваемый план для компаний с индивидуальными требованиями.

ScrapingBee – сервис предоставляет возможность парсить данные через безголовый браузер, требует знания программирования.

ScrapingBee – сервис для парсинга

Особенности сервиса:

  • Автоматическая смена прокси в случае блокировки;
  • Наличие API;
  • Возможность работать с Javascript;
  • Плата не взимается, если парсер не сможет получить данные;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тариф включает 1000 API обращений;
  • $29, включает 250 000 запросов, прокси, отсутствие API;
  • $99, включает 1 000 000 запросов, прокси и API;
  • Настраиваемый план для компаний с индивидуальными требованиями.

Десктоп решения (программы для парсинга)

Такие программы устанавливаются на компьютер. Применяются для нерегулярных и нересурсоемких задач. Многие позволяют настраивать параметры сбора данных визуально.

Плюсы:

  • Всегда под рукой, особенно, если установлены на ноутбуке;
  • Часто имеют интерфейс визуального программирования.

Минусы:

  • Тратят ресурсы компьютера (вычислительную мощность, место на диске);
  • Работают только на ОС, под которую написаны;
  • Нет гарантии, что программа сможет собрать нужные данные, переключить листинг;
  • Часто нужно искать свои прокси адреса для обхода защиты сайтов.

ParseHub – программа, позволяющая в визуальном виде, без знания программирования собирать данные с сайтов.

Интерфейс программы:

ParseHub – программа, позволяющая в визуальном виде, без знания программирования собирать данные с сайтов

Особенности:

  • Планировщик запуска парсинга;
  • Поддержка прокси (нужно использовать свои);
  • Поддержка регулярных выражений;
  • Наличие API;
  • Работа с JavaScript и AJAX;
  • Хранение данных на серверах и выгрузка результатов в Google таблицы;
  • Работает на Windows, Mac, Linux;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тариф позволяет собрать данные с 200 страниц за запуск, с ограничением 40 минут, только текстовые данные, без ротации прокси;
  • $149, 10000 страниц за запуск с ограничением 200 страниц в 10 минут, закачка файлов, прокси, планировщик;
  • $499, неограниченное количество страниц за запуск с ограничением 200 страниц в 2 минуты, закачка файлов, прокси, планировщик;
  • Индивидуальный тариф.

Easy Web Extract – простой инструмент для парсинга сайтов, не требующий знания программирования.

Интерфейс программы:

Easy Web Extract – простой инструмент

Особенности:

  • Визуальное программирование;
  • До 24 параллельных потоков;
  • Парсинг сайтов с динамичным содержанием;
  • Имитирует поведение человека;
  • Планировщик;
  • Сохранение файлов;
  • Работает на Windows;
  • Язык сервиса – английский.

Стоимость:

  • Бесплатная версия на 14 дней, можно собрать до 200 первых результатов, экспортировать до 50 результатов;
  • Разблокированная от ограничений версия стоит $39, дополнительная лицензия $29.

FMiner – визуальный инструмент для парсинга сайтов в интернете с интуитивно понятным интерфейсом. Работает с сайтами, требующими ввода форм и прокси серверами.

Интерфейс программы:

FMiner – визуальный инструмент для парсинга сайтов

Особенности:

  • Редактор для визуального программирования парсера;
  • Парсинг динамических сайтов, использующих Ajax и Javascript;
  • Многопоточное сканирование;
  • Обход капчи;
  • Работает на Windows, Mac;
  • Язык сервиса – английский.

Стоимость:

  • Бесплатная версия ограничена 15 днями;
  • Basic версия стоит $168 и не имеет расширенных функций Pro версии;
  • Pro версия включает отчеты, планировщик, настройка с javascript.

Helium Scraper – программа для многопоточного парсинга с возможностью собирать базы данных до 140 Tb. 

Интерфейс программы:

Helium Scraper – программа для многопоточного сбора данных

Особенности:

  • Визуальное программирование парсера;
  • Парсинг динамических сайтов, использующих Ajax и Javascript;
  • Многопоточное сканирование;
  • Автоматическая ротация прокси серверов;
  • Работает на Windows;
  • Язык сервиса – английский.

Стоимость:

  • Бесплатная полнофункциональная версия ограничена 10 днями;
  • 4 тарифных плана от $99 до $699, они отличаются количеством лицензий и периодом основных обновлений.

WebHarvy Web Scraper – программа для парсинга сайтов с возможностью обнаружения паттернов в шаблонах веб-сайтов и последующей автоматической обработкой таких данных. Такая особенность существенно упрощает программирование парсера.

Интерфейс программы:

WebHarvy Web Scraper – программа для парсинга сайтов

Особенности:

  • Визуальное программирование парсинга;
  • Парсинг динамически загружаемых сайтов, использующих Javascript и Ajax;
  • Многопоточное сканирование;
  • Поддержка прокси / VPN;
  • Заполнение форм;
  • Планировщик;
  • Мультипоточность;
  • Возможность собирать данные из списка ссылок;
  • Работа с капчей;
  • Работает на Windows;
  • Язык сервиса – английский.

Стоимость:

  • Бесплатная полнофункциональная версия ограничена 15 днями и возможностью захватить 2 страницы с сайта;
  • 5 тарифных планов от $139 до $699 отличающиеся количеством лицензий.

По используемому фреймворку

Если задачи, стоящие при сборе данных нестандартные, нужно выстроить подходящую архитектуру, работать с множеством потоков, и существующие решения вас не устраивают, нужно писать свой собственный парсер. Для этого нужны ресурсы, программисты, сервера и специальный инструментарий, облегчающий написание и интеграцию парсинг программы, ну и конечно поддержка (потребуется регулярная поддержка, если изменится источник данных, нужно будет поменять код). Рассмотрим какие библиотеки существуют в настоящее время. В этом разделе не будем оценивать достоинства и недостатки решений, т.к. выбор может быть обусловлен характеристиками текущего программного обеспечения и другими особенностями окружения, что для одних будет достоинством для других – недостатком.

Парсинг сайтов Python

Библиотеки для парсинга сайтов на Python предоставляют возможность создания быстрых и эффективных программ, с последующей интеграцией по API. Важной особенностью является, что представленные ниже фреймворки имеют открытый исходный код.

Scrapy – наиболее распространенный фреймворк, имеет большое сообщество и подробную документацию, хорошо структурирован.

Scrapy – фреймворк для парсинга

Лицензия: BSD

BeautifulSoup – предназначен для анализа HTML и XML документов, имеет документацию на русском, особенности – быстрый, автоматически распознает кодировки.

BeautifulSoup – предназначен для парсинга HTML и XML

Лицензия: Creative Commons, Attribution-ShareAlike 2.0 Generic (CC BY-SA 2.0)

PySpider – мощный и быстрый, поддерживает Javascript, нет встроенной поддержки прокси.

PySpider – фреймворк парсер

Лицензия: Apache License, Version 2.0

Grab – особенность – асинхронный, позволяет писать парсеры с большим количеством сетевых потоков, есть документация на русском, работает по API.

Grab – фрейсворк парсер

Лицензия: MIT License

Lxml – простая и быстрая при анализе больших документов библиотека, позволяет работать с XML и HTML документами, преобразовывает исходную информацию в типы данных Python, хорошо документирована. Совместима с BeautifulSoup, в этом случае последняя использует Lxml как парсер.

Lxml – простая и быстрая при анализе больших документов библиотека

Лицензия: BSD

Selenium – инструментарий для автоматизации браузеров, включает ряд библиотек для развертывания, управления браузерами, возможность записывать и воспроизводить действия пользователя. Предоставляет возможность писать сценарии на различных языках, Java, C#, JavaScript, Ruby.

Selenium – инструментарий для парсинга

Лицензия: Apache License, Version 2.0

Парсинг сайтов на JavaScript

JavaScript также предлагает готовые фреймворки для создания парсеров с удобными API.

Cheerio – быстрый, анализирует разметку страницы и предлагает функции для обработки полученных данных. Работает с HTML, имеет API устроенное так же, как API jQuery.

Cheerio – быстрый парсинг сайтов

Лицензия: MIT License

Apify SDK – является библиотекой Node.js, позволяет работать с JSON, JSONL, CSV, XML,XLSX или HTML, CSS. Работает с прокси.

Apify SDK - является библиотекой Node.js

Лицензия: Apache License, Version 2.0

Osmosis – написан на Node.js, ищет и загружает AJAX, поддерживает селекторы CSS 3.0 и XPath 1.0, логирует URL, заполняет формы.

Osmosis - Node.js парсинг сайтов

Лицензия: MIT License

Парсинг сайтов на Java

Java также предлагает различные библиотеки, которые можно применять для парсинга сайтов.

Jaunt – библиотека предлагает легкий headless браузер (без графического интерфейса) для парсинга и автоматизации. Позволяет взаимодействовать с REST API или веб приложениями (JSON, HTML, XHTML, XML). Заполняет формы, скачивает файлы, работает с табличными данными, поддерживает Regex.

Jaunt – библиотека для парсинга сайтов

Лицензия: Apache License (Срок действия программного обеспечения истекает ежемесячно, после чего должна быть загружена самая последняя версия)

Jsoup – библиотека для работы с HTML, предоставляет удобный API для получения URL-адресов, извлечения и обработки данных с использованием методов HTML5 DOM и селекторов CSS. Поддерживает прокси. Не поддерживает XPath.

Jsoup – библиотека для парсинга сайтов

Лицензия: MIT License

HtmlUnit – не является универсальной средой для модульного тестирования, это браузер без графического интерфейса. Моделирует HTML страницы и предоставляет API, который позволяет вызывать страницы, заполнять формы, кликать ссылки. Поддерживает JavaScript и парсинг на основе XPath.

HtmlUnit – парсинг сайтов с помощью браузера

Лицензия: Apache License, Version 2.0

CyberNeko HTML Parser – простой парсер, позволяет анализировать HTML документы и обрабатывать с помощью XPath.

CyberNeko HTML Parser - простой парсер с помощью XPath

Лицензия: Apache License, Version 2.0

Расширения для браузеров

Парсеры сайтов выполненные в виде расширений для браузера удобны с точки зрения использования, установка минимальная – нужен всего лишь браузер, захват данных визуальный – не требует программирования.

Scrape.it – расширение для браузера Chrome для сбора данных с сайтов с визуальным Point-Click интерфейсом.

Scrape.it – расширение для браузера Chrome для сбора данных

Особенности:

  • Визуальный Point-Click захват данных;
  • Парсинг динамических сайтов, использующих Javascript;
  • Многопоточное сканирование;
  • Прокси сервера;
  • Chrome браузер;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тестовый период на 30 дней;
  • 3 тарифных плана $19.9, $49.9, $199.9 отличающиеся количеством параллельных запросов и скоростью сканирования страниц.

Web Scraper.io – инструмент для парсинга сайтов выполненный в виде расширения для Chrome, сервис с большим набором опций и возможностью визуального программирования парсинга.

Web Scraper.io – инструмент для парсинга

Особенности:

  • Визуальный захват данных с сайта;
  • Парсинг динамических сайтов с Ajax и Javascript, с возможностью прокрутки;
  • Многопоточное сканирование;
  • Автоматическая ротация прокси серверов;
  • Работает с браузерами Chrome, Firefox;
  • API;
  • Передача результатов через Dropbox;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тестовый период на 30 дней;
  • 3 тарифных плана $19.9, $49.9, $199.9, отличаются количеством параллельных запросов и скоростью сканирования страниц.

Data miner – расширение для Google Chrome и Microsoft Edge, помогает собирать данные с сайтов с помощью простого визуального интерфейса.

Data miner – расширение для Google Chrome и Microsoft Edge

Особенности:

  • Сбор данных с сайта без программирования;
  • Готовые шаблоны для 15 000+ популярных сайтов;
  • Парсинг списка URL-адресов;
  • Поддержка пагинации с дозагрузкой;
  • Автоматическое заполнение форм;
  • Работает с браузерами Chrome, Edge;
  • Эмуляция поведения человека;
  • Язык сервиса – английский;

Стоимость, в месяц:

  • Бесплатный аккаунт с возможностью парсить до 500 страниц в месяц;
  • 4 тарифных плана $19, $49, $99, $199.9 отличающиеся количеством страниц которые вы можете парсить, от 500 до 9000;
  • Enterprise, настраиваемый, договорной план для задач под запрос.

Scraper.Ai – расширение с широким набором функциональности и демократичными ценами, работает с Chrome, Firefox и Edge.

Scraper.Ai – парсинг сайтов через расширение, с широким набором функциональности и демократичными ценам

Особенности:

  • Сбор данных с сайта без программирования;
  • Готовые шаблоны для Facebook, Instagram и Twitter;
  • Поддержка пагинации с дозагрузкой;
  • Автоматическое заполнение форм;
  • Работает с браузерами Chrome, Firefox, Edge;
  • Планировщик;
  • Отслеживание изменений на сайте;
  • Лимит на количество страниц для сохранения квоты;
  • Язык сервиса – английский.

Стоимость, в месяц:

  • Бесплатный тариф на 3 месяца с возможностью парсить до 50 страниц;
  • 3 тарифных плана $9, $49, $99 отличающиеся количеством страниц которые вы можете парсить.

В зависимости от решаемых задач

Мониторинг конкурентов

Сервисы для мониторинга цен позволяют отслеживать динамику цен конкурентов на те же товарные позиции, которые продаете и вы. Далее цены сравниваются и вы можете повышать или понижать стоимость в зависимости от ситуации на рынке. Это позволяет в каждый момент времени предлагать самую выгодную цену на рынке, делая покупку в вашем магазине привлекательнее чем у конкурента, и не упустить прибыль, если конкуренты по какой-то причине подняли цены.

Подобные сервисы часто адаптированы к какому-либо маркетплейсу, для того чтобы получить цены интернет-магазинов, торгующих со своего сайта, нужно настраивать сбор данных самостоятельно или заказывать настройку парсинга индивидуально.

Монетизация подобных сервисов – подписочная модель с тарифной сеткой, ранжирующей количество собираемых цен/конкурентов.

Организация совместных закупок

Подобные сервисы предназначены для организации совестных закупок в социальных сетях. Такие парсеры собирают данные о товарах выгружают их в группы ВКонтакте и Одноклассники, что позволяет автоматизировать процесс наполнения витрины и мониторить ассортимент, остатки и цены на сайтах поставщиков. Как правило, эти парсеры имеют личный кабинет с возможностью управления, настроенные интеграции для сбора данных, систему уведомлений, возможность экспортировать данные и не требуют доработки.

Монетизация – подписка с тарификацией, зависящей от количества сайтов.

Автоматизация интернет-магазинов

Такие сервисы позволяют автоматизировать загрузку товаров (картинки, описания, характеристики) от оптовика, синхронизируют цены и остатки. Это позволяет вести работу по добавлению товара и управлению ценами в полностью автоматизированном режиме и экономить на персонале. В качестве источника может выступать как xml или csv файл, так и сайт, с которого робот забирает информацию.

Парсинг SEO данных и аналитика

Парсеры применяемые для целей поисковой оптимизации помогают собирать мета данные (H1, Title, Description), ключевые слова, составлять семантическое ядро, собирать поведенческие и количественные аналитические данные о конкурентах. Спектр инструментов очень широк по функциональности, рассмотрим популярные сервисы, чтобы вы могли подобрать подходящий.

SiteAnalyzer – парсинг-программа для проверки основных технических и SEO данных сайтов. Главная особенность – программа полностью бесплатна. Работает на локальном компьютере, доступна только для ОС Windows.

SiteAnalyzer – парсинг-программа

Особенности:

  • Не требовательна к ресурсам компьютера;
  • Проверка страниц, изображений, скриптов и документов;
  • Проверка кодов ответа (200, 404…);
  • Проверка заголовков Title, Description, Сanonical;
  • Поиск дубликатов страниц;
  • Анализ внутренних и внешних ссылок;
  • Работает на Windows;
  • Экспорт данных в CSV, Excel, PDF;
  • Локализация на 17 языков, в том числе русский;

Стоимость:

  • Бесплатно.

Screaming Frog SEO Spider – мощная и популярная программа для СЕО аудита сайта. Парсер зарекомендовал себя как один из лучших в своем классе и предоставляет широкий функционал для проведения SEO анализа.

Screaming Frog SEO Spider –  мощная и популярная программа

Особенности:

  • Требовательна к ресурсам компьютера;
  • Поддержка API Google Analytics и Google Search Console (Google Webmaster);
  • Поддержка User-Agent;
  • Поддержка редиректов URL-адресов (локальный htaccess);
  • Планировщик;
  • Настраиваемая конфигурация сканирования;
  • Проверка страниц, изображений, скриптов и документов;
  • Проверка кодов ответа (200, 404…);
  • Проверка заголовков Title, Description, Сanonical;
  • Поиск дубликатов страниц;
  • Анализ внутренних и внешних ссылок;
  • Работает на Windows, MacOS, Ubuntu;
  • Экспорт данных;
  • Англоязычный интерфейс.

Стоимость:

  • Бесплатная версия ограничена сканированием 500 адресов и урезанной функциональностью;
  • Платная полнофункциональная версия £149.99 (примерно  $200 или 14 600 руб.).

ComparseR – специализация программы аналитика индексации сайта в поисковых системах Яндекс и Google. Вы сможете выяснить какие страницы находятся в поиске, а какие нет и проанализировать их.

ComparseR – специализация программы аналитика индексации сайта

Особенности:

  • Поиск страниц, находящихся в индексе;
  • Поддержка регулярных выражений при настройке;
  • Авто ввод капчи;
  • Проверка кодов ответа (200, 404…);
  • Проверка заголовков Title, Description, Сanonical;
  • Поиск дубликатов страниц;
  • Анализ внутренних и внешних ссылок;
  • Работает на Windows;
  • Экспорт данных;
  • Русскоязычный интерфейс.

Стоимость:

  • Бесплатная версия парсит первые 150 страниц или первые 150 результатов выдачи;
  • Платная полнофункциональная версия стоит 2000 руб. без ограничения по времени.

Парсеры на основе таблиц

Такие парсеры собирают данные прямо в таблицы excel и google sheets. В основе действия таких парсеров лежат макросы автоматизирующие действия или специальные формулы извлекающие данные с сайтов. Подобные парсеры подходят для несложных задач, когда собираемые данные не защищены и находятся на простых, не динамичных сайтах.

ParserOk – парсинг сайтов на основе vba(макросов) в таблицы Microsoft Excel. Надстройка позволяет импортировать данные с сайтов по заранее созданным шаблонам и относительно проста в настройке. Недостатком является то, что если шаблон не соответствует вашему запросу, то потребуется доработка.

Стоимость лицензии составляет 2700 р., демо версия рассчитана на 10 дней.

Функции google sheets – importhtml и importxml – функции позволяющие импортировать данные прямо в таблицы. При помощи этих функций можно организовать несложный сбор данных по заранее запрограммированным вводным. Знание языка запросов “Xpath” существенно расширит область применения формул.

Настраиваемые решения для парсинга

Подобные сервисы работают “под ключ”, подходят к задаче индивидуально, парсинг пишется под конкретный запрос. Такие решения лучше всего подходят для частных задач бизнеса, например, когда нужно анализировать конкурентов, собирать определенные типы данных и делать это регулярно. Плюсы таких решений в том, что специально разработанное под задачу решение соберет данные даже с хорошо защищенных сайтов или данные, которые требуют интерпретации, например когда цена выводится не текстом, а в виде картинки. Программы и сервисы с самостоятельной настройкой в этих ситуациях не справятся с подобной задачей. Плюс, подобные сервисы не требуют выделять время отдельного сотрудника на сбор данных или переделку парсинга в случае изменения на сайте источнике.

Стоимость работы с индивидуально настроенным парсингом, если у вас несколько разных сайтов и необходимость регулярно получать данные будет выгодней, это не сложно проверить если посчитать стоимость готового решения + стоимость программиста для написания парсинга и его поддержки + стоимость содержания серверов.

Примеры подобных сервисов есть в начале статьи в разделе облачных парсеров, многие из них предлагают настраиваемые решения. Добавим русскоязычный сервис.

iDatica – сервис специализируется на организации парсинга, очистки данных, матчинга и визуализации данных под запрос. iDatica имеет русскоязычную поддержку, опытных специалистов и зарекомендовала себя как надежный партнер для разработки решений сбора и визуализации данных. По запросу команда выделяет аналитика для работы с вашими проектами.

iDatica – сервис специализируется на организации парсинга, очистки данных, матчинга и визуализации данных под запрос

Особенности сервиса: 

  • Персональный подход к задаче;
  • Выполнение задач под ключ, от вас требуется только описать задачу;
  • Работа с сайтами любой сложности;
  • Возможность подключить BI сервисы для визуализации;
  • Возможность подключить аналитика;
  • Язык сервиса – русский.

Стоимость, в месяц:

  • От 2000 рублей, рассчитывается исходя из сложности и периодичности парсинга.

Как правильно выбрать парсер

  1. Сначала определите ваши задачи: мониторинг цен, продуктовая аналитика, машинное обучение, SEO данные, автоматизация процессов;
  2. Определите источники сбора данных: сайты конкурентов, источники данных для обучения, ваш сайт и т.д.;
  3. Определите объем данных, который вы планируете собирать, от этого напрямую зависит какие ресурсы потребуются на реализацию проекта;
  4. Определите частоту сбора данных.

Если у вас стандартная задача с небольшим объемом данных и есть отдельный человек для выполнения задачи, то вам подойдет готовое решение в виде программы или расширения для браузера.

Для парсинга сложных сайтов с определенной регулярностью обратите внимание на облачные решения. Вам потребуется отдельный сотрудник для ведения этого проекта.

Если задача завязана на увеличение прибыли или даже жизнеспособность проекта стоит обратить внимание на облачный сервис с возможностью программировать или библиотеки для парсинга, выделить отдельного программиста для этой задачи и серверные мощности.

Если нужно получить решение быстро и нужно быть уверенным в качестве результата, стоить выбрать компанию реализующую проект под ключ.

Давайте начнем работу

Расскажите нам коротко о Вашей задаче, если не можете сформулировать запрос все равно напишите, мы постараемся Вам помочь.





    Политика обработки персональных данных
    1. Общие положения 1.1. Сохранность и неприкосновенность персональных данных посетителей сайта idatica.com, в том числе посетителей поддоменов (доменов третьего уровня), является приоритетной для Codekid (далее – Компания). Компания считает своим долгом обеспечивать безопасность и конфиденциальность всех личных сведений, получаемых от Пользователей Сайта. 1.2. Политика обработки персональных данных (далее – Политика) объясняет, как Компания собирает, использует и защищает персональную информацию. 1.3. Настоящая Политика обработки персональных данных применяется к сайту idatica.com, в том числе поддоменам (доменом третьего уровня). 1.4. Настоящая Политика характеризуется следующими признаками: - разработана в целях реализации требований законодательства Российской Федерации в области обработки персональных данных субъектов персональных данных; - раскрывает способы и принципы обработки Компанией персональных данных, права и обязанности Компании при обработке персональных данных, а также права субъектов персональных данных; - является общедоступным документом, размещена на Сайте Компании в сети Интернет. 2. Сведения, получаемые от Пользователя Сайта 2.1. Для проведения консультаций касательно условий разработки чат ботов Компании необходимо получить персональные данные о Пользователе. Эти данные также обеспечат лучшее понимание потребностей Пользователя Сайта и позволяют Компании предоставить пользователю Сайта информацию о максимально подходящих условиях. Эти данные также будут использованы для повышения качества консультирования пользователей Сайта по всем возникающим вопросам. 2.2 Персональные данные, получаемые от Пользователя, могут включать личную информацию, которую Пользователь указывает при регистрации на Сайте, в том числе: Ваши Ф.И.О., e-mail, телефон, город проживания. 2.3. Компания может использовать персональные данные с целью: - подтвердить личность Пользователя; - оперативно консультировать об условиях сотрудничества; - информировать Пользователя о новостях Компании. 3. Обработка персональных данных 3.1. Под обработкой персональных данных подразумевается следующий перечень действий с персональными данными: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передачу (распространение, предоставление доступа), обезличивание, блокирование, удаление, уничтожение персональных данных. 3.2. Принимая условия настоящего соглашения, Пользователь Сайта соглашается с получением рекламной рассылки по телефону (в формате sms сообщений) и по электронной почте. Данное согласие на обработку персональных данных действует бессрочно, но может быть отозвано субъектом персональных данных на основании личного заявления, направленного по электронной почте Администрации Сайта. Администрация Сайта обязуется использовать персональные данные Пользователя Сайта, полученные в результате использования Сайта в соответствии с требованиями законодательства о защите персональных данных, в том числе федерального закона № 152 ФЗ от 27.07.2006 «О персональных данных» в редакции, действующей на момент обработки таких персональных данных. 4. Cookies 4.1. Cookies - небольшой фрагмент данных, отправляемый веб сервером для хранения на компьютере Пользователя в виде файла, чтобы при следующем Вашем обращении веб Сайт мог извлечь эту информацию. Этот файл каждый раз пересылается веб серверу в http/https запросе при попытке открыть страницу соответствующего Сайта. 4.2. Cookies могут использоваться на некоторых страницах нашего Сайта, чтобы предоставить Вам более быстрый и удобный доступ. 4.3. Если Вы не желаете получать Cookies, то большинство веббраузеров позволят Вам их отклонить, в то же время позволяя Вам посещать наш Сайт без каких либо ограничений. 4.4. Cookies не используются для идентификации посетителей нашего Сайта. Третьим лицам Компания не передает Вашу информацию, исключение - получения официального запроса административных и/или судебных органов. Регистрируясь и (или) заполняя заявку на Сайте, Вы подтверждаете свое согласие на использование персональных данных в соответствии с настоящей Политикой.
    Privacy Policy

    Privacy Policy

    This Privacy Policy explains the practices regarding the collection, use, and disclosure of certain information, including any personal information. This Privacy Policy applies to the website located at http://idatica.com/ (the “Website”), the tools made available through the iDatica Website (collectively the “Services”).

    When using the Website along with any other services as may be offered vide the Website (collectively the “Site”) and submitting any personal and non-personal information to us, you agree and grant us the right to use your Information in accordance with this Privacy Policy.

    What information we collect?

    Delivering of targeted and relevant content enhances your internet and mobile experience. We will collect the Personal Information that you submit to us when using the various information submission boxes and forms located within the Site.

    Personal Information is data about you that is personally identifiable such as your name, postal address, email address, telephone number, credit card number and/or any other information that might be considered private.  When you submit inquiries, request information or give us feedback on or in relation to this Site, we will ask you for the relevant personal information. We may also ask you to provide other information in connection with your request, such as your location and industry, your preferred means of communication, as well as other information.

    Non-Personal Information is data gathered by us and/or our partners, so it can be used for the purpose of online retargeting only. Such information is gathered irrespective of whether you sign up for an account or provide us with Personal Information. Non-Personal Information is completely anonymous and includes but not limited to Internet Protocol (IP) address, browser information, date and time of visit, domain type, and other related activity collected through cookies (please read the cookie policy) web beacons and similar technologies, device identifiers etc. None of this information, under any circumstances, individually or grouped together, can be traced back to a specific individual. If we combine non-personal information with personal information, the combined information will be treated by us as Personal Information as long as it is combined.

    Hereinafter both Personal Information and Non-Personal Information is collectively referred to as “Information”.

    Opt Out

    If you do not wish to permit us to collect the Information about your web or mobile activity for delivering the targeted advertising, then you may access our web-based opt out tools here. You may also opt out of receiving mobile-based advertising based on our collection of mobile identifiers (such as the IDFA or the Android Ad ID) through your device “settings.” If you opt out through your web browser, we will place an opt-out cookie on your computer. If you opt out through your mobile device, we will cease tailoring content to your mobile device based on your device’s mobile identifier or precise location coordinates.

    These opt-out tools tell us not to use your information for customizing content we serve. This may mean, for instance, that you may receive the same content multiple times rather than receiving new or targeted content. Please note that if you block cookies, our opt-out process may not function properly. Please also note that if you delete, block, or otherwise restrict cookies, clear your cookie cache, update your browser, override your device settings or switch devices or browsers, you will need to renew your opt-out choices.

    Use of the Information which we collect.

    We may use the Personal Information you voluntarily give us (i) to process your registration, your orders and your payments, and to communicate with you on these and other topics (ii) to inform or communicate with you important information regarding the Site, any policy updates and/or other administrative information (iii) To tailor the content we display to you (iv) to provide you with communications ( both commercial and non-commercial) which may be of interest to you ( v) for business purpose such as data analysis, record keeping, audit, launching new products, upgrading our Site (vi) to measure the Site performance and the effectiveness of any communications (vii) to provide /upgrade/customize our services and products to you and disclose it to third parties where such disclosure is connected with the provision of such services and products (viii) to share information you provide to us with selected third parties that provide services to us. We provide personal information to our affiliates or other trusted businesses or persons to process it for us, based on our instructions and in compliance with our Privacy Policy and any other appropriate confidentiality and security measures.

    The Non-Personal Information we obtain from your use of our Site, may be processed as follows: The IP Addresses for purposes such as calculating Site usage levels, helping diagnose server problems, and administering the Site. We may also use and disclose IP Addresses for all the purposes for which we use and disclose Personal Information and geo-location.  The browser for collecting information such as your Media Access Control (MAC) address, computer type (Windows or Macintosh), screen resolution, time stamp and user agent string, click stream information, date and time you viewed and visited websites visited prior to your visit on our Website, operating system version and Internet browser type, language and version and cookies. We may enable Publishers to use all or some of this information through the Platform for analytics purposes and we also use this information for customizing Content to you, as described below.

    Sharing of your Information

    Disclosure of your Information shall be subject to the below:

    1.      To any third-party service providers who are associated with us and who provide services such as Website hosting, data analysis, infrastructure provision, IT services, customer service, email delivery services, credit card processing, auditing services and other similar services to enable them to provide services.

    2.      To identify you to anyone to whom you send messages through the Site via message boards, chat, profile pages and blogs and other services to which you can post information and materials. Any information you post or disclose through these services will become public information, and may be available to visitors to the Site and to the public. It’s your sole responsibility to maintain abundant caution when deciding to disclose your personal information, or any other information, on the Site.

    3.      To a third party in the event of any reorganization, merger, sale, joint venture, assignment, transfer or other disposition of all or any portion of our business, assets or stock (including about any bankruptcy or similar proceedings).

    4.      As we believe to be necessary or appropriate: (a) under applicable law; (b) to comply with legal process; (c) to respond to requests from public and government authorities including public and government authorities outside your country of residence; (d) to enforce our terms and conditions; (e) to protect our operations or those of any of our affiliates/partners; (f) to protect our rights, privacy, safety or property, and/or that of our affiliates, you or others; and (g) to allow us to pursue available remedies or limit the damages that we may sustain.

    Updating and accessing your information

    If you wish to update or amend the information which we hold about you or wish us to cease using your data or you wish to access the Information we hold about you or you don’t want to receive any marketing information from us and want us to cease to use your data for such a purpose or you want to delete your account, then please contact us at hello@idatica.com.

    We may reject requests that are unreasonably repetitive, require disproportionate technical effort (for example, developing a new system or fundamentally changing an existing practice), risk the privacy of others, or would be extremely impractical (for instance, requests concerning information residing on backup systems).

    However, do remember, that even if you delete your account, we may retain information in order to comply with laws, resolve disputes, prevent fraud etc. There may also be residual information that remains within our databases, access logs, and other records.  In the event we have disclosed information as permitted under this Policy to any third party, then we shall not be responsible for update or removing such information. For email communications, you may opt out of receiving emailers, by clicking the “unsubscribe” link at the bottom of each email.

    However, do note that even if you unsubscribe or opt-out, we may still send you communications related to your use of the Service.

    Third Party Websites

    This Privacy Policy does not address, and we are not responsible for the privacy, information or other practices of any third parties, including any third party operating any site to which this Site contains a link. The inclusion of a link on the Site does not imply endorsement of the linked site by us or by our affiliates. We recommend that you always read the privacy policies or statements of other third party websites that you may visit.

    Children

    Personal Information pertaining to individuals who are under 13 years of age is not knowingly collected or maintained. Our Website and Services is not designed to attract people under the age of 13. If we become aware of any user under the age of 13 years we take appropriate steps to remove the user’s Personal Information from our database

    Security

    We use reasonable organizational, technical and administrative measures to protect Information under our control from any unauthorized access or alterations or destruction or disclosure. Unfortunately, no systems or safeguards adopted can be guaranteed to be 100% secure. If you have reason to believe that your interaction with us is no longer secure (for example, if you feel that the security of any account you might have with us has been compromised), please immediately notify us of the problem by contacting us at our Email Address provided above.

    Cross Border Transfers

    This Site is hosted in Russian Federation. Upon you accessing the Site you consent to transfer your information out of the country of your residence to the country where our Site is hosted and you acknowledge that in such jurisdiction the laws regarding processing of Information may be less stringent that in your country.

    Where the European Union’s General Data Protection Regulation or GDPR, applies, you have rights in relation to the personal information we hold about you.

    Processing of Personal Data​

    If you are a resident of the European Union (EU), when we process your personal data, we will only do so under the following circumstances:

    1.      In order to perform our responsibilities under a contract with our customers, such as by providing the​ Idatica services you requested; or

    2.      We have a legitimate interest in processing your personal data, such as to send you communications about products or services that may interest you.

    Data Protection Rights

    You have the right to require us to correct any personal information held about you that is inaccurate and have incomplete data completed.

    Where you request correction, please explain in detail why you believe the personal information we hold about you to be inaccurate or incomplete so that we can assess whether a correction is required.

    Where you have provided your consent to us processing your personal data, you can withdraw your consent at any time and you have the right to opt-out of marketing communications that we send you. Please click the "Unsubscribe" button or turn off the email notification settings in your account.

    You may request that we erase the personal information we hold about you by contacting us.

    Questions or Complaints

    If you have a concern about our processing of personal data that we are not able to resolve, you have the right to lodge a complaint with the data privacy authority where you reside.

    Policy Updates

    We may change this Privacy Policy. Any changes will become effective when we post the revised Privacy Policy on the Site. Your use of the Site following these changes means that you accept the revised Privacy Policy.

    If you have any questions about this Privacy Policy, please contact us at hello@idatica.com.

    Last Updated: September 2020