Парсим цены конкурентов самостоятельно. Программа Datacol
В текущем обзоре рассмотрим как можно использовать программы и как настроить их для парсинга или сбора цен конкурентов.
Самое главное, в чем многие заблуждаются. Не существуют и еще очень долго не будут существовать парсеры, которые могут автоматически собирать информацию с любого сайта и автоматически ее распознать. Невозможно! И точка. Парсер может автоматически собрать информацию с сайта, но это будет просто набор текста, символов и тегов. Чтоб как-то отделить полезную информацию, отдельно выделять названия товара, его цену, наличие, характеристики — требуются индивидуальные настройки под конкретный сайт. Даже такие поисковые гиганты как Google и Yandex требуют наличие специальной микроразметки на каждой страничке, которая сообщает поисковику, что вот это название товара, этот блок — описание, а вот это — цена. А вот как нам правильно настроить сбор нужно информации — сейчас узнаете.
Парсим цены конкурентов с помощью Datacol
Решений программ-парсеров уже достаточно, но принципы парсинга абсолютно одинаковые, и используется одинаково во всех программах. Для обзора я выбрал парсер Datacol, потому что я знаком с ним уже несколько лет и считаю его наиболее функциональным парсером из тех, которые я изучал. Как такового тестирования не будет, потому что работоспособность зависит только от правильности настроек. Цель статьи — познакомить Вас не с программой Datacol, а именно с принципами сбора информации и особенностями использования таких программ. Парсер Datacol позволяет собрать практически любую информацию с сайта. Я зачастую использую его для парсинга описаний и характеристик товара, но в этой статье мы коснемся только парсинга цен.
Парсим citilink.ru
Первым нашим боевым заданием будет спарсить цены интернет-магазина www.citilink.ru/.
Первым делом необходимо в программе указать — как нужно обходить сайт, на какие страницы заходить, на какие не заходить.
Можно указать адреса категорий, с которых необходимо собирать данные. Можно настроить автоматический сбор со всего сайта.
Следующих этап — указываем каким образом необходимо собирать ссылки на товары и другие категории или постраничную навигацию. Для citilink это можно сделать через помощника. Это не требует особых знаний.
Далее мы указываем непосредственно на каких страницах находятся данные и какие именно. Сейчас я выбрал: код Citilink, название товара, цена товара и Url, которого собираются значения.
А вот теперь самое страшное — необходимо программе объяснить как на странице найти именно нужный блок текста и сохранить его. Для этого используются такие инструменты как блоки, XPath и регулярные выражения. Что это такое и с чем их едят выходит за рамки этой статьи. В программе есть всевозможные помощники и тестировщики, которые очень помогают в настройке. Для многих настроек достаточно открыть мастер и просто выделить часть текста, который надо спарсить.
Сбор настроен, осталось настроить только экспорт — выбрать формат файла и столбцы.
И вот пример работы парсера для категории мониторы: Результат парсинг citilink.ru.
Парсим цены Яндекс-маркет по категориям
Желание спарсить цены с Яндекс-Маркета возникает чуть ли ни у каждого руководителя интернет-магазина. Сейчас мы быстро решим данную задачу, причем не просто соберем цены, а цены по каждому магазину с их названиями.
Последовательность настройки аналогична. Сначала указываем ссылку на категорию для парсинга. При этом для любой категории можем в Маркете отобрать необходимые нам бренды или даже определенные магазины и скопировать в программу полученный URL-адрес. В итоге будут собираться данные только интересующих нас брендов или магазинов. Для примера спарсим с Маркета велосипеды марки Navigator. Просто заходим на Маркет, выбираем велосипеды данного бренда и копируем ссылку. Можно указать сколько угодно ссылок на выборке — программа пройдется по всем ссылкам, а если несколько страниц в выборке — по всем страницам.
Аналогично предыдущему примеру указываем данные для сбора — названия и цену. И запускаем.
Буквально пару минут — и получаем цены на интересующие товары.
Скачать — результат парсинга по тестируемой категории
И на всякий случай, сама настройка — скачать настройку парсер Яндекс-Маркета по категориям
Парсим цены Яндекс-маркет по названиям товаров
Программа позволяет не только собирать данные по ссылкам, но и даже совершать определенные однотипные операции. Например, открыть определенный сайт, что-то нажать, вставить, куда-то перейти и т. д. Воспользуемся этим! Очень часто надо собрать данные не по категориям, а по списку наименований. “Обучим” программу заходить на Яндекс-Маркет, находить по списку названий товары и выводить какие магазины и по какой цене предлагают данные товары. На самом деле данная настройка уже есть в базовой комплектации программы. Проверим ее работоспособность.
Сразу предупреждаю, надо быть внимательным — при поиске по названию Яндекс может предлагать похожие модели. Например, по запросу Ipone 6s также будут выведены Iphone 6s plus. И еще одна особенность. Регион на Яндекс-Маркете в данном случае будет определен по IP-адресу и изменить его нельзя.
Проведем тест на случайно отобранных разных товаров
- Телевизор BBK 19LEM-1010/T2C черный
- Детская коляска 3 в 1 CHICCO TRIO LOVE розовая
- Блендер REDMOND RHB-2914
- Чайник REDMOND RK-G161
- Электробритва Philips PT 711/16
- Радиобудильник Philips AJ3551/12
- Объектив Nikon 50 mm f/1.4G AF-S Nikkor
- Шина Amtel Planet DC 185/70 R14 88H
- Cтеклянная мыльница FBS Ellea ell 010
- Когтеточка ковролин Гамма №1 широкая
Названия достаточно вставить в окно программы.
И буквально через минуту у нас уже есть список цен с названиями магазинов. Скачать Результаты парсинга по названиям
И если у Вас не оказалась в комплекте — настройка парсера Яндекс-Маркета по словам
Сразу видно недостатки парсинга по названию. Первое — Яндекс не всегда дает точные предложения, часто дает очень похожие варианты, что хорошо видно в файле экспорта. Например, на товар “Стеклянная мыльница FBS Ellea ell 010” Яндексом были предложены также похожие модели. Второе — на некоторые товары Яндекс-Маркет сразу предлагает карточку товара, для которой нужен отдельный парсер. Надо учитывать эти нюансы при поиске товаров по названию.
Цена продукта
Datacol ранее можно было приобрести на постоянно, с февраля 2016 года продукт стал продаваться в аренду. На момент написания статьи стоимость одного месяца работы программы составляет 1200 рублей, при подписке на год — цена 5500 рублей. Отличная цена за такое универсальное решение. Но стоит учесть, что настройка под определенные сайты оплачивается отдельно, либо можете попробовать настроить самостоятельно.
Но приятная новость. Можно перейти по ссылке скидка на Datacol, и Вы получите 10% скидки на любой продукт, в тч. продление аренды.
Выводы
Сначала будут перечислены плюсы и минусы не самой программы Datacol, а самостоятельного сбора цен конкурентов.
Плюсы самостоятельного парсинга:
- Наиболее дешевое решение для сбора цен. Цена парсера и настроек более чем доступная.
- Одна программа — неограниченное количество сайтов для парсинга.
- Можно быстро внести коррективы в работу парсера: новые категории, поля, или же если на сайте конкурента что-либо изменилось.
Минусы самостоятельного парсинга:
- Придется платить за перенастройку, если верстка сайта изменилась, или же разобраться в тонкостях настройки и перенастраивать самостоятельно.
- Нагружает заметно интернет-канал и требует компьютерных ресурсов.
- Для парсинга больших сайтов придется приобрести прокси-сервера.
- При неаккуратности парсинга сайт может забанить Ваш ip-адрес.
Что же касается самой программы Datacol:
Плюсы программы Datacol:
- Неограниченные возможности настроек.
- Большое количество готовых решений и возможность написания новых.
- Выполнение сценариев (переходов, кликов), создание плагинов.
- Возможность заказать настройку.
- Возможность запускать программу по расписанию.
Минусы программы Datacol:
- При парсинге большого количество данных (примерно более 5000 строк) программа начинает парсить во много раз медленней и может вообще завершится ошибкой.
Мнение эксперта
Если Вам необходимо собрать цены конкурентов, то сбор цен специализированными программами наиболее дешевое решение, но с соответствующими минусами: забивание интернет канала, возможность получить бан. Также в большинстве случаев это “сырая” информация, ее придется обработать — найти одинаковые, удалить ошибочные, совместить со своей номенклатурой. Если необходимо отслеживать весьма узкие задачи, например, определенные категории определенного сайта, то это вполне подходящее решение.
2 thoughts on “Парсим цены конкурентов самостоятельно. Программа Datacol”
Comments are closed.
Сколько стоит эта программа,как ее преобрести?
Прямо в статье есть ссылка на сайт. Более того ссылка дает скидку 10%