No Code парсинг сайтов — WEB SCRAPER

РАСШИРЕНИЕ CHROME И FIREFOX — WEB SCRAPER

web scraper

Набрел на отличное расширение для браузеров Chrome и Firefox — Web Scraper. Без всякого знания кода можно отлично парсить сайты. И инфо и магазины. Указал что нужно и вперед. Расширение бесплатное (Нет, можно и заплатить конечно, но цены от 50 вечно зеленых в месяц.). Очень удобное. Принцип его работы – «наведи и кликни». Вывод данных в форматы .csv и .xlsx.

Сайт Web Scraper с документацией на английском

НАСТРОЙКА WEB SCRAPER

При установке Web Scraper интегрируется в браузере с «Инструментами разработчика» (Windows — Ctrl+Shift+I, Linux — F12, Mac — Cmd+Opt+I).

web-scraper2

Sitemap name — название вашего проекта (только буквы, без пробелов и спецсимволов).
Start URL 1 — адрес страницы с которой начинает парсить Scraper. Можно добавить несколько страниц (например нужные разделы (подразделы) каталога интернет магазина), просто в конце строки нажать + и откроется еще одна строка и т.д.
Далее нажать кнопку «Create Sitemap«.

web-scraper3

Итак карта сайта готова, переходим к селекторам по которым и будем парсить. Открываем нужный сайт, нужный раздел (я открыл на сайте Эльдорадо раздел игровых ноутбуков). В карте сайта жмем кнопку «Add new selector» и в Type (типе поля) выбираем Link. Данный селектор используется для выбора ссылок и навигации по сайту. В поле id пишем название селектора (оно потом будет названием столбца в экселе или сиэсви). Так как парсим мы не один товар, то ставим галочку в чекбокс «Multiple«. Теперь нам нужно указать парсеру сами товары. В поле Selector выбираем Select, подводим мышку к названию товара (чтобы оно выделилось) и кликаем ей. Название товара выделяется красным. Далее подводим мышку к названию следующего товара, зажимаем Shift, и кликаем по названию этого товара. Название опять должно выделиться красным. Смотрим на страницу — выделились все названия или нет. Если не выделились то подводим мышку к следующему товару, зажимаем Shift, и опять кликаем по названию. Как только названия всех товаров выделились нажимаем зеленую кнопку «Done selecting«.

web-scraper4

Теперь в поле Selector нажмите «Data preview«. Если открылось окошко в котором есть список ссылок — вы все делаете правильно. Жмем кнопку «Save selector«.

web-scraper5

Так как парсить мы будем товар, то и на сайте нам нужно погрузиться в товар, то есть опуститься на уровень ниже. Кликаем по id link и переходим внутрь селектора.

web-scraper6

Тут немного отвлечемся на типы полей:

Type Text — тип поля Текст извлечет простой текст из выбранного элемента и из всех его дочерних элементов. Все HTML теги будут удалены, и будет возвращен только текст (так называемый Plain Text). Теги <br>(в HTML перенос строки) будут заменены символами новой строки.

Type Table — табличный тип данных, например для характеристик товара. Настройки этого селектора включают три настраиваемые селектора. Selector ( тег table) — открывающий тег таблицы. Header row selector ее обертка (тег thead) — предназначен для группировки содержимого верхнего колонтитула (так сказать ряд заголовков для столбцов), а Data rows selector (тег tr) — это строка таблицы. В поле Selector нажимаете Select и указываете мышкой таблицу. Все три поля должны заполниться. Если заполнилось неправильно, нажмите «Data preview» и посмотрите. Далее нажав нужный Select можно подправить какие данные должен захватывать селектор.

Type Image — селектор изображений извлекает URL из атрибута src картинок. Если нужно выбрать все картинки с одинаковым селектором, то нажмите чекбокс multiple. Выберите главное изображение товара кнопкой «Select«, а с помощью кнопки «Data preview» убедитесь, что вы получаете ссылку на нужное изображение.

Например нам нужно название товара, его цена, описание и изображения. Жмем «Add new selector» и добавляем нужные селекторы выделяя мышкой нужные элементы товара. У меня получилось вот так:

web-scraper7

Перед парсингом карту можно проверить в окне «Selector graph«

web-scraper8
web-scraper9

Чтобы начать парсинг нажмите «Scrape«

web-scraper10

После нажатия Scrape вам парсер покажет вам вот тако окно:

web-scraper11

Request intervals (ms) — это промежуток между запросами в миллисекундах. 2000 миллисекунд = 2 секунды. Этот промежуток нужен для того чтобы не перегружать сервер запросами и чтобы вас не забанили (например по ip).

Page load delay (ms) — это время отведенное для загрузки страницы (страницы бывают тяжелые и они долго загружаются, или сервер переполнен запросами и также не может быстро обслужить ваш запрос). Выставляем нужные значения (пока можно оставить и эти, а далее разберетесь), и жмем «Start scraping«. Появится еще одно окно в котором начнут загружаться товары.

После того как парсер окончит работу нажмите «Refresh Data» и убедитесь в правильности данных.

web-scraper12

Если вас все устраивает выберите «Export Data»

web-scraper13

и формат вывода данных (.csv или .xlsx).

web-scraper14

И плюс видео в котором все показано (бонусом парсинг каталогов с пагинацией страниц):

Еще одно видео — парсинг Авито:

Всем успехов!

Оцените статью
Добавить комментарий