IMHO.WS

IMHO.WS (http://www.imho.ws/index.php)
-   Авторский Софт (http://www.imho.ws/forumdisplay.php?f=92)
-   -   BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp (http://www.imho.ws/showthread.php?t=148663)

Chaser 17.11.2020 19:32

BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp
 
Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.

https://site-analyzer.ru/pages/soft/buscr/buscr.png

https://site-analyzer.ru/pages/soft/...rape-rules.png

https://site-analyzer.ru/pages/soft/...uscr-debug.png

Возможности программы BatchURLScraper:
  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
  • модуль для тестирования правил парсинга
  • экспорт отчетов в Excel (CSV-формат)

Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.

Borland 18.11.2020 00:07

Программе явственно не хватает руковводства по эксплуатации, хотя бы онлайнового.
Несколько примеров построения правил, объяснение что такое "XPath, CSSPath, XQuery и RegExp" в принципе и отсылка к более подробному мануалу по перечисленным технологиям.
Понятно, что практически вся информация ищется в интернете, а программу можно освоить "методом тыка", просто удобнее когда есть хоть какой-то мануал...

Chaser 26.11.2020 18:43

Цитата:

Сообщение от Borland (Сообщение 1806608)
Программе явственно не хватает руковводства по эксплуатации, хотя бы онлайнового.
Несколько примеров построения правил, объяснение что такое "XPath, CSSPath, XQuery и RegExp" в принципе и отсылка к более подробному мануалу по перечисленным технологиям.
Понятно, что практически вся информация ищется в интернете, а программу можно освоить "методом тыка", просто удобнее когда есть хоть какой-то мануал...

Да, вы правы, чуть позже выложим статью с примерами использования правил. А пока:

Новая версия BatchURLScraper 1.3

https://site-analyzer.ru/pages/artic...scr/get-ga.png

https://site-analyzer.ru/pages/artic...es-counter.png

https://site-analyzer.ru/pages/artic...r-settings.png

Что нового:
  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/

Chaser 08.12.2020 19:50

Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти


Часовой пояс GMT +4, время: 17:34.

Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.