imho.ws
IMHO.WS  

Вернуться   IMHO.WS > Программы и Операционные системы > Авторский Софт
Опции темы
Старый 17.11.2020, 20:32     # 1
Chaser
Junior Member
 
Регистрация: 20.10.2005
Адрес: Москва
Сообщения: 68

Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)
BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp

Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.







Возможности программы BatchURLScraper:
  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
  • модуль для тестирования правил парсинга
  • экспорт отчетов в Excel (CSV-формат)

Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.
__________________
Site Analyzer - https://site-analyzer.ru/
Chaser вне форума  
Старый 18.11.2020, 01:07     # 2
Borland
СуперМод
IMHO Консультант 2005-2009
 
Аватар для Borland
 
Регистрация: 14.08.2002
Адрес: Московская ПЛ, ракетный отс
Пол: Male
Сообщения: 14 418

Borland - Гад и сволочь
Программе явственно не хватает руковводства по эксплуатации, хотя бы онлайнового.
Несколько примеров построения правил, объяснение что такое "XPath, CSSPath, XQuery и RegExp" в принципе и отсылка к более подробному мануалу по перечисленным технологиям.
Понятно, что практически вся информация ищется в интернете, а программу можно освоить "методом тыка", просто удобнее когда есть хоть какой-то мануал...
__________________
Не засоряйте форум "спасибами"! Для выражения благодарности существуют ПС и репутация! Соблюдайте Правила!
Распространенье наше по планете
Особенно заметно вдалеке:
В общественном парижском туалете
Есть надписи на русском языке

В. Высоцкий

Borland вне форума  
Старый 26.11.2020, 19:43     # 3
Chaser
Junior Member
 
Регистрация: 20.10.2005
Адрес: Москва
Сообщения: 68

Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)
Цитата:
Сообщение от Borland Посмотреть сообщение
Программе явственно не хватает руковводства по эксплуатации, хотя бы онлайнового.
Несколько примеров построения правил, объяснение что такое "XPath, CSSPath, XQuery и RegExp" в принципе и отсылка к более подробному мануалу по перечисленным технологиям.
Понятно, что практически вся информация ищется в интернете, а программу можно освоить "методом тыка", просто удобнее когда есть хоть какой-то мануал...
Да, вы правы, чуть позже выложим статью с примерами использования правил. А пока:

Новая версия BatchURLScraper 1.3







Что нового:
  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/
__________________
Site Analyzer - https://site-analyzer.ru/
Chaser вне форума  
Старый 08.12.2020, 20:50     # 4
Chaser
Junior Member
 
Регистрация: 20.10.2005
Адрес: Москва
Сообщения: 68

Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)Chaser Реально крут(а)
Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти
__________________
Site Analyzer - https://site-analyzer.ru/
Chaser вне форума  


Ваши права в разделе
Вы НЕ можете создавать новые темы
Вы не можете отвечать в темах.
Вы НЕ можете прикреплять вложения
Вы НЕ можете редактировать свои сообщения

BB код Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +4, время: 02:41.




Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.