Wielokrotnie w artykułach czy komentarzach przejawiałem niechęć do scraperów, gdzie wykorzystuje się wyrażenia RegEx. Skłoniło mnie to do napisania swojego programu do wyciągania danych ze stron WWW, który opiera się na języku ścieżek XML (XPath). XPath Scraper (w skrócie XScraper lub XS) w wersji podstawowej (Basic) od dzisiaj dostępny jest za free dla każdego czytelnika mojego bloga. W dalszej części wpisu, znajdziecie krótką prezentację programu.
Wersję podstawową można wykorzystać do testowania wyrażeń XPath oraz ręcznego wyodrębniania danych ze stron internetowych. Prawdziwy potencjał tkwi w trybie automatycznym, który jest piekielnie skuteczny (w wersji Basic opcja nieaktywna). XScraper Extended będzie dostępny wyłącznie dla nielicznych. Na 99% będą prowadzone prace nad jego rozwojem. Dla wersji Basic można spodziewać się jedynie krytycznych aktualizacji (o ile będą konieczne).
Aplikacje, które mam na własny użytek nie muszą być ładne, ważne aby robiły to do czego zostały powołane. Szersze udostępnianie programów zawsze wiąże się z podrasowaniem wyglądu interfejsu, w związku z tym okno aplikacji od czasu prezentacji zrzutu na fanpage na Facebooku przeszło niezły lifting. Sami przyznacie, że teraz wygląda lepiej?
Przejdźmy do konkretów. Okno główne zawiera dwa pola:
- URL – wprowadzamy adres strony/podstrony (z http).
- XPATH – wyrażenie języka XPath.
W jaki sposób konstruować wyrażenia? Po szczegóły odsyłam do poradnika. Tak na marginesie, można sobie ułatwić pracę z XPath poprzez zainstalowanie dwóch dodatków do przeglądarki Firefox, mianowicie Firebug jako podstawę oraz rozszerzenie w postaci FirePath.
Przed uruchomieniem scrapera można wybrać atrybut, który chcemy poddać inspekcji TEXT lub HREF (domyślnie). Jaka jest różnica? HREF wybieramy, kiedy naszym celem jest wyodrębnienie np. linków, TEXT kiedy chcemy wydobyć np. anchor text z odsyłaczy. Ta funkcja została wprowadzona jako ułatwienie.
Po zakończeniu procesu na wyjściu otrzymamy listę linków, postów, artykułów, proxy lub inne dane, które można łatwo zapisać do pliku TXT. Program jest bardzo prosty, każdy sobie z nim poradzi.
W trybie automatycznym użytkownik może wczytać zestaw danych (URL + XPath footprint). Dzięki temu w kilkanaście minut można wykonać pracę, która normalnie zajmuje kilka godzin 🙂
Na zakończenie, wspierane są witryny, które zakodowane są w standardzie UTF-8. Jeśli trafimy na inne kodowanie, na wyjściu zobaczymy ładne krzaczki. W wersji Basic nie zostanie dodana obsługa innych standardów (np. iso-8859-2).
Link do pobrania programu znajdziecie na fanpage, zakładka Free SEO Tools.