XPath Scraper Basic/Extended (XScraper)

5 października 2012

Wielokrotnie w artykułach czy komentarzach przejawiałem niechęć do scraperów, gdzie wykorzystuje się wyrażenia RegEx. Skłoniło mnie to do napisania swojego programu do wyciągania danych ze stron WWW, który opiera się na języku ścieżek XML (XPath). XPath Scraper (w skrócie XScraper lub XS) w wersji podstawowej (Basic) od dzisiaj dostępny jest za free dla każdego czytelnika mojego bloga. W dalszej części wpisu, znajdziecie krótką prezentację programu.

Wersję podstawową można wykorzystać do testowania wyrażeń XPath oraz ręcznego wyodrębniania danych ze stron internetowych. Prawdziwy potencjał tkwi w trybie automatycznym, który jest piekielnie skuteczny (w wersji Basic opcja nieaktywna). XScraper Extended będzie dostępny wyłącznie dla nielicznych. Na 99% będą prowadzone prace nad jego rozwojem. Dla wersji Basic można spodziewać się jedynie krytycznych aktualizacji (o ile będą konieczne).

XScraper Basic

Aplikacje, które mam na własny użytek nie muszą być ładne, ważne aby robiły to do czego zostały powołane. Szersze udostępnianie programów zawsze wiąże się z podrasowaniem wyglądu interfejsu, w związku z tym okno aplikacji od czasu prezentacji zrzutu na fanpage na Facebooku przeszło niezły lifting. Sami przyznacie, że teraz wygląda lepiej?

Przejdźmy do konkretów. Okno główne zawiera dwa pola:

URL – wprowadzamy adres strony/podstrony (z http).
XPATH – wyrażenie języka XPath.

W jaki sposób konstruować wyrażenia? Po szczegóły odsyłam do poradnika. Tak na marginesie, można sobie ułatwić pracę z XPath poprzez zainstalowanie dwóch dodatków do przeglądarki Firefox, mianowicie Firebug jako podstawę oraz rozszerzenie w postaci FirePath.

Przed uruchomieniem scrapera można wybrać atrybut, który chcemy poddać inspekcji TEXT lub HREF (domyślnie). Jaka jest różnica? HREF wybieramy, kiedy naszym celem jest wyodrębnienie np. linków, TEXT kiedy chcemy wydobyć np. anchor text z odsyłaczy. Ta funkcja została wprowadzona jako ułatwienie.

Po zakończeniu procesu na wyjściu otrzymamy listę linków, postów, artykułów, proxy lub inne dane, które można łatwo zapisać do pliku TXT. Program jest bardzo prosty, każdy sobie z nim poradzi.

W trybie automatycznym użytkownik może wczytać zestaw danych (URL + XPath footprint). Dzięki temu w kilkanaście minut można wykonać pracę, która normalnie zajmuje kilka godzin 🙂

Na zakończenie, wspierane są witryny, które zakodowane są w standardzie UTF-8. Jeśli trafimy na inne kodowanie, na wyjściu zobaczymy ładne krzaczki. W wersji Basic nie zostanie dodana obsługa innych standardów (np. iso-8859-2).

Link do pobrania programu znajdziecie na fanpage, zakładka Free SEO Tools.

O autorze

Mariusz Kołacz

Z zawodu mgr inż. informatyk, zwolennik nowoczesnych technologii i fan Nikoli Tesla. Prowadzi kilka blogów o tematyce technologicznej. Po godzinach lubi przeczytać dobrą książkę, pozwiedzać ciekawe miejsca w Polsce lub spędzić wolny czas na łonie natury.

18 komentarzy

Paweł Rabinek pisze:

5 października 2012 o 11:48

RegEx są dla dzieciaków 😉 A tak naprawdę, to HTML jest językiem nieregularnym i wyrażenia regularne nie bardzo się do niego nadają. O wiele lepszy jest xpath o którym piszesz. Stosuję go też w swoim narzędziu Seoptimer.com

Powiedz mi, jakie jest zastosowanie tego narzędzia? Zrozumiałem, że ono przetwarza tylko jeden podany URL…
- Mariusz Kołacz pisze:
  
  5 października 2012 o 12:03
  
  Tak, przetwarza tylko jeden URL. Dlatego wersja podstawowa znajdzie zastosowanie głownie do testowania wyrażeń, no chyba że ktoś lubi ręcznie scrapować dane, ale jest to mozolna praca przy kilku tysiącach adresów.
Hubert Bernaciak pisze:

5 października 2012 o 13:16

o wiele bardziej uniwersalny jest Html Agility Pack do budowania narzędzi seo ze względu na parsowanie nie tylko XPATH, ale też XSLT i to bez większego zagłębiania się w ich strukturę
- Mariusz Kołacz pisze:
  
  5 października 2012 o 15:18
  
  XScraper korzysta z Html Agility Pack 😉
  Praktycznie w każdym projekcie używam HAP mimo że w .NET jest XPath obecne (System.Xml.XPath).
- Hubert Bernaciak pisze:
  
  5 października 2012 o 15:33
  
  to dobrze 🙂 w zasadzie mój komentarz to miała być odpowiedź do dyskusji z Pawłem Rabinkiem, a nie jako osobny wątek…
Kordian pisze:

5 października 2012 o 14:51

Czekałem na ten program. Przydałby mi się do wyciągania katalogów, tak jak na przykładzie u Ciebie. Ostatnio pobrałem google scrapera o którym pisałeś na blogu, ale już przy pierwszej próbie się wyłożył, więc podziękowałem. Nieliczna grupa ludzi będzie w posiadaniu wyższej wersji, a jakie trzeba spełniać kryteria, żeby się do niej zaliczać?
- Mariusz Kołacz pisze:
  
  5 października 2012 o 15:19
  
  Wedle mojego uznania, nie więcej niż 4-5 osób (3 miejsca już zajęte). Nie będę ukrywał, że osoby, które w ten czy w inny sposób kiedyś mi pomogły będą miały większą szansę 🙂 Będę szczery – szansa że ktoś „z przypadku” otrzyma zaproszenie jest niewielka. Pozdrawiam!
Slawoo pisze:

8 października 2012 o 23:16

Zaproszenia tylko dla vipów 🙂
A tak serio bardzo fajny program, świetnie, że rozwijasz poprzednie i pracujesz nad nowymi pogratulować wytrwałości. Szczególnie, że to wszystko za free 🙂
Andrzej B. pisze:

9 października 2012 o 10:22

Witam,

Rozumiem, że wersja rozszerzona będzie płatna. Można się dowiedzieć jaka będzie jej cena? 😀
- Mariusz Kołacz pisze:
  
  10 października 2012 o 12:59
  
  Witaj.
  Początkowo miałem program udostępniać w zamian za multikody do katalogów, dostęp do prywatnych precli czy też płatne subskrypcje narzędzi.
  Niestety program nie będzie udostępniany odpłatnie. Na ten moment soft jest na etapie testów, usprawniania, wdrażania nowych funkcjonalności. Co będzie za kilka miesięcy tego nie wiem.
Skimind pisze:

13 listopada 2012 o 16:21

A czy i ja mógłbym liczyć na zaproszenie?:)
W ramach koncepcji listy blogów z wpisami gościnnymi?:)

btw, sprytne acz meczące jest to wymuszone klikanie w pole „przepisz wyraz…..”, używam TAB i zwykle muszę 2 razy wypełniać to pole…;)
- Mariusz Kołacz pisze:
  
  15 listopada 2012 o 08:01
  
  Liczba miejsc wyczerpana ale zobaczę co da się zrobić.
  Może męczące ale dzięki temu ilość spamowych komentarzy zmalała o 99%, skuteczność większa niż Akismet.
Skimind pisze:

15 listopada 2012 o 08:06

mówię – sprytne:)
ja tam ręcznie usuwam spam komenty, roboty więcej, ale czasem jakis spamer pokomentuje cos gdzie komentarza nie mam i moge go wtedy edytowac a wartosc dodana do bloga rosnie;) i to niskim kosztem:D
Marek pisze:

27 listopada 2013 o 22:10

Używałem tego programu bardzo długo i super się sprawdzał ale od niedawna zacząłem korzystać z dodatku do Chroma o nazwie Scraper – jest jeszcze bardziej intuicyjny gdyż wystarczy ze klikniemy na dany link i lewym przyciskiem wybierzemy Scrape similar … nie trzeba nawet znać składni Xpath co może być wielkim uproszeniem dla wielu ludzi.
- Mariusz Kołacz pisze:
  
  1 grudnia 2013 o 16:17
  
  @Marek, pełna wersja XScrapera jest znacznie bardziej rozbudowana, proces scrapowania jest w 100% zautomatyzowany. Scraper z Chrome nie jest idealny bo wiele razy miałem sytuację, gdzie trzeba było poprawiać drzewo, żeby skutecznie wszystko wyłuskać, do tego o całkowitą automatyzację w jego przypadku znacznie trudniej. Stąd też pomysł na stworzenie własnego narzędzia – XScrapera.
userspassw0rd pisze:

9 marca 2014 o 23:42

error extract file.
please fix rar file.
and reupload again. thanks
- Mariusz Kołacz pisze:
  
  12 marca 2014 o 09:54
  
  Checked and everything works perfectly, RAR file was successfully extracted with 7-zip without any errors.
userspassw0rd pisze:

12 marca 2014 o 13:57

sorry,
I use winrar.
ok, everything works perfectly in 7-zip.
thanks, good job brother.

ScreenShot winrar
oi60.tinypic.com/1ic0on.jpg