TechFormator
  • Mobile
  • Systemy
  • Sprzęt
  • e-Marketing
  • Bezpieczeństwo
  • Inne
    • Aktualności
    • Oprogramowanie
  • Social Trends
  • Kontakt
  • Reklama
TechFormator
  • Mobile
  • Systemy
  • Sprzęt
  • e-Marketing
  • Bezpieczeństwo
  • Inne
    • Aktualności
    • Oprogramowanie
  • Social Trends
  • Kontakt
  • Reklama
Mariusz Kołacz
18 komentarzy
5 października 2012
język xml xpath

XPath Scraper Basic/Extended (XScraper)

Wielokrotnie w artykułach czy komentarzach przejawiałem niechęć do scraperów, gdzie wykorzystuje się wyrażenia RegEx. Skłoniło mnie to do napisania swojego programu do wyciągania danych ze stron WWW, który opiera się na języku ścieżek XML (XPath). XPath Scraper (w skrócie XScraper lub XS) w wersji podstawowej (Basic) od dzisiaj dostępny jest za free dla każdego czytelnika mojego bloga. W dalszej części wpisu, znajdziecie krótką prezentację programu.

Wersję podstawową można wykorzystać do testowania wyrażeń XPath oraz ręcznego wyodrębniania danych ze stron internetowych. Prawdziwy potencjał tkwi w trybie automatycznym, który jest piekielnie skuteczny (w wersji Basic opcja nieaktywna). XScraper Extended będzie dostępny wyłącznie dla nielicznych. Na 99% będą prowadzone prace nad jego rozwojem. Dla wersji Basic można spodziewać się jedynie krytycznych aktualizacji (o ile będą konieczne).

XScraper Basic

Aplikacje, które mam na własny użytek nie muszą być ładne, ważne aby robiły to do czego zostały powołane. Szersze udostępnianie programów zawsze wiąże się z podrasowaniem wyglądu interfejsu, w związku z tym okno aplikacji od czasu prezentacji zrzutu na fanpage na Facebooku przeszło niezły lifting. Sami przyznacie, że teraz wygląda lepiej?

Przejdźmy do konkretów. Okno główne zawiera dwa pola:

  • URL – wprowadzamy adres strony/podstrony (z http).
  • XPATH – wyrażenie języka XPath.

W jaki sposób konstruować wyrażenia? Po szczegóły odsyłam do poradnika. Tak na marginesie, można sobie ułatwić pracę z XPath poprzez zainstalowanie dwóch dodatków do przeglądarki Firefox, mianowicie Firebug jako podstawę oraz rozszerzenie w postaci FirePath.

Przed uruchomieniem scrapera można wybrać atrybut, który chcemy poddać inspekcji TEXT lub HREF (domyślnie). Jaka jest różnica? HREF wybieramy, kiedy naszym celem jest wyodrębnienie np. linków, TEXT kiedy chcemy wydobyć np. anchor text z odsyłaczy. Ta funkcja została wprowadzona jako ułatwienie.

Po zakończeniu procesu na wyjściu otrzymamy listę linków, postów, artykułów, proxy lub inne dane, które można łatwo zapisać do pliku TXT. Program jest bardzo prosty, każdy sobie z nim poradzi.

W trybie automatycznym użytkownik może wczytać zestaw danych (URL + XPath footprint). Dzięki temu w kilkanaście minut można wykonać pracę, która normalnie zajmuje kilka godzin 🙂

Na zakończenie, wspierane są witryny, które zakodowane są w standardzie UTF-8. Jeśli trafimy na inne kodowanie, na wyjściu zobaczymy ładne krzaczki. W wersji Basic nie zostanie dodana obsługa innych standardów (np. iso-8859-2).

Link do pobrania programu znajdziecie na fanpage, zakładka Free SEO Tools.

Polecane dla Ciebie

ranking seo keywords

Propozycje słów kluczowych z Google Suggest Scraper

zdjęcia na laptopie

Super Image Harvester Free – bot do scrapowania zdjęć

robot przy tablicy

Analiza konkurencji z SeoQuake

18 komentarzy

Kliknij tutaj aby skomentować
  • Paweł Rabinek pisze:
    5 października 2012 o 11:48

    RegEx są dla dzieciaków 😉 A tak naprawdę, to HTML jest językiem nieregularnym i wyrażenia regularne nie bardzo się do niego nadają. O wiele lepszy jest xpath o którym piszesz. Stosuję go też w swoim narzędziu Seoptimer.com

    Powiedz mi, jakie jest zastosowanie tego narzędzia? Zrozumiałem, że ono przetwarza tylko jeden podany URL…

    • Mariusz Kołacz pisze:
      5 października 2012 o 12:03

      Tak, przetwarza tylko jeden URL. Dlatego wersja podstawowa znajdzie zastosowanie głownie do testowania wyrażeń, no chyba że ktoś lubi ręcznie scrapować dane, ale jest to mozolna praca przy kilku tysiącach adresów.

  • Hubert Bernaciak pisze:
    5 października 2012 o 13:16

    o wiele bardziej uniwersalny jest Html Agility Pack do budowania narzędzi seo ze względu na parsowanie nie tylko XPATH, ale też XSLT i to bez większego zagłębiania się w ich strukturę

    • Mariusz Kołacz pisze:
      5 października 2012 o 15:18

      XScraper korzysta z Html Agility Pack 😉
      Praktycznie w każdym projekcie używam HAP mimo że w .NET jest XPath obecne (System.Xml.XPath).

    • Hubert Bernaciak pisze:
      5 października 2012 o 15:33

      to dobrze 🙂 w zasadzie mój komentarz to miała być odpowiedź do dyskusji z Pawłem Rabinkiem, a nie jako osobny wątek…

  • Kordian pisze:
    5 października 2012 o 14:51

    Czekałem na ten program. Przydałby mi się do wyciągania katalogów, tak jak na przykładzie u Ciebie. Ostatnio pobrałem google scrapera o którym pisałeś na blogu, ale już przy pierwszej próbie się wyłożył, więc podziękowałem. Nieliczna grupa ludzi będzie w posiadaniu wyższej wersji, a jakie trzeba spełniać kryteria, żeby się do niej zaliczać?

    • Mariusz Kołacz pisze:
      5 października 2012 o 15:19

      Wedle mojego uznania, nie więcej niż 4-5 osób (3 miejsca już zajęte). Nie będę ukrywał, że osoby, które w ten czy w inny sposób kiedyś mi pomogły będą miały większą szansę 🙂 Będę szczery – szansa że ktoś „z przypadku” otrzyma zaproszenie jest niewielka. Pozdrawiam!

  • Slawoo pisze:
    8 października 2012 o 23:16

    Zaproszenia tylko dla vipów 🙂
    A tak serio bardzo fajny program, świetnie, że rozwijasz poprzednie i pracujesz nad nowymi pogratulować wytrwałości. Szczególnie, że to wszystko za free 🙂

  • Andrzej B. pisze:
    9 października 2012 o 10:22

    Witam,

    Rozumiem, że wersja rozszerzona będzie płatna. Można się dowiedzieć jaka będzie jej cena? 😀

    • Mariusz Kołacz pisze:
      10 października 2012 o 12:59

      Witaj.
      Początkowo miałem program udostępniać w zamian za multikody do katalogów, dostęp do prywatnych precli czy też płatne subskrypcje narzędzi.
      Niestety program nie będzie udostępniany odpłatnie. Na ten moment soft jest na etapie testów, usprawniania, wdrażania nowych funkcjonalności. Co będzie za kilka miesięcy tego nie wiem.

  • Skimind pisze:
    13 listopada 2012 o 16:21

    A czy i ja mógłbym liczyć na zaproszenie?:)
    W ramach koncepcji listy blogów z wpisami gościnnymi?:)

    btw, sprytne acz meczące jest to wymuszone klikanie w pole „przepisz wyraz…..”, używam TAB i zwykle muszę 2 razy wypełniać to pole…;)

    • Mariusz Kołacz pisze:
      15 listopada 2012 o 08:01

      Liczba miejsc wyczerpana ale zobaczę co da się zrobić.
      Może męczące ale dzięki temu ilość spamowych komentarzy zmalała o 99%, skuteczność większa niż Akismet.

  • Skimind pisze:
    15 listopada 2012 o 08:06

    mówię – sprytne:)
    ja tam ręcznie usuwam spam komenty, roboty więcej, ale czasem jakis spamer pokomentuje cos gdzie komentarza nie mam i moge go wtedy edytowac a wartosc dodana do bloga rosnie;) i to niskim kosztem:D

  • Marek pisze:
    27 listopada 2013 o 22:10

    Używałem tego programu bardzo długo i super się sprawdzał ale od niedawna zacząłem korzystać z dodatku do Chroma o nazwie Scraper – jest jeszcze bardziej intuicyjny gdyż wystarczy ze klikniemy na dany link i lewym przyciskiem wybierzemy Scrape similar … nie trzeba nawet znać składni Xpath co może być wielkim uproszeniem dla wielu ludzi.

    • Mariusz Kołacz pisze:
      1 grudnia 2013 o 16:17

      @Marek, pełna wersja XScrapera jest znacznie bardziej rozbudowana, proces scrapowania jest w 100% zautomatyzowany. Scraper z Chrome nie jest idealny bo wiele razy miałem sytuację, gdzie trzeba było poprawiać drzewo, żeby skutecznie wszystko wyłuskać, do tego o całkowitą automatyzację w jego przypadku znacznie trudniej. Stąd też pomysł na stworzenie własnego narzędzia – XScrapera.

  • userspassw0rd pisze:
    9 marca 2014 o 23:42

    error extract file.
    please fix rar file.
    and reupload again. thanks

    • Mariusz Kołacz pisze:
      12 marca 2014 o 09:54

      Checked and everything works perfectly, RAR file was successfully extracted with 7-zip without any errors.

  • userspassw0rd pisze:
    12 marca 2014 o 13:57

    sorry,
    I use winrar.
    ok, everything works perfectly in 7-zip.
    thanks, good job brother.

    ScreenShot winrar
    oi60.tinypic.com/1ic0on.jpg

Kategorie

  • Aktualności68
  • Internet i bezpieczeństwo44
  • Marketing internetowy168
  • Oprogramowanie43
  • Sprzęt38
  • Systemy operacyjne39
  • Urządzenia mobilne23

Najczęściej czytane

analytic managers

Jak zmniejszyć współczynnik odrzuceń, czyli zwiększamy zaangażowanie użytkowników

seo wzrost na wykresie

Jak sprawdzić czy strona jest pozycjonowana?

Black Friday 2019

10 wskazówek jak nie dać się oszukać podczas Black Friday 2022 i Cyber Monday 2022

kostka z numerem 10

Wprowadź swoją stronę do TOP10 z SEOPilot

Wyszukaj

Poradniki IT

w pracy

Wybieramy sprzęt elektroniczny do biura – urządzenia Must-Have w biurze

pomiar wagi

Wybieramy wagę łazienkową – na co zwrócić uwagę przy zakupie?

Superman z baterią

Jak oszczędzać baterię w telefonie – poradnik dla smartfonów z Androidem

młoda uśmiechnięta kobieta

Jak sprawdzić czy strona internetowa jest bezpieczna?

Poradniki SEO

Black Friday 2019

10 wskazówek jak nie dać się oszukać podczas Black Friday 2022 i Cyber Monday 2022

seo content

Prowadzenie bloga sklepu internetowego – 20 przydatnych narzędzi

notatnik wordpress

Pozycjonowanie WordPress – przydatne wtyczki

seo wzrost na wykresie

Jak sprawdzić czy strona jest pozycjonowana?

Oferta

Świadczę kompleksowe usługi z zakresu marketingu internetowego, w szczególności optymalizacja, pozycjonowanie stron i sklepów internetowych, audyty SEO, audyty pozycjonowania, audyty linków, audyty słów kluczowych, audyty kar od Google, audyty techniczne. Prowadzę również kampanie reklamowe Google ADS i Facebook ADS oraz tworzę treści na sklepy internetowe i blogi. Przeczytaj więcej na SocialTrends.pl

O blogu TechFormator

Na blogu poruszane są tematy związane z marketingiem internetowym i nowymi technologiami. Znajdziesz tutaj poradniki o pozycjonowaniu i optymalizacji stron, recenzje narzędzi SEO, oprogramowania użytkowego dla Windows, Linux i urządzeń mobilnych, recenzje sprzętu IT oraz poradniki komputerowe.

Copyright 2023 - Blog technologiczny TechFormator.pl
  • Pozycjonowanie
  • Reklama
  • Archiwum
Wykorzystujemy pliki cookies. Przeglądając stronę wyrażasz zgodę na ich wykorzystanie zgodnie z ustawieniami przeglądarki [Polityka prywatności]