język xml xpath

Zobacz co Xidel może zrobić dla Ciebie

Pewnie nikt z Was o nim nie słyszał? Kim jest tajemniczy Xidel, a może czym? I co ma wspólnego z SEO? Już pewnie domyślacie się o czym będzie ten wpis. Zaprezentuję w nim małe, zgrabne i niezwykle funkcjonalne narzędzie o nazwie Xidel. Do czego można wykorzystać ów software? Oczywiście do data miningu, czyli inaczej mówiąc do pozyskiwania (scrapowania) wszelkiego typu informacji, do których zaliczyć można adresy katalogów i precli, proxy, wyniki wyszukiwania, obrazki, zdjęcia.

Darmowy scraper XQuery, XPath, CSS3

Xidel odstrasza interfejsem, hmm… a raczej jego brakiem. Zapewne zbyt wielu osobom nie przypadnie on do gustu, ale to dobrze, albowiem czym mniej osób o nim wie (i posługuje się nim) tym lepiej. Obsługa narzędzia odbywa się z poziomu okna konsoli. Jak to mówią coś za coś. Zyskujemy mega funkcjonalność kosztem wyglądu, lecz tak w rzeczywistości interesuje nas wyłącznie druga opcja.

Xidel

Aktualnie Xidel pozwala konstruować wyrażenia za pomocą języka ścieżek XPath 2.0, języka zapytań XML – XQuery 1.0, selektorów CSS3, a także templatek czyli uproszczonych wersji stron, które stanowią swoisty wzorzec.

Poniżej podaję kilka przykładów dla XPath. Więcej przykładów i szczegółowe informacje na temat narzędzia znajdziecie w pliku pomocy (readme.txt).

Wyciąganie adresów katalogów…

xidel.exe http://www.katalogiseo.info --extract "//tr/td/a[@class='broken']"

Wyciąganie kilku danych jednocześnie (w tym przykładzie adres katalogu i typ skryptu)…

xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a"

Po wykonaniu instrukcji, program domyślnie wyświetli dane w oknie konsoli. Oczywiście takie coś nas kompletnie nie urządza, najprostszym sposobem zapisu danych jest przekierowanie strumienia do określonego pliku. Więc zmodyfikujemy polecenie…

xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a" >d:\dane.txt

Mając plik wynikowy można dokonać dalszej obróbki w edytorze tekstu lub arkuszu kalkulacyjnym.

Pewnie powiecie, co w tym narzędziu takiego ciekawego? Przecież ręczne scrapowanie nie należy do przyjemności. Cóż, racja! Lecz nic nie stoi na przeszkodzie (poza chęciami i umiejętnościami oczywiście), by napisać skrypt, który automatycznie wyodrębni dane ze strony internetowej. Jeśli dodamy do tego, że Xidel wspiera różne techniki (języki) scrapowania, można z niego mieć spory pożytek i to w dodatku całkowicie za free, albowiem soft udostępniany jest jako Open Source.

Xidel to bardzo interesujący projekt, którego rozwój warto śledzić!

O autorze

Mariusz Kołacz

Informatyką i nowymi technologiami zajmuje się od ponad 15 lat. Od 2008 roku moją drugą pasją jest marketing internetowy. Aktualnie prowadzę agencję reklamową, gdzie realizuję projekty z zakresu pozycjonowania i optymalizacji stron internetowych (SEO), reklamy na Facebooku i Google ADS (Google AdWords) oraz w zakresie optymalizacji konwersji w sklepach internetowych. Oprócz tego tworzę narzędzia SEO, piszę teksty, projektuję strony internetowe przyjazne SEO, w wolnych chwilach czytam literaturę z tematyki medycyny, parapsychologii.

19 komentarzy

Kliknij tutaj aby skomentować

  • Hej 😉
    Po pierwszych paru zdaniach nie byłem przekonany do tego narzędzia, tak jak zresztą napisałeś. Zresztą, bardziej mnie interesuje zawartość folderu SEO-TOOL’s, niż sam Xidel ! Moja przygoda z SEO trwa już kilka miesięcy i zastanawiam się jakie narzędzia mógłbym wykorzystać do poprawy funkcjonowania mojego serwisu jaki i organizacji pracy. Wiem, że powinienem użyć przeglądarki / wyszukiwarki wpisów, jednak czy wspominałeś gdzieś o tym jakich narzędzi – SEO tools, używasz? Ręczne pozyskiwanie adresów katalogów, nie wchodzi w grę a nie jestem wybitnym programistą, aby zautomatyzować cały proces – zdecydowanie bardziej, preferuje zapłatę komuś za wykonanie takich czynności, choć powinienem zupełnie inaczej podchodzić do takiej sytuacji.
    Pozdrawiam, liczę na ciekawą ripostę ! 🙂

    • W tym folderze mam seo softów bardzo dużo więc wymienienie ich wszystkich w komentarzu jest nierealne. Musiałbym także na tej liście umieścić programy, które sam stworzyłem a nigdzie ich nie upubliczniłem, co z oczywistych powodów jest nierealne.

      Co do katalogowania, może się zdziwisz, ale automatami stron klientów NIGDY nie jadę, wszystko odbywa się pod nadzorem człowieka – półautomatycznie, albowiem tylko wtedy mam pewność, że praca zostanie należycie wykonana. Oczywiście taki schemat jest pracochłonny, ale ja się pracy nie boję.

  • Fajny programik, a zapytania XPath można tworzyć prosto przy pomocy Google Chrome : )

    PS. Znalazłem ciekawy program chyba nigdzie nie opisywany -> programyseo.blogspot.com/2013/05/ose-linkscraper-scraper-linkow-z.html

    • Owszem można, opisywałem kiedyś metodę z Google Chrome XPath Scraper, dla przeglądarki Firefox także są dodatki, tylko nie chodzi tutaj by ręcznie wszystko scrapować, chodzi właśnie że dzięki Xidelowi można zrobić automat do wyciągania danych.

      @gadqu, to Twój soft? Jeśli tak to informuję, że nie działa, nie przyjmuje klucza API. Sam soft wygląda całkiem dobrze.

  • Mariusz,

    czyli mogę w najbliższym czasie spodziewać się listy seo programów które realnie możesz przedstawić na tle tego serwisu? 🙂 W końcu to tech – informator, sama nazwa wskazuje, na to, że jest to Twój obowiązek- hehe 🙂 oczywiście, żartuje oraz rozumiem podejście do sprawy. Praca należycie wykonana zawsze będzie dobrze traktowana, myślałem, że tylko ja jeszcze dodaje do katalogów ręcznie, jednak się myliłem. Pozdrawiam

    • Ja nie dodaje ręcznie, tylko pół-automatycznie a to jest ogromna różnica.
      Co do listy softów seo pomyślę nad tym.

  • To nie mój programik. U mnie działa to demko, musisz zarejestrować się w darmowym api i podać klucz w takim formacie jak tam jest napisane.

    • @gadqu, działa 🙂 Ale na starym kluczu API nie chciało, musiałem wygenerować nowy i dopiero ruszyło. Dzięki za info o sofcie.

  • Może i interfejs jak za czasów DOSa, ale za to prędkość działania bardzo dobra. No i nie powinno się nigdy zawiesić 😉

  • Przy okazji, skoro już poruszamy temat zbierania informacji z danych. Jakiś dobry long- tail keyword scraper ? Np. Long Tail Pro – jest świetny, tylko wersja testowa 10 dni…

    • Testowałem różne programy i żaden nie spełnił moich oczekiwań, dlatego mam własnego long tail buildera i scrapera, wymaga on jeszcze wielu udoskonaleń, ale już teraz dobrze spełnia swoje zadanie i w połączeniu z arkuszem kalkulacyjnym stanowi solidne wsparcie podczas budowania kampanii. Co do programów, w zasadzie nie program jest istotny tylko metoda budowy fraz, dużo informacji na ten temat znajdziesz na blogach zagranicznych.

  • Testowałem go i muszę przyznać ze interesujący jest ale rzeczywiście ten interfejs troszkę żle działa na mnie 😛 jest zbyt prosty

  • Ja zdecydowanie preferuję wykorzystanie do tego celu c# i asp.net 🙂 większa dowolność i niezależność od oprogramowań firm trzecich 🙂

  • Dziś miał miejsce update pingwina, jak dobrze wiemy Google sporo robi w sprawie linków niskiej jakości, ostatnio zaczynam przerzucać się na pozycjonowanie profilami, komentarzami z blogów oraz web 2.0. Pojawia się moje pytanie, czy autor bloga był by w stanie sporządzić dla użytkowników ogólno dostępna listę web 2.0 opartych na CMS wordpress? Sam korzystam z kilku list, ale zazwyczaj są to customy, które jak wiemy bez dopalania mają bardzo wolny poziom indeksacji lub jego brak. Z tych które osobiście znam to wordpress, blog.com i to by było na tyle. Unikam Polskich, ponieważ często są moderowane, a poza tym podobny problem jak wyżej, słaba indeksacja bez dopalania.

    • @Sylar, dzięki za propozycję, listę Web 2.0 mam ale bez podziału na typ skryptu.

      @Snaphub, nie ma to jak stary dobry C# 🙂

  • Program wygląda Ciekawie… Jednak jeżeli nie ma interfejsu to przynajmniej u mnie jest skreślony. Osobiście do wyciąga wszelkiego rodzaju danych z strony można wykorzystać program webharvy. Płatny jednak nawet laik sobie z nim poradzi.

    Co do Xpath to rewelacyjnie spisuje się do wyciągania FirePath pod Firefoxa

  • @Mariusz
    nie taki stary ten c#, ale bardzo dobry do stworzenia własnych aplikacji wspomagających pozycjonoanie

    • Pisałem że stary ponieważ już w 2004 roku miałem z nim do czynienia. Język fajny, ale technologia .NET nie jest idealna, wprawdzie sporo darmowych rozszerzeń, kontrolek, darmowe środowiska IDE, ale przenośność jednak kuleje, Java lepsza 😐

  • Możliwości może i ten program ma rozbudowane ale jeśli ktoś sporadycznie by go miał używać to chyba szkoda czasu na naukę. Powrót do ery pisanego – czyt. DOS jakoś mi nie leży :/