xquery-xpath-ikonka

Zobacz co Xidel może zrobić dla Ciebie

Pewnie nikt z Was o nim nie słyszał? Kim jest tajemniczy Xidel, a może czym? I co ma wspólnego z SEO? Już pewnie domyślacie się o czym będzie ten wpis. Zaprezentuję w nim małe, zgrabne i niezwykle funkcjonalne narzędzie o nazwie Xidel. Do czego można wykorzystać ów software? Oczywiście do data miningu, czyli inaczej mówiąc do pozyskiwania (scrapowania) wszelkiego typu informacji, do których zaliczyć można adresy katalogów i precli, proxy, wyniki wyszukiwania, obrazki, zdjęcia.

Darmowy scraper XQuery, XPath, CSS3

Xidel odstrasza interfejsem, hmm... a raczej jego brakiem. Zapewne zbyt wielu osobom nie przypadnie on do gustu, ale to dobrze, albowiem czym mniej osób o nim wie (i posługuje się nim) tym lepiej. Obsługa narzędzia odbywa się z poziomu okna konsoli. Jak to mówią coś za coś. Zyskujemy mega funkcjonalność kosztem wyglądu, lecz tak w rzeczywistości interesuje nas wyłącznie druga opcja.

Xidel

Aktualnie Xidel pozwala konstruować wyrażenia za pomocą języka ścieżek XPath 2.0, języka zapytań XML - XQuery 1.0, selektorów CSS3, a także templatek czyli uproszczonych wersji stron, które stanowią swoisty wzorzec.

Poniżej podaję kilka przykładów dla XPath. Więcej przykładów i szczegółowe informacje na temat narzędzia znajdziecie w pliku pomocy (readme.txt).

Wyciąganie adresów katalogów...

xidel.exe http://www.katalogiseo.info --extract "//tr/td/a[@class='broken']"

Wyciąganie kilku danych jednocześnie (w tym przykładzie adres katalogu i typ skryptu)...

xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a"

Po wykonaniu instrukcji, program domyślnie wyświetli dane w oknie konsoli. Oczywiście takie coś nas kompletnie nie urządza, najprostszym sposobem zapisu danych jest przekierowanie strumienia do określonego pliku. Więc zmodyfikujemy polecenie...

xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a" >d:\dane.txt

Mając plik wynikowy można dokonać dalszej obróbki w edytorze tekstu lub arkuszu kalkulacyjnym.

Pewnie powiecie, co w tym narzędziu takiego ciekawego? Przecież ręczne scrapowanie nie należy do przyjemności. Cóż, racja! Lecz nic nie stoi na przeszkodzie (poza chęciami i umiejętnościami oczywiście), by napisać skrypt, który automatycznie wyodrębni dane ze strony internetowej. Jeśli dodamy do tego, że Xidel wspiera różne techniki (języki) scrapowania, można z niego mieć spory pożytek i to w dodatku całkowicie za free, albowiem soft udostępniany jest jako Open Source.

Xidel to bardzo interesujący projekt, którego rozwój warto śledzić!

Mariusz Kołacz scraper, Xidel, XPath, XQuery

Skomentuj wpis - Komentarzy (19)

  1. Michał pisze:

    Hej ;)
    Po pierwszych paru zdaniach nie byłem przekonany do tego narzędzia, tak jak zresztą napisałeś. Zresztą, bardziej mnie interesuje zawartość folderu SEO-TOOL's, niż sam Xidel ! Moja przygoda z SEO trwa już kilka miesięcy i zastanawiam się jakie narzędzia mógłbym wykorzystać do poprawy funkcjonowania mojego serwisu jaki i organizacji pracy. Wiem, że powinienem użyć przeglądarki / wyszukiwarki wpisów, jednak czy wspominałeś gdzieś o tym jakich narzędzi - SEO tools, używasz? Ręczne pozyskiwanie adresów katalogów, nie wchodzi w grę a nie jestem wybitnym programistą, aby zautomatyzować cały proces - zdecydowanie bardziej, preferuje zapłatę komuś za wykonanie takich czynności, choć powinienem zupełnie inaczej podchodzić do takiej sytuacji.
    Pozdrawiam, liczę na ciekawą ripostę ! :)

  2. Mariusz Kołacz pisze:

    W tym folderze mam seo softów bardzo dużo więc wymienienie ich wszystkich w komentarzu jest nierealne. Musiałbym także na tej liście umieścić programy, które sam stworzyłem a nigdzie ich nie upubliczniłem, co z oczywistych powodów jest nierealne.

    Co do katalogowania, może się zdziwisz, ale automatami stron klientów NIGDY nie jadę, wszystko odbywa się pod nadzorem człowieka - półautomatycznie, albowiem tylko wtedy mam pewność, że praca zostanie należycie wykonana. Oczywiście taki schemat jest pracochłonny, ale ja się pracy nie boję.

  3. gadqu pisze:

    Fajny programik, a zapytania XPath można tworzyć prosto przy pomocy Google Chrome : )

    PS. Znalazłem ciekawy program chyba nigdzie nie opisywany -> programyseo.blogspot.com/2013/05/ose-linkscraper-scraper-linkow-z.html

  4. Mariusz Kołacz pisze:

    Owszem można, opisywałem kiedyś metodę z Google Chrome XPath Scraper, dla przeglądarki Firefox także są dodatki, tylko nie chodzi tutaj by ręcznie wszystko scrapować, chodzi właśnie że dzięki Xidelowi można zrobić automat do wyciągania danych.

    @gadqu, to Twój soft? Jeśli tak to informuję, że nie działa, nie przyjmuje klucza API. Sam soft wygląda całkiem dobrze.

  5. Michał pisze:

    Mariusz,

    czyli mogę w najbliższym czasie spodziewać się listy seo programów które realnie możesz przedstawić na tle tego serwisu? :) W końcu to tech - informator, sama nazwa wskazuje, na to, że jest to Twój obowiązek- hehe :) oczywiście, żartuje oraz rozumiem podejście do sprawy. Praca należycie wykonana zawsze będzie dobrze traktowana, myślałem, że tylko ja jeszcze dodaje do katalogów ręcznie, jednak się myliłem. Pozdrawiam

  6. Mariusz Kołacz pisze:

    Ja nie dodaje ręcznie, tylko pół-automatycznie a to jest ogromna różnica.
    Co do listy softów seo pomyślę nad tym.

  7. gadqu pisze:

    To nie mój programik. U mnie działa to demko, musisz zarejestrować się w darmowym api i podać klucz w takim formacie jak tam jest napisane.

  8. Mariusz Kołacz pisze:

    @gadqu, działa :) Ale na starym kluczu API nie chciało, musiałem wygenerować nowy i dopiero ruszyło. Dzięki za info o sofcie.

  9. ActionClub pisze:

    Może i interfejs jak za czasów DOSa, ale za to prędkość działania bardzo dobra. No i nie powinno się nigdy zawiesić ;)

  10. Michał pisze:

    Przy okazji, skoro już poruszamy temat zbierania informacji z danych. Jakiś dobry long- tail keyword scraper ? Np. Long Tail Pro - jest świetny, tylko wersja testowa 10 dni...

  11. Mariusz Kołacz pisze:

    Testowałem różne programy i żaden nie spełnił moich oczekiwań, dlatego mam własnego long tail buildera i scrapera, wymaga on jeszcze wielu udoskonaleń, ale już teraz dobrze spełnia swoje zadanie i w połączeniu z arkuszem kalkulacyjnym stanowi solidne wsparcie podczas budowania kampanii. Co do programów, w zasadzie nie program jest istotny tylko metoda budowy fraz, dużo informacji na ten temat znajdziesz na blogach zagranicznych.

  12. Jacek pisze:

    Testowałem go i muszę przyznać ze interesujący jest ale rzeczywiście ten interfejs troszkę żle działa na mnie :P jest zbyt prosty

  13. Snaphub pisze:

    Ja zdecydowanie preferuję wykorzystanie do tego celu c# i asp.net :) większa dowolność i niezależność od oprogramowań firm trzecich :)

  14. Sylar pisze:

    Dziś miał miejsce update pingwina, jak dobrze wiemy Google sporo robi w sprawie linków niskiej jakości, ostatnio zaczynam przerzucać się na pozycjonowanie profilami, komentarzami z blogów oraz web 2.0. Pojawia się moje pytanie, czy autor bloga był by w stanie sporządzić dla użytkowników ogólno dostępna listę web 2.0 opartych na CMS wordpress? Sam korzystam z kilku list, ale zazwyczaj są to customy, które jak wiemy bez dopalania mają bardzo wolny poziom indeksacji lub jego brak. Z tych które osobiście znam to wordpress, blog.com i to by było na tyle. Unikam Polskich, ponieważ często są moderowane, a poza tym podobny problem jak wyżej, słaba indeksacja bez dopalania.

  15. Kamil pisze:

    Program wygląda Ciekawie... Jednak jeżeli nie ma interfejsu to przynajmniej u mnie jest skreślony. Osobiście do wyciąga wszelkiego rodzaju danych z strony można wykorzystać program webharvy. Płatny jednak nawet laik sobie z nim poradzi.

    Co do Xpath to rewelacyjnie spisuje się do wyciągania FirePath pod Firefoxa

  16. Mariusz Kołacz pisze:

    @Sylar, dzięki za propozycję, listę Web 2.0 mam ale bez podziału na typ skryptu.

    @Snaphub, nie ma to jak stary dobry C# :)

  17. tomatis pisze:

    @Mariusz
    nie taki stary ten c#, ale bardzo dobry do stworzenia własnych aplikacji wspomagających pozycjonoanie

  18. Mariusz Kołacz pisze:

    Pisałem że stary ponieważ już w 2004 roku miałem z nim do czynienia. Język fajny, ale technologia .NET nie jest idealna, wprawdzie sporo darmowych rozszerzeń, kontrolek, darmowe środowiska IDE, ale przenośność jednak kuleje, Java lepsza :|

  19. Piotrek pisze:

    Możliwości może i ten program ma rozbudowane ale jeśli ktoś sporadycznie by go miał używać to chyba szkoda czasu na naukę. Powrót do ery pisanego - czyt. DOS jakoś mi nie leży :/

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Poinformuj mnie o nowych komentarzach do tego wpisu.