Pewnie nikt z Was o nim nie słyszał? Kim jest tajemniczy Xidel, a może czym? I co ma wspólnego z SEO? Już pewnie domyślacie się o czym będzie ten wpis. Zaprezentuję w nim małe, zgrabne i niezwykle funkcjonalne narzędzie o nazwie Xidel. Do czego można wykorzystać ów software? Oczywiście do data miningu, czyli inaczej mówiąc do pozyskiwania (scrapowania) wszelkiego typu informacji, do których zaliczyć można adresy katalogów i precli, proxy, wyniki wyszukiwania, obrazki, zdjęcia.
Darmowy scraper XQuery, XPath, CSS3
Xidel odstrasza interfejsem, hmm... a raczej jego brakiem. Zapewne zbyt wielu osobom nie przypadnie on do gustu, ale to dobrze, albowiem czym mniej osób o nim wie (i posługuje się nim) tym lepiej. Obsługa narzędzia odbywa się z poziomu okna konsoli. Jak to mówią coś za coś. Zyskujemy mega funkcjonalność kosztem wyglądu, lecz tak w rzeczywistości interesuje nas wyłącznie druga opcja.
Aktualnie Xidel pozwala konstruować wyrażenia za pomocą języka ścieżek XPath 2.0, języka zapytań XML - XQuery 1.0, selektorów CSS3, a także templatek czyli uproszczonych wersji stron, które stanowią swoisty wzorzec.
Poniżej podaję kilka przykładów dla XPath. Więcej przykładów i szczegółowe informacje na temat narzędzia znajdziecie w pliku pomocy (readme.txt).
Wyciąganie adresów katalogów...
xidel.exe http://www.katalogiseo.info --extract "//tr/td/a[@class='broken']"
Wyciąganie kilku danych jednocześnie (w tym przykładzie adres katalogu i typ skryptu)...
xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a"
Po wykonaniu instrukcji, program domyślnie wyświetli dane w oknie konsoli. Oczywiście takie coś nas kompletnie nie urządza, najprostszym sposobem zapisu danych jest przekierowanie strumienia do określonego pliku. Więc zmodyfikujemy polecenie...
xidel http://www.katalogiseo.info -e "//tr/td/a[@class='broken']" -e "//tr/td[3]/a" >d:\dane.txt
Mając plik wynikowy można dokonać dalszej obróbki w edytorze tekstu lub arkuszu kalkulacyjnym.
Pewnie powiecie, co w tym narzędziu takiego ciekawego? Przecież ręczne scrapowanie nie należy do przyjemności. Cóż, racja! Lecz nic nie stoi na przeszkodzie (poza chęciami i umiejętnościami oczywiście), by napisać skrypt, który automatycznie wyodrębni dane ze strony internetowej. Jeśli dodamy do tego, że Xidel wspiera różne techniki (języki) scrapowania, można z niego mieć spory pożytek i to w dodatku całkowicie za free, albowiem soft udostępniany jest jako Open Source.
Xidel to bardzo interesujący projekt, którego rozwój warto śledzić!
Hej

Po pierwszych paru zdaniach nie byłem przekonany do tego narzędzia, tak jak zresztą napisałeś. Zresztą, bardziej mnie interesuje zawartość folderu SEO-TOOL's, niż sam Xidel ! Moja przygoda z SEO trwa już kilka miesięcy i zastanawiam się jakie narzędzia mógłbym wykorzystać do poprawy funkcjonowania mojego serwisu jaki i organizacji pracy. Wiem, że powinienem użyć przeglądarki / wyszukiwarki wpisów, jednak czy wspominałeś gdzieś o tym jakich narzędzi - SEO tools, używasz? Ręczne pozyskiwanie adresów katalogów, nie wchodzi w grę a nie jestem wybitnym programistą, aby zautomatyzować cały proces - zdecydowanie bardziej, preferuje zapłatę komuś za wykonanie takich czynności, choć powinienem zupełnie inaczej podchodzić do takiej sytuacji.
Pozdrawiam, liczę na ciekawą ripostę !
W tym folderze mam seo softów bardzo dużo więc wymienienie ich wszystkich w komentarzu jest nierealne. Musiałbym także na tej liście umieścić programy, które sam stworzyłem a nigdzie ich nie upubliczniłem, co z oczywistych powodów jest nierealne.
Co do katalogowania, może się zdziwisz, ale automatami stron klientów NIGDY nie jadę, wszystko odbywa się pod nadzorem człowieka - półautomatycznie, albowiem tylko wtedy mam pewność, że praca zostanie należycie wykonana. Oczywiście taki schemat jest pracochłonny, ale ja się pracy nie boję.
Fajny programik, a zapytania XPath można tworzyć prosto przy pomocy Google Chrome : )
PS. Znalazłem ciekawy program chyba nigdzie nie opisywany ->
programyseo.blogspot.com/2013/05/ose-linkscraper-scraper-linkow-z.html
Owszem można, opisywałem kiedyś metodę z Google Chrome XPath Scraper, dla przeglądarki Firefox także są dodatki, tylko nie chodzi tutaj by ręcznie wszystko scrapować, chodzi właśnie że dzięki Xidelowi można zrobić automat do wyciągania danych.
@gadqu, to Twój soft? Jeśli tak to informuję, że nie działa, nie przyjmuje klucza API. Sam soft wygląda całkiem dobrze.
Mariusz,
czyli mogę w najbliższym czasie spodziewać się listy seo programów które realnie możesz przedstawić na tle tego serwisu?
W końcu to tech - informator, sama nazwa wskazuje, na to, że jest to Twój obowiązek- hehe
oczywiście, żartuje oraz rozumiem podejście do sprawy. Praca należycie wykonana zawsze będzie dobrze traktowana, myślałem, że tylko ja jeszcze dodaje do katalogów ręcznie, jednak się myliłem. Pozdrawiam
Ja nie dodaje ręcznie, tylko pół-automatycznie a to jest ogromna różnica.
Co do listy softów seo pomyślę nad tym.
To nie mój programik. U mnie działa to demko, musisz zarejestrować się w darmowym api i podać klucz w takim formacie jak tam jest napisane.
@gadqu, działa
Ale na starym kluczu API nie chciało, musiałem wygenerować nowy i dopiero ruszyło. Dzięki za info o sofcie.
Może i interfejs jak za czasów DOSa, ale za to prędkość działania bardzo dobra. No i nie powinno się nigdy zawiesić
Przy okazji, skoro już poruszamy temat zbierania informacji z danych. Jakiś dobry long- tail keyword scraper ? Np. Long Tail Pro - jest świetny, tylko wersja testowa 10 dni...
Testowałem różne programy i żaden nie spełnił moich oczekiwań, dlatego mam własnego long tail buildera i scrapera, wymaga on jeszcze wielu udoskonaleń, ale już teraz dobrze spełnia swoje zadanie i w połączeniu z arkuszem kalkulacyjnym stanowi solidne wsparcie podczas budowania kampanii. Co do programów, w zasadzie nie program jest istotny tylko metoda budowy fraz, dużo informacji na ten temat znajdziesz na blogach zagranicznych.
Testowałem go i muszę przyznać ze interesujący jest ale rzeczywiście ten interfejs troszkę żle działa na mnie
jest zbyt prosty
Ja zdecydowanie preferuję wykorzystanie do tego celu c# i asp.net
większa dowolność i niezależność od oprogramowań firm trzecich 
Dziś miał miejsce update pingwina, jak dobrze wiemy Google sporo robi w sprawie linków niskiej jakości, ostatnio zaczynam przerzucać się na pozycjonowanie profilami, komentarzami z blogów oraz web 2.0. Pojawia się moje pytanie, czy autor bloga był by w stanie sporządzić dla użytkowników ogólno dostępna listę web 2.0 opartych na CMS wordpress? Sam korzystam z kilku list, ale zazwyczaj są to customy, które jak wiemy bez dopalania mają bardzo wolny poziom indeksacji lub jego brak. Z tych które osobiście znam to wordpress, blog.com i to by było na tyle. Unikam Polskich, ponieważ często są moderowane, a poza tym podobny problem jak wyżej, słaba indeksacja bez dopalania.
Program wygląda Ciekawie... Jednak jeżeli nie ma interfejsu to przynajmniej u mnie jest skreślony. Osobiście do wyciąga wszelkiego rodzaju danych z strony można wykorzystać program webharvy. Płatny jednak nawet laik sobie z nim poradzi.
Co do Xpath to rewelacyjnie spisuje się do wyciągania FirePath pod Firefoxa
@Sylar, dzięki za propozycję, listę Web 2.0 mam ale bez podziału na typ skryptu.
@Snaphub, nie ma to jak stary dobry C#
@Mariusz
nie taki stary ten c#, ale bardzo dobry do stworzenia własnych aplikacji wspomagających pozycjonoanie
Pisałem że stary ponieważ już w 2004 roku miałem z nim do czynienia. Język fajny, ale technologia .NET nie jest idealna, wprawdzie sporo darmowych rozszerzeń, kontrolek, darmowe środowiska IDE, ale przenośność jednak kuleje, Java lepsza
Możliwości może i ten program ma rozbudowane ale jeśli ktoś sporadycznie by go miał używać to chyba szkoda czasu na naukę. Powrót do ery pisanego - czyt. DOS jakoś mi nie leży :/