catscraper-thumb

Listy katalogów stron - hurtowe pozyskiwanie adresów

Oprócz pozycjonowania stron zajmuję się także tworzeniem SEO botów. Wszystkie mają na celu zautomatyzować powtarzające się czynności lub usprawnić proces pozyskiwania danych (Data Mining). W niniejszym wpisie chciałbym przedstawić jeden z autorskich programów SEO. Program nosi nazwę CatScraper i jego zadaniem jest tworzenie listy katalogów na podstawie zebranych danych. Aplikacja jest bardzo prosta, ale pozwala zaoszczędzić sporo czasu.

W jednym z poprzednich artykułów opisałem, jak można pozyskać adresy katalogów wykorzystując darmowy dodatek do przeglądarki Google Chrome - XPath Scraper. Niestety zaprezentowana metoda jest dobra w odniesieniu do niewielkich zbiorów danych, dlatego też z biegiem czasu stworzyłem kilka programów, które automatyzowały proces pozyskiwania katalogów. Jednym z nich jest CatScraper.

Wersja 1.0 pobiera informacje tylko z jednej witryny. Na tę chwilę można wyłuskać 3449 katalogów. Natomiast docelowo mam zamiar rozszerzyć funkcjonalność do ponad 30 stron polskich i zagranicznych, szacunkowo będzie można pozyskać nawet 60-tysięcy adresów. Nie zdecydowałem jeszcze, czy rozszerzona wersja będzie darmowa.

CatScraper

UWAGA! Przed użyciem programu zapoznaj się z plikiem przeczytaj-TO.txt

CatScraper dostarczany jest w formie bezinstalacyjnej. Aplikację uruchamiamy poprzez plik CatScraper.exe - po włączeniu programu klikamy Uruchom i od tego momentu rozpoczyna się proces zbierania informacji. Proces można w każdej chwili zatrzymać. Listę można wyeksportować do pliku TXT (przycisk Zapisz).

Wymagania:

  • System operacyjny XP, Vista, Windows 7 32/64-bit lub Linux ze środowiskiem Wine i wgranymi bibliotekami Microsoft .NET (zobacz instrukcję dla Linux),
  • Biblioteki .NET Framework w wersji 4.0,
  • Pamięć RAM: 64MB,
  • Aktywne połączenie z Internetem.

CatScraper w wersji 1.0 udostępniam na licencji Freeware.

Aktualizacja: 5.02.2013 r.
Program można pobrać z fanpage, zakładka Free SEO Tools.

Aktualizacja CatScrapera

Nowa wersja programu do tworzenia list katalogów stron...

Czytaj dalej »

Domeny

Mariusz Kołacz CatScraper, katalogi, lista, listy, seo, SEOKatalog

Skomentuj wpis - Komentarzy (38)

  1. Maksiu pisze:

    Przydatny programik. Mega lista w kilkanaście sekund. Dzięki za podzielenie się nim i powodzenia w rozwijaniu go ! Pozdrawiam.

  2. Mariusz Kołacz pisze:

    Dzięki. Na ten moment wprowadziłem już jedną drobną poprawkę korygującą.
    Program na pewno będzie kontynuowany, czy i w jakiej formie zostanie udostępniona wersja rozszerzona... czas pokaże.

  3. Marek pisze:

    witam, program korzysta z tzw katalogów katalogów do pozyskiwania adresów ? mam coś podobnego co przegląda katalogi katalogów, nie tylko szuka adresów ale określa płanty nie płatny PR etc

  4. Mariusz Kołacz pisze:

    Nie, ale ciekawy pomysł, taki wariant też mogę wprowadzić choć z określaniem typu katalogu może być problem. W seokatalogach mógłbym co najwyżej zebrać info z listy rozwijanej, jakie typy wpisów są dozwolone. Z określeniem czy darmowy, czy nie też nie byłby to problem, gdyby nie fakt, że wiele katalogów stosuje różne oznaczenia dla wpisów za free, ale myślę że jakbym do tego przysiadł do zrobienia ;)

  5. Marek pisze:

    a w czym to piszesz .net c# ? czy inny język programowania..., byłoby znacznie prościej gdyby te katalogi katalogów były standaryzowane, a tak to co krok to prorok...

  6. seotarget pisze:

    proponuje zrobić scraper google, listę footprintow i rozpoznawać katalogi po url oraz strukturze na stronie. Jeśli chciałbyś scraper do tego to mogę pomoc, mam wszystkie tematyki google w php więc było by szybciej. Skuteczność wyciągania 100%, sb myślę że ma z 30%(serio). A program ciekawy, na pewno sprawdzę dokładniej:)

  7. Mariusz Kołacz pisze:

    Dobry pomysł, nie przyszło mi to na myśl a przecież do wyszukiwania też to stosuję ;) Do określania typu katalogu z tego co widzę nie ma darmowego softu, jest jedynie Sick Platform Reader.

  8. Larg0 pisze:

    Program pobiera wszystkie katalogi z hxxp://www.katlista.pl/katlista.php liczymy na więcej! :)
    Fajnie, że rozwijasz program :) Powodzenia !

  9. adam pisze:

    Rewelacyjny program. Dzięki za kawal dobrej pracy. Powodzenia w rozwijaniu oprogramowania, z pewnością skuszę się nawet gdyby była drobna opłata.

  10. HSMOnline pisze:

    Fajny programik, wielkie dzięki:)

    A może da się dodać kolumnę z ilością Backlinków do danego katalogu?

  11. Mariusz Kołacz pisze:

    Nie ma sensu dodawać statystyk, sprawdziłem na przykładzie pobierania PR katalogu i wydajność programu na tym bardzo ucierpiała. Myślę że jak ktoś będzie miał listę katalogów, wrzuci sobie to do darmowego narzędzia np. , uruchomi sprawdzanie i po pewnym czasie pozyska interesujące go statystyki. Dodanie takiej funkcji jest zbędne, zadaniem programu jest pozyskiwanie informacji o adresach i niech tak zostanie. Być może dodatkowy moduł, pozyskiwanie statystyk jako opcja w menu, zobaczymy.

  12. zxc pisze:

    no dobra program działa,
    ale skąd bierze listę i co właściwie wyciąga?
    tak jak ktoś pisał katalogi katalogów, darmowe katalogi? co to w ogóle jest

  13. Mariusz Kołacz pisze:

    Wszystko zostało już poniekąd napisane i znajduje się w prezentacji CatScraper i komentarzach.

  14. zxc pisze:

    "Wersja 1.0 pobiera informacje tylko z jednej witryny. "
    rozumiem, że pobiera z jednego katalogu katalogów 'jakiegoś' tylko adresy, czyli na bierząco przeskanowuje go i ew. uzupełnia do wygenerowanego raporty nowe adresy?

    Czy nie można importować listy adresów i nauczyć go jak ma wyciągać z danej strony linki? - w tedy było by lepiej ;)

  15. Mariusz Kołacz pisze:

    Ogólnych schematów można "nauczyć", tyle że każda strona jest inna i nie ma mowy, aby jedna definicja była w stanie uniwersalnie pobierać informacje. A też tutaj jest kwestia wydajności, w tym wypadku użycie wyrażeń regularnych byłoby konieczne, a jak wiemy zastosowanie tego w kodzie to duży spadek wydajności, dlatego kiedy mogę unikam tego rozwiązania.

  16. Miki pisze:

    Bardzo fajny programik. Pobrałem i z chęcią się pobawię. Mariusz, może napiszesz jakiś artykuł odnośnie ostatnich zmian w google. Widzę że u Ciebie na stronie ruch mocno spadł.

  17. pc-max pisze:

    podzielam opinię przedmówcy. ciekawe rozwiązanie. oby się sprawdzało i działało prawidłowo. pozdrawiam gorąco

  18. Mariusz Kołacz pisze:

    Każdemu teraz spada ruch, naturalna rzecz. Niestety nie mam czasu na pisanie artykułów, za dużo roboty na głowie, ale w najbliższym czasie będę musiał coś ciekawego wrzucić na stronę.

    Ps. Co do propozycji artykułu, nie warto powielać po raz n-ty ostatnich informacji o zmianach w Google, było już na ten temat tyle publikacji, że kolejna nic nowego nie wniesie do tematu. Niestety w tego typu publikacjach liczy się czas, kto pierwszy poinformuje o zmianach ten zbiera najwięcej korzyści.

  19. Radek pisze:

    Dzięki wielkie, takie programiki są na miarę złota. Za chwilę będę go testował, potrzebuję dużej listy katalogów, mam nadzieje, że znajdzie się coś wartościowego :)

  20. qazpl pisze:

    a u mnie nie dziala. przelatuje do konca i ne mam zadnych adresow.
    program nie daje zadnego bledu ani komunikatu.

  21. Mariusz Kołacz pisze:

    Sprawdziłem działa, program nie ma jeszcze szerokiej obsługi błędów tzn. jest implementacja ale komunikaty nie są wypluwane na zewnątrz, choć przy braku połączenia program w ogóle nie powinien uruchomić procedury sprawdzania. Podejrzewam że strony nie zostały pobrane prawidłowo stąd brak wyników. Proponuję sprawdzić program na wyłączonej ochronie HIPS, jak Masz uruchomiony sandbox to go wyłącz lub zezwól programowi na pełną komunikację z serwerem.

  22. Konkursy pisze:

    Bardzo dziękuje za przydatny program, który wykorzystam w mig :)ale nie tylko programie bo sporo informacji ze strony są bardzo ciekawe i przydatne przy budowaniu pozycji własnej strony :)

  23. Kuba pisze:

    Gdyby program segregował katalogi wg skryptów (wystarczyły by tylko te najpopularniejsze) to chętnie bym zakupił taki soft :)

  24. Mariusz Kołacz pisze:

    Mam w planach stworzenie programu podobnego do Platform Reader, jak już go zrobię integracja z CatScraper nie powinna być trudna.

  25. Pawlo pisze:

    Tak zapytam, akurat bacznie się przyglądałem i nigdzie nie mogłem znaleźć linka do pobrania programu. Czy autor go tymczasowo usunął?

    P.S. Przyznam szczerze, że bardzo fajnie prezentuje się programik. Gdyby miał wbudowana funkcje rozpoznawania choć tych najpopularniejszych skryptów katalogów i grupowania ich, skłonny bym był za niego zapłacić. ;)

  26. Pawlo pisze:

    >>> Tak zapytam, akurat bacznie się przyglądałem i nigdzie nie mogłem znaleźć linka do pobrania programu. Czy autor go tymczasowo usunął?
    _____
    Już znalazłem, ... ach te moje oczy, noszę okulary a dalej ślepy ;)

  27. Mariusz Kołacz pisze:

    Anoż, link był i jest na swoim miejscu ;)
    Natomiast niektóre aplikacje dostępne są/będą wyłącznie przez fanpejdż techformator.pl

    Funkcjonalność o której wspominasz rzeczywiście jest znaczącym uzupełnieniem aplikacji ;)

  28. Franek pisze:

    Bardzo ciekawy programik, mam nadzieję że jeszcze nie porzuciłeś tego projektu i będziesz w dalszym ciągu go rozwijać. Tak jak pisali przedmówcy, w kolejnych wersjach można by dodać różne opcje związane z systemem wyszukiwania katalogów.

  29. pcfaq pisze:

    Narzędzie mogłoby robić coś więcej niż tylko zbierać adresy stron internetowych - dobrze by było, gdyby umożliwiało na przykład automatyczne katalogowanie stron internetowych :)

  30. Mariusz Kołacz pisze:

    ...i może jeszcze za free dostępne? Jest to zwyczajnie nierealne przy sofcie do katalogowania.

  31. Ola pisze:

    Mi się podoba, prosty program spełniający swoje założenie. Jak już stworzysz wersję rozszerzoną daj znać w komentarzach tego artykułu -łatwiej co niektórym z nas będzie go znaleźć i przetestować.

  32. Mariusz Kołacz pisze:

    Wersja rozszerzona już od dawna funkcjonuje jest nim XPath Scraper Extended ;) Uniwersalny scraper, który na podstawie footprintów jest wstanie wyciągnąć nie tylko listy katalogów, ale także i inne rzeczy :)

    Jest wysoce prawdopodobne, że okrojoną wersję "Basic" udostępnię na blogu za free (pisałem o tym na facebooku). Kiedy to nastąpi jeszcze nie wiem, zanim go udostępnię muszę jeszcze trochę popracować nad interfejsem bo nie powala na kolana i co najważniejsze przetłumaczyć na język ENG.

  33. Anna pisze:

    Pytanie początkującego.
    Po zebraniu listy jak oceniacie, do których katalogów dodawać wpisy?
    A może do wszystkich?
    Wszędzie się teraz pisze, aby nie dodawać do kiepskich tworów, bo się pogorszy swoją sytuację, więc się zastanawiam, co zrobić.
    Pozdrawiam

  34. Maxxx pisze:

    Jest kilka miejsc, gdzie można próbować sprawdzać wartość katalogów. Np. serwisy majesticseo lub ahrefs

  35. Darek Jasiński pisze:

    Chyba link jest uszkodzony lub nie ma już owego pliku na serwerze, bo nie udało mi się go pobrać.

  36. Mariusz Kołacz pisze:

    Wszystko działa, pobierz jeszcze raz bo plik jak był tak jest - nic nie było usuwane.

  37. Kuba Mikita pisze:

    Ja też niestety nie mogę pobrać paczki z podanego linka. Na stronie komunikat "Nie znaleziono". Może jakiś mirror? :)

  38. Mariusz Kołacz pisze:

    Plik znajduje się na fanpage, zakładka Free SEO Tools.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Poinformuj mnie o nowych komentarzach do tego wpisu.