tworzenie listy

Listy katalogów stron – hurtowe pozyskiwanie adresów

Oprócz pozycjonowania stron zajmuję się także tworzeniem SEO botów. Wszystkie mają na celu zautomatyzować powtarzające się czynności lub usprawnić proces pozyskiwania danych (Data Mining). W niniejszym wpisie chciałbym przedstawić jeden z autorskich programów SEO. Program nosi nazwę CatScraper i jego zadaniem jest tworzenie listy katalogów na podstawie zebranych danych. Aplikacja jest bardzo prosta, ale pozwala zaoszczędzić sporo czasu.

W jednym z poprzednich artykułów opisałem, jak można pozyskać adresy katalogów wykorzystując darmowy dodatek do przeglądarki Google Chrome – XPath Scraper. Niestety zaprezentowana metoda jest dobra w odniesieniu do niewielkich zbiorów danych, dlatego też z biegiem czasu stworzyłem kilka programów, które automatyzowały proces pozyskiwania katalogów. Jednym z nich jest CatScraper.

Wersja 1.0 pobiera informacje tylko z jednej witryny. Na tę chwilę można wyłuskać 3449 katalogów. Natomiast docelowo mam zamiar rozszerzyć funkcjonalność do ponad 30 stron polskich i zagranicznych, szacunkowo będzie można pozyskać nawet 60-tysięcy adresów. Nie zdecydowałem jeszcze, czy rozszerzona wersja będzie darmowa.

CatScraper

UWAGA! Przed użyciem programu zapoznaj się z plikiem przeczytaj-TO.txt

CatScraper dostarczany jest w formie bezinstalacyjnej. Aplikację uruchamiamy poprzez plik CatScraper.exe – po włączeniu programu klikamy Uruchom i od tego momentu rozpoczyna się proces zbierania informacji. Proces można w każdej chwili zatrzymać. Listę można wyeksportować do pliku TXT (przycisk Zapisz).

Wymagania:

  • System operacyjny XP, Vista, Windows 7 32/64-bit lub Linux ze środowiskiem Wine i wgranymi bibliotekami Microsoft .NET (zobacz instrukcję dla Linux),
  • Biblioteki .NET Framework w wersji 4.0,
  • Pamięć RAM: 64MB,
  • Aktywne połączenie z Internetem.

CatScraper w wersji 1.0 udostępniam na licencji Freeware.

Aktualizacja: 5.02.2013 r.
Program można pobrać z fanpage, zakładka Free SEO Tools.

Aktualizacja: od dłuższego czasu aplikacja nie była rozwijana, w związku z czym, z dniem 16.06.2019 wsparcie dla programu zostaje wstrzymane. Program będzie niedostępny do pobrania. Być może w przyszłości na bazie programu stworzę nowy, o większych możliwościach.

O autorze

Mariusz Kołacz

Informatyką i nowymi technologiami zajmuje się od ponad 15 lat. Od 2008 roku moją drugą pasją jest marketing internetowy. Aktualnie prowadzę agencję reklamową, gdzie realizuję projekty z zakresu pozycjonowania i optymalizacji stron internetowych (SEO), reklamy na Facebooku i Google ADS (Google AdWords) oraz w zakresie optymalizacji konwersji w sklepach internetowych. Oprócz tego tworzę narzędzia SEO, piszę teksty, projektuję strony internetowe przyjazne SEO, w wolnych chwilach czytam literaturę z tematyki medycyny, parapsychologii.

38 komentarzy

Kliknij tutaj aby skomentować

  • Przydatny programik. Mega lista w kilkanaście sekund. Dzięki za podzielenie się nim i powodzenia w rozwijaniu go ! Pozdrawiam.

    • Dzięki. Na ten moment wprowadziłem już jedną drobną poprawkę korygującą.
      Program na pewno będzie kontynuowany, czy i w jakiej formie zostanie udostępniona wersja rozszerzona… czas pokaże.

    • podzielam opinię przedmówcy. ciekawe rozwiązanie. oby się sprawdzało i działało prawidłowo. pozdrawiam gorąco

  • witam, program korzysta z tzw katalogów katalogów do pozyskiwania adresów ? mam coś podobnego co przegląda katalogi katalogów, nie tylko szuka adresów ale określa płanty nie płatny PR etc

    • Nie, ale ciekawy pomysł, taki wariant też mogę wprowadzić choć z określaniem typu katalogu może być problem. W seokatalogach mógłbym co najwyżej zebrać info z listy rozwijanej, jakie typy wpisów są dozwolone. Z określeniem czy darmowy, czy nie też nie byłby to problem, gdyby nie fakt, że wiele katalogów stosuje różne oznaczenia dla wpisów za free, ale myślę że jakbym do tego przysiadł do zrobienia 😉

    • Program pobiera wszystkie katalogi z hxxp://www.katlista.pl/katlista.php liczymy na więcej! 🙂
      Fajnie, że rozwijasz program 🙂 Powodzenia !

  • a w czym to piszesz .net c# ? czy inny język programowania…, byłoby znacznie prościej gdyby te katalogi katalogów były standaryzowane, a tak to co krok to prorok…

  • proponuje zrobić scraper google, listę footprintow i rozpoznawać katalogi po url oraz strukturze na stronie. Jeśli chciałbyś scraper do tego to mogę pomoc, mam wszystkie tematyki google w php więc było by szybciej. Skuteczność wyciągania 100%, sb myślę że ma z 30%(serio). A program ciekawy, na pewno sprawdzę dokładniej:)

    • Dobry pomysł, nie przyszło mi to na myśl a przecież do wyszukiwania też to stosuję 😉 Do określania typu katalogu z tego co widzę nie ma darmowego softu, jest jedynie Sick Platform Reader.

  • Rewelacyjny program. Dzięki za kawal dobrej pracy. Powodzenia w rozwijaniu oprogramowania, z pewnością skuszę się nawet gdyby była drobna opłata.

  • Fajny programik, wielkie dzięki:)

    A może da się dodać kolumnę z ilością Backlinków do danego katalogu?

    • Nie ma sensu dodawać statystyk, sprawdziłem na przykładzie pobierania PR katalogu i wydajność programu na tym bardzo ucierpiała. Myślę że jak ktoś będzie miał listę katalogów, wrzuci sobie to do darmowego narzędzia np. , uruchomi sprawdzanie i po pewnym czasie pozyska interesujące go statystyki. Dodanie takiej funkcji jest zbędne, zadaniem programu jest pozyskiwanie informacji o adresach i niech tak zostanie. Być może dodatkowy moduł, pozyskiwanie statystyk jako opcja w menu, zobaczymy.

  • no dobra program działa,
    ale skąd bierze listę i co właściwie wyciąga?
    tak jak ktoś pisał katalogi katalogów, darmowe katalogi? co to w ogóle jest

    • Wszystko zostało już poniekąd napisane i znajduje się w prezentacji CatScraper i komentarzach.

  • „Wersja 1.0 pobiera informacje tylko z jednej witryny. ”
    rozumiem, że pobiera z jednego katalogu katalogów ‚jakiegoś’ tylko adresy, czyli na bierząco przeskanowuje go i ew. uzupełnia do wygenerowanego raporty nowe adresy?

    Czy nie można importować listy adresów i nauczyć go jak ma wyciągać z danej strony linki? – w tedy było by lepiej 😉

    • Ogólnych schematów można „nauczyć”, tyle że każda strona jest inna i nie ma mowy, aby jedna definicja była w stanie uniwersalnie pobierać informacje. A też tutaj jest kwestia wydajności, w tym wypadku użycie wyrażeń regularnych byłoby konieczne, a jak wiemy zastosowanie tego w kodzie to duży spadek wydajności, dlatego kiedy mogę unikam tego rozwiązania.

  • Bardzo fajny programik. Pobrałem i z chęcią się pobawię. Mariusz, może napiszesz jakiś artykuł odnośnie ostatnich zmian w google. Widzę że u Ciebie na stronie ruch mocno spadł.

    • Każdemu teraz spada ruch, naturalna rzecz. Niestety nie mam czasu na pisanie artykułów, za dużo roboty na głowie, ale w najbliższym czasie będę musiał coś ciekawego wrzucić na stronę.

      Ps. Co do propozycji artykułu, nie warto powielać po raz n-ty ostatnich informacji o zmianach w Google, było już na ten temat tyle publikacji, że kolejna nic nowego nie wniesie do tematu. Niestety w tego typu publikacjach liczy się czas, kto pierwszy poinformuje o zmianach ten zbiera najwięcej korzyści.

  • Dzięki wielkie, takie programiki są na miarę złota. Za chwilę będę go testował, potrzebuję dużej listy katalogów, mam nadzieje, że znajdzie się coś wartościowego 🙂

  • a u mnie nie dziala. przelatuje do konca i ne mam zadnych adresow.
    program nie daje zadnego bledu ani komunikatu.

    • Sprawdziłem działa, program nie ma jeszcze szerokiej obsługi błędów tzn. jest implementacja ale komunikaty nie są wypluwane na zewnątrz, choć przy braku połączenia program w ogóle nie powinien uruchomić procedury sprawdzania. Podejrzewam że strony nie zostały pobrane prawidłowo stąd brak wyników. Proponuję sprawdzić program na wyłączonej ochronie HIPS, jak Masz uruchomiony sandbox to go wyłącz lub zezwól programowi na pełną komunikację z serwerem.

  • Bardzo dziękuje za przydatny program, który wykorzystam w mig :)ale nie tylko programie bo sporo informacji ze strony są bardzo ciekawe i przydatne przy budowaniu pozycji własnej strony 🙂

  • Gdyby program segregował katalogi wg skryptów (wystarczyły by tylko te najpopularniejsze) to chętnie bym zakupił taki soft 🙂

    • Mam w planach stworzenie programu podobnego do Platform Reader, jak już go zrobię integracja z CatScraper nie powinna być trudna.

  • Tak zapytam, akurat bacznie się przyglądałem i nigdzie nie mogłem znaleźć linka do pobrania programu. Czy autor go tymczasowo usunął?

    P.S. Przyznam szczerze, że bardzo fajnie prezentuje się programik. Gdyby miał wbudowana funkcje rozpoznawania choć tych najpopularniejszych skryptów katalogów i grupowania ich, skłonny bym był za niego zapłacić. 😉

  • >>> Tak zapytam, akurat bacznie się przyglądałem i nigdzie nie mogłem znaleźć linka do pobrania programu. Czy autor go tymczasowo usunął?
    _____
    Już znalazłem, … ach te moje oczy, noszę okulary a dalej ślepy 😉

    • Anoż, link był i jest na swoim miejscu 😉
      Natomiast niektóre aplikacje dostępne są/będą wyłącznie przez fanpejdż techformator.pl

      Funkcjonalność o której wspominasz rzeczywiście jest znaczącym uzupełnieniem aplikacji 😉

  • Bardzo ciekawy programik, mam nadzieję że jeszcze nie porzuciłeś tego projektu i będziesz w dalszym ciągu go rozwijać. Tak jak pisali przedmówcy, w kolejnych wersjach można by dodać różne opcje związane z systemem wyszukiwania katalogów.

  • Narzędzie mogłoby robić coś więcej niż tylko zbierać adresy stron internetowych – dobrze by było, gdyby umożliwiało na przykład automatyczne katalogowanie stron internetowych 🙂

    • …i może jeszcze za free dostępne? Jest to zwyczajnie nierealne przy sofcie do katalogowania.

  • Mi się podoba, prosty program spełniający swoje założenie. Jak już stworzysz wersję rozszerzoną daj znać w komentarzach tego artykułu -łatwiej co niektórym z nas będzie go znaleźć i przetestować.

    • Wersja rozszerzona już od dawna funkcjonuje jest nim XPath Scraper Extended 😉 Uniwersalny scraper, który na podstawie footprintów jest wstanie wyciągnąć nie tylko listy katalogów, ale także i inne rzeczy 🙂

      Jest wysoce prawdopodobne, że okrojoną wersję „Basic” udostępnię na blogu za free (pisałem o tym na facebooku). Kiedy to nastąpi jeszcze nie wiem, zanim go udostępnię muszę jeszcze trochę popracować nad interfejsem bo nie powala na kolana i co najważniejsze przetłumaczyć na język ENG.

  • Pytanie początkującego.
    Po zebraniu listy jak oceniacie, do których katalogów dodawać wpisy?
    A może do wszystkich?
    Wszędzie się teraz pisze, aby nie dodawać do kiepskich tworów, bo się pogorszy swoją sytuację, więc się zastanawiam, co zrobić.
    Pozdrawiam

    • Wszystko działa, pobierz jeszcze raz bo plik jak był tak jest – nic nie było usuwane.

  • Ja też niestety nie mogę pobrać paczki z podanego linka. Na stronie komunikat „Nie znaleziono”. Może jakiś mirror? 🙂