monitoring rozpoznawanie

Darmowe narzędzie do rozpoznawania skryptów katalogów stron

CatScraper potrafi pozyskać tysiące adresów katalogów stron. Jak zauważył jeden z komentujących, brakuje bardzo istotnej opcji – rozpoznawania typu katalogu na podstawie zestawu footprintów, czyli cech wspólnych charakteryzujących poszczególne skrypty. Program wprawdzie nie posiada takiej funkcji, lecz każdy z nas może na własną rękę przeprowadzić analizę, używając alternatywnego oprogramowania. W tym poradniku opiszę jak posortować listę katalogów według skryptu.

Sick Platform Reader to darmowe narzędzie do rozpoznawania skryptów katalogów stron, platform blogowych i innych powszechnie stosowanych systemów zarządzania treścią.

Sercem aplikacji jest lista filtrów (footprintów), na podstawie których dokonywana jest klasyfikacja. Jakość listy warunkuje skuteczność detekcji – domyślna zawartość nie wspiera polskich skryptów katalogów stron, lecz nic nie stoi na przeszkodzie, aby wyszukać zestawy cech i uzupełnić plik filter.txt

Filter.txt

Rozpoznawanie skryptu w Sick Platform Reader

W jaki sposób posortować listę według skryptu? Po uzupełnieniu filtrów, przygotuj listę adresów katalogów w formie pliku tekstowego list.txt, następnie uruchom program Sick Platform Reader.

Sick Platform Reader

W sekcji Filename to get links from wskaż lokalizację listy adresów (list.txt), zdefiniuj także folder docelowy (Directory to save results to), w którym to zostaną zapisane dane wyjściowe.

Ostatnim krokiem jest określenie, czy dane wyjściowe będą zapisywane do jednego pliku output.txt (One file for all platforms), czy też dla każdego typu skryptu zostanie utworzony odrębny plik (Seperate file per platform). Dla mnie wygodniej jest analizować każdy plik z osobna, dlatego zwykle decyduje się na drugi wariant.

Program zawiera również funkcje: Get root PR – pobiera aktualny PR oraz Trim URL to root – skraca adres URL do samej domeny. Opcje są zbędne, niepotrzebnie wydłużają proces analizy. Jeśli potrzebuję pobrać statystyki korzystam z darmowego programu NP Checker.

Na koniec ustalamy ilość wątków (Number of processing threads), czym większa wartość tym szybciej program zakończy analizę. Po skonfigurowaniu wszystkich opcji klikamy Process file.

Pogrupowane katalogi

Po pewnym czasie w wybranej lokalizacji powstanie lista plików TXT z podziałem na typ skryptu (w przypadku wyboru opcji Separate file per platform).

Warto jeszcze dodać, iż aplikacja nie wymaga instalacji, jest szybka, responsywna oraz uniwersalna, albowiem można ją nauczyć rozpoznawania dowolnych skryptów, wystarczy zaopatrzyć się w odpowiednie footprinty.

O autorze

Mariusz Kołacz

Informatyką i nowymi technologiami zajmuje się od ponad 15 lat. Od 2008 roku moją drugą pasją jest marketing internetowy. Aktualnie prowadzę agencję reklamową, gdzie realizuję projekty z zakresu pozycjonowania i optymalizacji stron internetowych (SEO), reklamy na Facebooku i Google ADS (Google AdWords) oraz w zakresie optymalizacji konwersji w sklepach internetowych. Oprócz tego tworzę narzędzia SEO, piszę teksty, projektuję strony internetowe przyjazne SEO, w wolnych chwilach czytam literaturę z tematyki medycyny, parapsychologii.

12 komentarzy

Kliknij tutaj aby skomentować

  • Program radzi sobie z polskimi znakami, bo nie wiem czy się nim zainteresować 🙂 ? Ogólnie prezentuje się fajnie.

    Ps. Limit ilości znaków to jakaś masarka ;p

    • W filtrach nie mam ani jednego footprintu z polskimi znakami więc nie mogę odpowiedzieć na Twoje pytanie. Musisz sprawdzić na własną rękę.

      PS. Jak tylko zdejmę limit, pojawią się śmieciowe komentarze. Gdyby na świecie nie było spamerów, nie byłoby tego typu restrykcji 😉

    • Dzięki za udostępnienie programu. Mi bardzo się przydał, pinguje coś prawie codziennie. Będę czytał Twój blog regularnie 🙂 Jestem bardzo początkujący i na prawdę sporo się dowiedziałem! 🙂

  • Ciekawie wygląda, brakuje tylko informacji jakie skrypty rozpoznaje bez dodatkowego konfigurowania. Od jakiegoś czasu mam na dysku, czas na wypróbowanie.
    Pozdrawiam

  • Myślałem, że już sprawdziłeś czy program radzi sobie z polskimi znakami 🙂 Chciałem wyłuskać informację z lenistwa.

    Dlaczego z pierwszego mojego komentarza został usunięty link z commentluv ? 🙂

    To ja z blogu lexy wybrałem Twój blog do subskrypcji i takie rzeczy się dzieją 😛 Oj nie ładnie…

    • Witaj, tak link został usunięty… i z każdego kolejnego komentarza jeśli linki będą promować tego typu aplikacje. Nie bierz tego do siebie, nie mam w zwyczaju usuwać linków tematycznych, lecz także nie zamierzam na swoim blogu promować produktów Kojotka. Masz swój produkt? Chcesz go wypromować? Zapraszam do promocji via CommentLuv… natomiast jeśli zobaczę linki do tego delikwenta, z miejsca usunę bez względu na stopień zażyłości z osobą komentującą.

      Co do polskich znaków, tak jak pisałem nie sprawdzałem, będę miał więcej czasu to zobaczę co w trawie piszczy, tym bardziej że w planach mam zrobienie podobnego softu.

      Pozdrawiam!

  • Kurczę, kiedyś szukałem czegoś takiego, ale wtedy znaleźć nie mogłem. Nawet myślałem, żeby napisać samodzielnie, ale za słaby jestem i zeszło by mi strasznie długo, więc zrezygnowałem.

    PS. A wchodząc teraz na bloga myślałem, że masz nowy szablon, ale nie (ten czarny pasek w topie wczytał się z opóźnieniem) 😉

    • Tydzień temu wprowadziłem nową funkcję optymalizującą czas wczytywania templatki, być może to z jej powodu były problemy. Zbadam sytuację, choć jak dotąd zarówno z moich testów, jak i od betatesterów nie wynikało iż coś jest nie tak, ale dzięki za informację, sprawdzimy 😉

  • Dzięki za to narzędzi, właśnie czegoś takiego potrzebowałem. Możliwość dodawania własnych footprintów sprawia, że jest to ciekawa opcja. Zobaczymy jak poradzi sobie z listą 80k url’i 🙂

  • Z tego co wiedzę Slick rozpoznał np 3000 urli jako dany skrypt.
    Po sprawdzeniu w ScrapeBox z tych 3tyś było tak na prawdę 700 tylko
    Dodam, że na oko widzę takie adresy jak .blogspot więc nie moga być na Drupalu

    Dziwi mnie, że zle rozpoznaje

    • Sick Platform Reader ma definicje i footprinty zaszyte w pliku filter.txt więc jeżeli przypiszemy zły footprint do definicji skryptu to rzecz jasna będzie nieprawidłowo klasyfikował strony. W związku z powyższym sugeruję sprawdzić plik z definicjami, bo najprawdopodobniej problem tkwi właśnie w tej kwestii.