platform-reader-logo

Darmowe narzędzie do rozpoznawania skryptów katalogów stron

CatScraper potrafi pozyskać tysiące adresów katalogów stron. Jak zauważył jeden z komentujących, brakuje bardzo istotnej opcji - rozpoznawania typu katalogu na podstawie zestawu footprintów, czyli cech wspólnych charakteryzujących poszczególne skrypty. Program wprawdzie nie posiada takiej funkcji, lecz każdy z nas może na własną rękę przeprowadzić analizę, używając alternatywnego oprogramowania. W tym poradniku opiszę jak posortować listę katalogów według skryptu.

Sick Platform Reader to darmowe narzędzie do rozpoznawania skryptów katalogów stron, platform blogowych i innych powszechnie stosowanych systemów zarządzania treścią.

Sercem aplikacji jest lista filtrów (footprintów), na podstawie których dokonywana jest klasyfikacja. Jakość listy warunkuje skuteczność detekcji - domyślna zawartość nie wspiera polskich skryptów katalogów stron, lecz nic nie stoi na przeszkodzie, aby wyszukać zestawy cech i uzupełnić plik filter.txt

Filter.txt

Rozpoznawanie skryptu w Sick Platform Reader

W jaki sposób posortować listę według skryptu? Po uzupełnieniu filtrów, przygotuj listę adresów katalogów w formie pliku tekstowego list.txt, następnie uruchom program Sick Platform Reader.

Sick Platform Reader

W sekcji Filename to get links from wskaż lokalizację listy adresów (list.txt), zdefiniuj także folder docelowy (Directory to save results to), w którym to zostaną zapisane dane wyjściowe.

Ostatnim krokiem jest określenie, czy dane wyjściowe będą zapisywane do jednego pliku output.txt (One file for all platforms), czy też dla każdego typu skryptu zostanie utworzony odrębny plik (Seperate file per platform). Dla mnie wygodniej jest analizować każdy plik z osobna, dlatego zwykle decyduje się na drugi wariant.

Program zawiera również funkcje: Get root PR - pobiera aktualny PR oraz Trim URL to root - skraca adres URL do samej domeny. Opcje są zbędne, niepotrzebnie wydłużają proces analizy. Jeśli potrzebuję pobrać statystyki korzystam z darmowego programu NP Checker.

Na koniec ustalamy ilość wątków (Number of processing threads), czym większa wartość tym szybciej program zakończy analizę. Po skonfigurowaniu wszystkich opcji klikamy Process file.

Pogrupowane katalogi

Po pewnym czasie w wybranej lokalizacji powstanie lista plików TXT z podziałem na typ skryptu (w przypadku wyboru opcji Separate file per platform).

Warto jeszcze dodać, iż aplikacja nie wymaga instalacji, jest szybka, responsywna oraz uniwersalna, albowiem można ją nauczyć rozpoznawania dowolnych skryptów, wystarczy zaopatrzyć się w odpowiednie footprinty.

Mariusz Kołacz footprint, katalogi, rozpoznawanie, Sick Platform Reader, skrypt

Skomentuj wpis - Komentarzy (12)

  1. Paweł Macur pisze:

    Program radzi sobie z polskimi znakami, bo nie wiem czy się nim zainteresować :) ? Ogólnie prezentuje się fajnie.

    Ps. Limit ilości znaków to jakaś masarka ;p

  2. Mariusz Kołacz pisze:

    W filtrach nie mam ani jednego footprintu z polskimi znakami więc nie mogę odpowiedzieć na Twoje pytanie. Musisz sprawdzić na własną rękę.

    PS. Jak tylko zdejmę limit, pojawią się śmieciowe komentarze. Gdyby na świecie nie było spamerów, nie byłoby tego typu restrykcji ;)

  3. Rafał pisze:

    Ciekawie wygląda, brakuje tylko informacji jakie skrypty rozpoznaje bez dodatkowego konfigurowania. Od jakiegoś czasu mam na dysku, czas na wypróbowanie.
    Pozdrawiam

  4. Paweł Macur pisze:

    Myślałem, że już sprawdziłeś czy program radzi sobie z polskimi znakami :) Chciałem wyłuskać informację z lenistwa.

    Dlaczego z pierwszego mojego komentarza został usunięty link z commentluv ? :)

    To ja z blogu lexy wybrałem Twój blog do subskrypcji i takie rzeczy się dzieją :P Oj nie ładnie...

  5. Michał Krawczykowski pisze:

    Kurczę, kiedyś szukałem czegoś takiego, ale wtedy znaleźć nie mogłem. Nawet myślałem, żeby napisać samodzielnie, ale za słaby jestem i zeszło by mi strasznie długo, więc zrezygnowałem.

    PS. A wchodząc teraz na bloga myślałem, że masz nowy szablon, ale nie (ten czarny pasek w topie wczytał się z opóźnieniem) ;)

  6. Mariusz Kołacz pisze:

    Witaj, tak link został usunięty... i z każdego kolejnego komentarza jeśli linki będą promować tego typu aplikacje. Nie bierz tego do siebie, nie mam w zwyczaju usuwać linków tematycznych, lecz także nie zamierzam na swoim blogu promować produktów Kojotka. Masz swój produkt? Chcesz go wypromować? Zapraszam do promocji via CommentLuv... natomiast jeśli zobaczę linki do tego delikwenta, z miejsca usunę bez względu na stopień zażyłości z osobą komentującą.

    Co do polskich znaków, tak jak pisałem nie sprawdzałem, będę miał więcej czasu to zobaczę co w trawie piszczy, tym bardziej że w planach mam zrobienie podobnego softu.

    Pozdrawiam!

  7. Mariusz Kołacz pisze:

    Tydzień temu wprowadziłem nową funkcję optymalizującą czas wczytywania templatki, być może to z jej powodu były problemy. Zbadam sytuację, choć jak dotąd zarówno z moich testów, jak i od betatesterów nie wynikało iż coś jest nie tak, ale dzięki za informację, sprawdzimy ;)

  8. mattm pisze:

    Dzięki za udostępnienie programu. Mi bardzo się przydał, pinguje coś prawie codziennie. Będę czytał Twój blog regularnie :) Jestem bardzo początkujący i na prawdę sporo się dowiedziałem! :)

  9. Grzegorz pisze:

    Dzięki. Fajny program na pewno się przyda. Dobrze że nie którzy ludzie potrafią się dzielić tym co stworzyli:)

  10. Piotrek pisze:

    Dzięki za to narzędzi, właśnie czegoś takiego potrzebowałem. Możliwość dodawania własnych footprintów sprawia, że jest to ciekawa opcja. Zobaczymy jak poradzi sobie z listą 80k url'i :)

  11. ja pisze:

    Z tego co wiedzę Slick rozpoznał np 3000 urli jako dany skrypt.
    Po sprawdzeniu w ScrapeBox z tych 3tyś było tak na prawdę 700 tylko
    Dodam, że na oko widzę takie adresy jak .blogspot więc nie moga być na Drupalu

    Dziwi mnie, że zle rozpoznaje

  12. Mariusz Kołacz pisze:

    Sick Platform Reader ma definicje i footprinty zaszyte w pliku filter.txt więc jeżeli przypiszemy zły footprint do definicji skryptu to rzecz jasna będzie nieprawidłowo klasyfikował strony. W związku z powyższym sugeruję sprawdzić plik z definicjami, bo najprawdopodobniej problem tkwi właśnie w tej kwestii.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Poinformuj mnie o nowych komentarzach do tego wpisu.