CatScraper potrafi pozyskać tysiące adresów katalogów stron. Jak zauważył jeden z komentujących, brakuje bardzo istotnej opcji – rozpoznawania typu katalogu na podstawie zestawu footprintów, czyli cech wspólnych charakteryzujących poszczególne skrypty. Program wprawdzie nie posiada takiej funkcji, lecz każdy z nas może na własną rękę przeprowadzić analizę, używając alternatywnego oprogramowania. W tym poradniku opiszę jak posortować listę katalogów według skryptu.
Sick Platform Reader to darmowe narzędzie do rozpoznawania skryptów katalogów stron, platform blogowych i innych powszechnie stosowanych systemów zarządzania treścią.
Sercem aplikacji jest lista filtrów (footprintów), na podstawie których dokonywana jest klasyfikacja. Jakość listy warunkuje skuteczność detekcji – domyślna zawartość nie wspiera polskich skryptów katalogów stron, lecz nic nie stoi na przeszkodzie, aby wyszukać zestawy cech i uzupełnić plik filter.txt
Rozpoznawanie skryptu w Sick Platform Reader
W jaki sposób posortować listę według skryptu? Po uzupełnieniu filtrów, przygotuj listę adresów katalogów w formie pliku tekstowego list.txt, następnie uruchom program Sick Platform Reader.
W sekcji Filename to get links from wskaż lokalizację listy adresów (list.txt), zdefiniuj także folder docelowy (Directory to save results to), w którym to zostaną zapisane dane wyjściowe.
Ostatnim krokiem jest określenie, czy dane wyjściowe będą zapisywane do jednego pliku output.txt (One file for all platforms), czy też dla każdego typu skryptu zostanie utworzony odrębny plik (Seperate file per platform). Dla mnie wygodniej jest analizować każdy plik z osobna, dlatego zwykle decyduje się na drugi wariant.
Program zawiera również funkcje: Get root PR – pobiera aktualny PR oraz Trim URL to root – skraca adres URL do samej domeny. Opcje są zbędne, niepotrzebnie wydłużają proces analizy. Jeśli potrzebuję pobrać statystyki korzystam z darmowego programu NP Checker.
Na koniec ustalamy ilość wątków (Number of processing threads), czym większa wartość tym szybciej program zakończy analizę. Po skonfigurowaniu wszystkich opcji klikamy Process file.
Po pewnym czasie w wybranej lokalizacji powstanie lista plików TXT z podziałem na typ skryptu (w przypadku wyboru opcji Separate file per platform).
Warto jeszcze dodać, iż aplikacja nie wymaga instalacji, jest szybka, responsywna oraz uniwersalna, albowiem można ją nauczyć rozpoznawania dowolnych skryptów, wystarczy zaopatrzyć się w odpowiednie footprinty.