W ubiegłym roku na blogu pojawił się opis darmowego narzędzia do wyciągania danych z Google – Simple Google Scraper. Ostatnio na rynku pojawił się inny ciekawy soft o nazwie GScraper. Na pierwszy rzut oka wygląda całkiem przyzwoicie, postanowiłem go przetestować i opisać na blogu. Według zapowiedzi autora, jest to najszybszy scraper ze wszystkich. Ile w tym jest prawdy? Przeczytaj…
GScraper występuje pod postacią dwóch wersji PRO, oraz Basic, która dostępna jest za free (do pobrania ze strony autora). Porównanie funkcjonalności znajdziesz na stronie programu.
Aplikacja sprawia dobre wrażenie, wszystkie niezbędne funkcje znajdują się pod ręką. Wśród licznych opcji znajdziemy opcje filtrowania listy (usuwanie duplikatów, skracanie adresów URL, pobieranie parametrów i inne), eksport/import danych do/z pliku TXT lub CSV, do tego należy dodać wielowątkowość, a także możliwość pobierania dodatkowych danych dla URL podczas scrapowania.
Pobieranie proxy z listy na serwerze jest troszkę nieporęczne, ktoś kto we własnym zakresie testuje proxy i chciałby szybko użyć ich w programie, jest zmuszany do stworzenia pliku i wysłania go na serwer. Są też inne drobne błędy, które jednak nie destabilizują pracy aplikacji.
Co z szybkością? GScraper faktycznie jest szybki, lecz jeśli mamy dobre proxy każdy tego typu program (z wielowątkowością) będzie działał efektywnie. Aby potwierdzić jego szybkość, trzeba wykonać kompleksowe testy w tym zakresie, a i tak nie będą one w pełni miarodajne, albowiem duży wpływ na końcowy wynik ma czas odpowiedzi każdego proxy. Na publicznej liście będzie inny wynik, przy scrapowaniu z użyciem prywatnych proxy jeszcze inny. Oczywiście najbardziej wiarygodny rezultat otrzymamy na prywatnych proxy, które z reguły mają niskie obciążenie, a tym samym wąski przedział czasu odpowiedzi. Niestety nie mogę odnieść się do Scrapeboxa. Porównanie szybkości i efektywności SB i GS pozostawiam Wam.
Podsumowując, projekt zapowiada się bardzo ciekawie, jak dla mnie GScraper Basic jest dobrą alternatywą dla darmowego Simple Google Scrapera. Zapraszam do testów!