W poradniku zaprezentuję kolejne darmowe narzędzie pomocne w sytuacjach, kiedy musimy pozyskać dane z Google bądź innych witryn. Simple Google Scraper posiada kilka modułów, podstawowy do wyodrębniania danych z wyszukiwarki oraz Regular Expression Extractor do wyciągania ze stron internetowych określonych informacji, na przykład adresów proxy, katalogów cze też adresów e-mail. Program bardzo pomocny i dostępny całkowicie za free.
Prezentacja Simple Google Scraper
Najważniejsze cechy aplikacji:
- Szybka,
- Obsługuje proxy,
- Pozwala ustawić opóźnienie między kolejnymi zapytaniami,
- Wspiera zaawansowane operatory wyszukiwania jak site, intitle czy inurl,
- Umożliwia pobranie tylko najświeższych danych (z ostatnich 24h),
- Oferuje opcję do zmiany lokalizacji wyszukiwania np. przesiadka z .com na .pl,
- Posiada inteligentny silnik wyszukiwania, który minimalizuje ryzyko zbanowania adresu IP,
- Inteligentnie zarządza wątkami (liczba jednocześnie wykonywanych wątków zależy od ilości słów kluczowych oraz czasu opóźnienia),
- Zawiera moduł do ekstrakcji danych ze stron internetowych (przy użyciu wyrażeń regularnych),
- Oferuje podstawowe opcje filtrowania.
Simple Google Scraper można pobrać z tej lokalizacji.
Najważniejsze elementy:
- Keywords – lista słów kluczowych (footprintów), każdy nowy zestaw od nowej linii, można użyć zaawansowanych operatorów wyszukiwania,
- Change Google Location – zmiana lokalizacji wyszukiwania,
- Google Time – ograniczenie wyników do podanego przedziału czasowego: kiedykolwiek/ostatnie 24h,
- Proxy – lista adresów proxy w standardowym formacie IP:PORT,
- Load From File – wczytanie zestawu słów/proxy z pliku tekstowego,
- Delay – czas opóźnienia wyrażony w sekundach,
- Results – lista wyników,
- Export To Text File – zapis wyodrębnionych danych do pliku tekstowego,
- Export URL & PR To CSV – zapis danych wraz z PR do pliku w formacie CSV,
- Tools – opcje do filtrowania, pobierania PR, a także dodatkowe moduły jak RegEx Extractor.
- Przycisk D – usuwanie duplikatów i sortowanie,
- Przycisk L – wczytuje listę URL z pliku tekstowego.
- Start/Abort Scraping – Uruchom/Zatrzymaj wykonywanie zadania.
Pracę z programem rozpoczynamy od wprowadzenia footprintów. Jeśli mamy sporą listę warto dodać przynajmniej kilka adresów proxy oraz ustawić czas opóźnienia. Jak sprawdzić czy dane proxy będzie działało z Google? Można do tego wykorzystać program Google Proxy Checker (również darmowy). Następnie pozostaje tylko wskazać Start Scraping i wyjść na kawę.
Program cierpi na jedną dość poważną przypadłość, mianowicie nie ma przycisku resetowania listy wyników, jedyne wyjście to użycie funkcji Remove URLs Containing (w menu Tools). Można też zauważyć rozbieżności w wynikach (zapytanie dokonane w przeglądarce zwraca nieco inne wyniki). Dotychczas nie zagłębiałem się w temat, więc nie mogę powiedzieć z czego wynika różnica.
Kilka słów o… Regular Expression Extractor
Teraz pora omówić moduł Regular Expression Extractor, który znajdziecie w menu Tools.
Wczytujemy listę stron (Load From File), w polu Regular Expression wprowadzamy wyrażenie w formacie zgodnym z PCRE/PERL i uruchamiamy proces Start Scraping.
W ten sposób można szybko stworzyć listę katalogów, wydobyć proxy ze stron lub pozyskać adresy e-mail. Niestety moduł posiada ten sam problem co formularz główny, brak przycisku resetowania listy wyników, co gorsze nie znajdziemy też funkcji Remove URLs, przez co każdy nowy projekt wymaga restartu okna RegEx. Do tego wkurzający komunikat dotyczący zamknięcia okna ekstraktora, lecz da się to przeżyć.
Osobiście nie przepadam za RegEx, wolę do pozyskiwania danych używać XPath scraperów, są szybsze, dokładniejsze i łatwiej tworzy się w nich formuły. W jednym z kolejnych artykułów przedstawię jeden taki darmowy programik więc warto śledzić bloga na Facebooku lub poprzez kanał RSS.
Podsumowując, Simple Google Scraper uważam za bardzo interesujący projekt. Warto przetestować!