WordPress i replytocom a duplicate content

W ostatnim czasie zauważyłem na stronie sporą ilość stron zindeksowanych z parametrem ?replytocom, ów podstrony były uwzględniane w wynikach wyszukiwania. To jest o tyle dziwne, że na blogu od dawna funkcjonuje tag rel=”canonical”, który miał zapobiegać tego typu zdarzeniom. Drążąc temat natrafiłem na bardzo ciekawe wnioski, które opisuję w tym wpisie. Jednocześnie przedstawiam sposób poradzenia sobie z problemem indeksacji replytocom w komentarzach.

Problem duplicate content znany jest prawie każdemu, kto choć trochę miał do czynienia z zagadnieniami optymalizacji i pozycjonowania. Nadmierne powielanie treści może spowodować obniżenie pozycji witryny w rankingu, a nawet wykluczyć ją z wyników wyszukiwania. Dlatego bardzo istotną kwestią jest monitorowanie naszej strony, pod kątem powielania treści, lub inaczej mówiąc nadmiarowego indeksowania tych samych adresów URL (z uwzględnieniem różnych form/parametrów).

Do walki z duplicate content możemy wykorzystać świetne narzędzie udostępniane przez Google – Webmasters Tools. Znajdziemy w nim wiele cennych wskazówek, które pomogą zdiagnozować i szybko zareagować na zaistniały problem.

W sekcji Diagnostyka => HTML – sugestie, jest dostępny szczegółowy wykaz błędów. Jeśli na liście widnieją adresy z podwójnymi tagami tytułowymi lub meta opisami, należy dokładniej zbadać sytuację, sprawdzić które z nich są w to uwikłane.

Centrum dla webmasterów, HTML sugestie

W tym przykładzie widać wyraźnie, że w indeksie Google znajdują sie strony, a w zasadzie URL, które zawierają jednakowe tytuły i opisy. Widać też, że wszystkie adresy, stosowane przy odpowiedziach do komentarzy zostały zindeksowane i są widoczne w SERPie jako odrębne podstrony, ze zduplikowaną treścią. W takiej sytuacji należy czym prędzej zablokować możliwość indeksacji odsyłaczy replytocom. Jak tego dokonać?

Według ogólnodostępnych informacji modyfikacja pliku robots.txt i dodanie do niego wpisu Disallow: *?replytocom powinno załatwić sprawę. Jednakże ów plik jest jedynie wskazówką dla botów, a nie ścisłym wyznacznikiem. Inaczej mówiąc, robots.txt nie zawsze jest respektowany. Powyższa metoda jest niewystarczająca, stąd też przedstawię kolejną, która skutecznie zabezpieczy nas, przed nieświadomym powielaniem treści.

W Centrum dla webmasterów, w sekcji Konfiguracja witryny => Ustawienia => Obsługa parametrów, znajdziemy listę parametrów.

Ustawienia Google Webmasters Tools

Jak się okazuje, Google samo decyduje co zindeksować (domyślnie Pozostaw decyzję Google). Hmm… pozostawienie wolnej ręki botom może mieć opłakane skutki, dlatego należy zmodyfikować ustawienia i dla parametru replytocom zmienić działanie z domyślnego na – Ignorowanie. Aby tego dokonać wystarczy kliknąć Edycja i z listy rozwijanej wskazać co trzeba 😉 Oczywiście wszelkie zmiany, aby odniosły jakikolwiek skutek należy zapisać. Wykonanie opisanych wskazówek powinno skutecznie wyeliminować duplikowanie treści.

A co w takim razie z tagiem canonical? Wygląda na to, że stosowanie tego tagu nie zabezpiecza przed wskoczeniem do indeksu zduplikowanej treści (adresu URL), jedynie wskazuje oryginalne źródło dokumentu.

Jak to się ma do całości problemu duplicate content? W jakim stopniu duplikowane podstrony, które trafiły do indeksu wyszukiwarki szkodzą witrynie? Czy tag canonical nie powinien automatycznie eliminować tego typu adresów z indeksu? Czy Google stosując domyślnie „Pozostaw decyzję Google” szkodzi właścicielom witryn? Na te i inne pytania ciężko mi w tej chwili odpowiedzieć, czas pokaże. Jeśli macie jakieś ciekawe spostrzeżenia, zapraszam do dyskusji.