WordPress i replytocom a duplicate content

21 maja 2011

W ostatnim czasie zauważyłem na stronie sporą ilość stron zindeksowanych z parametrem ?replytocom, ów podstrony były uwzględniane w wynikach wyszukiwania. To jest o tyle dziwne, że na blogu od dawna funkcjonuje tag rel=”canonical”, który miał zapobiegać tego typu zdarzeniom. Drążąc temat natrafiłem na bardzo ciekawe wnioski, które opisuję w tym wpisie. Jednocześnie przedstawiam sposób poradzenia sobie z problemem indeksacji replytocom w komentarzach.

Problem duplicate content znany jest prawie każdemu, kto choć trochę miał do czynienia z zagadnieniami optymalizacji i pozycjonowania. Nadmierne powielanie treści może spowodować obniżenie pozycji witryny w rankingu, a nawet wykluczyć ją z wyników wyszukiwania. Dlatego bardzo istotną kwestią jest monitorowanie naszej strony, pod kątem powielania treści, lub inaczej mówiąc nadmiarowego indeksowania tych samych adresów URL (z uwzględnieniem różnych form/parametrów).

Do walki z duplicate content możemy wykorzystać świetne narzędzie udostępniane przez Google – Webmasters Tools. Znajdziemy w nim wiele cennych wskazówek, które pomogą zdiagnozować i szybko zareagować na zaistniały problem.

W sekcji Diagnostyka => HTML – sugestie, jest dostępny szczegółowy wykaz błędów. Jeśli na liście widnieją adresy z podwójnymi tagami tytułowymi lub meta opisami, należy dokładniej zbadać sytuację, sprawdzić które z nich są w to uwikłane.

Centrum dla webmasterów, HTML sugestie

W tym przykładzie widać wyraźnie, że w indeksie Google znajdują sie strony, a w zasadzie URL, które zawierają jednakowe tytuły i opisy. Widać też, że wszystkie adresy, stosowane przy odpowiedziach do komentarzy zostały zindeksowane i są widoczne w SERPie jako odrębne podstrony, ze zduplikowaną treścią. W takiej sytuacji należy czym prędzej zablokować możliwość indeksacji odsyłaczy replytocom. Jak tego dokonać?

Według ogólnodostępnych informacji modyfikacja pliku robots.txt i dodanie do niego wpisu Disallow: *?replytocom powinno załatwić sprawę. Jednakże ów plik jest jedynie wskazówką dla botów, a nie ścisłym wyznacznikiem. Inaczej mówiąc, robots.txt nie zawsze jest respektowany. Powyższa metoda jest niewystarczająca, stąd też przedstawię kolejną, która skutecznie zabezpieczy nas, przed nieświadomym powielaniem treści.

W Centrum dla webmasterów, w sekcji Konfiguracja witryny => Ustawienia => Obsługa parametrów, znajdziemy listę parametrów.

Ustawienia Google Webmasters Tools

Jak się okazuje, Google samo decyduje co zindeksować (domyślnie Pozostaw decyzję Google). Hmm… pozostawienie wolnej ręki botom może mieć opłakane skutki, dlatego należy zmodyfikować ustawienia i dla parametru replytocom zmienić działanie z domyślnego na – Ignorowanie. Aby tego dokonać wystarczy kliknąć Edycja i z listy rozwijanej wskazać co trzeba 😉 Oczywiście wszelkie zmiany, aby odniosły jakikolwiek skutek należy zapisać. Wykonanie opisanych wskazówek powinno skutecznie wyeliminować duplikowanie treści.

A co w takim razie z tagiem canonical? Wygląda na to, że stosowanie tego tagu nie zabezpiecza przed wskoczeniem do indeksu zduplikowanej treści (adresu URL), jedynie wskazuje oryginalne źródło dokumentu.

Jak to się ma do całości problemu duplicate content? W jakim stopniu duplikowane podstrony, które trafiły do indeksu wyszukiwarki szkodzą witrynie? Czy tag canonical nie powinien automatycznie eliminować tego typu adresów z indeksu? Czy Google stosując domyślnie „Pozostaw decyzję Google” szkodzi właścicielom witryn? Na te i inne pytania ciężko mi w tej chwili odpowiedzieć, czas pokaże. Jeśli macie jakieś ciekawe spostrzeżenia, zapraszam do dyskusji.

O autorze

Mariusz Kołacz

Z zawodu mgr inż. informatyk, zwolennik nowoczesnych technologii i fan Nikoli Tesla. Prowadzi kilka blogów o tematyce technologicznej. Po godzinach lubi przeczytać dobrą książkę, pozwiedzać ciekawe miejsca w Polsce lub spędzić wolny czas na łonie natury.

8 komentarzy

Bartłomiej Jakubowski pisze:

22 maja 2011 o 19:55

A za co odpowiada parametr ?replytocom?

Zaraz zabieram się do działania.
- Mariusz Kołacz pisze:
  
  23 maja 2011 o 20:12
  
  Cześć, chodzi o button Reply w komentarzach, jak możesz zauważyć przyjmuje on parametr replytocom. Ostatnio mnie zdziwiło, że Google indeksuje to, dlatego musiałem szybko zablokować indeksację. jakie będą efekty nie wiem, na razie jedynie co widzę w Google Webmasters Tool to, że liczba tego typu URL nie wzrasta. Sprawa jest o wiele poważniejsza, Google domyślnie przyjmuje, że należy indeksować tego typu adresy URL, co może generować duplicate content i obniżać pozycję danej podstrony w rankingu, więc każdy dodatek, który działa w oparciu o URL z parametrami (m.in. do subskrypcji komentarzy) należy zrewidować.
Bartłomiej Jakubowski pisze:

25 maja 2011 o 13:59

Ja jestem przekonany, że Google nie uznaje DC w obrębie tej samej domeny, a tym bardziej w WordPressie.
- Mariusz Kołacz pisze:
  
  26 maja 2011 o 16:15
  
  Moim zdaniem należy unikać duplicate content. Lepiej zadbać o to, ponieważ do końca nie wiadomo jak Google traktuje tego typu rzeczy.
detsamis pisze:

4 sierpnia 2011 o 21:34

Też mam podobny problem na swojej stronie, ale opartej na własnym skrypcie. Co jakiś czas „coś” notorycznie dodaje mi do indeksu kopie strony głównej z parametrem ?li=LICZBA, przy czym LICZBA się zmienia. Powoduje to spadek strony o kilka pozycji na niektóre frazy i zmusza mnie to systematycznego usuwania tych adresów. Niestety nawet ustawienie opcji ignorowania parametru w Google Webmasters nie pomogło. Myślałem także o canonical, ale słyszałem, że tag ten potrafi też nieźle namieszać na niekorzyść w pozycjach strony. Jak na razie nie udało mi się znaleźć rozwiązania tego problemu.
mojeprogramy.com pisze:

21 czerwca 2012 o 15:25

Mam od dłuższego czasu kilka problemów i nie wiem jak się nich pozbyć wiec kasuję je w WMToots
Mimo blokowania indexacji niektórych 'rzeczy’ w robots.txt np. feedów, komentarzy to i tak mi indexuje

np. mojeprogramy.com/autopatcher/feed
– niby mam zablokowane aby nie indexował i nie tworzył kanałów dla konkretnych wpisów ale i tak je tworzy i indexuje (ma ktoś pomysł jak zablokować je?)

tak samo indexuje tagi, mam All in SEO i poblokowane noindex ale nadal indexuje
np. mojeprogramy.com/tag/kodeki-audio (oczywiście na bieżąco kasuje więc proszę się nie zdziwić, że akurat tego wpis nie ma)

I pytanie…
Co mam wpisać i czy zaznaczyć „Ignoruj” – aby wspomóc podjecie decyzji przez robota google ?
np. tak jak pisałeś wyżej parametr = '*/feed’ – czy zablokuje te feedy?
- Mariusz Kołacz pisze:
  
  22 czerwca 2012 o 15:07
  
  Spróbuj zablokować indeksację wybranych grup adresów via robots.txt
mojeprogramy.com pisze:

22 czerwca 2012 o 15:46

„Mimo blokowania indexacji niektórych ‘rzeczy’ w robots.txt”
– blokowane są, i sprawdziłem czy jak gogole widzie linki w WMT ii niby blokuje je , a indexują się nadal …