textgen

Generowanie site i metody tworzenia nowych treści

Kilkanaście dni temu jeden z czytelników zwrócił się do mnie z pytaniem, w jaki sposób szybko i bezboleśnie nabić duży site na jego stronie firmowej, jako argument przemawiający ZA podał, że dzięki temu jego witryna tanim kosztem w krótkim okresie czasu zyska tysiące odwiedzin, ale nie to pytanie jest istotne - ciekawszą kwestią jest jakiej metody użyć do generowania treści. Czy na pewno przywołana metoda wciąż działa - mowa o nabijaniu site i czy są skuteczne metody w generowaniu contentu?

Dawno dawno temu kiedy jeszcze można było wypozycjonować stronę na konkurencyjne frazy samymi katalogami i preclami, faktycznie nabicie dużego site w Google przynosiło wymierne korzyści. Seowcy masowo prześcigali się w coraz to nowszych metodach generowania treści na strony, od scrapowania artykułów z Wikipedii, poprzez tłumaczenia tekstów z języka angielskiego na polski, a kończąc na wyszukanych algorytmach analizy, przetwarzania i generowania. Wszystko odbywało się w sposób w pełni zautomatyzowany lub w ostateczności półautomatyczny, tanim kosztem można było osiągnąć to, na co wiele osób pracowało przez lata. Czy metody sprzed paru lat wciąż działają? Zanim odpowiem na to pytanie przejdę do innego punktu.

By utrudnić działania, Google na przestrzeni kilku ostatnich lat wprowadziło liczne zabezpieczenia, dzięki którym metoda nabijania site straciła na efektywności. Na podstawie analiz filtrów algorytmicznych, które przeprowadziłem na przestrzeni ostatnich 2 lat można wyłowić prawidłowości, które prowadziły do kar. Jedną z tych prawidłowości jest szybki przyrost site, czy to poprzez umyślne generowanie nowych podstron w serwisie, czy też nieświadome powielanie podstron w obrębie domeny i/lub subdomen.

Czy wygenerowanie dużej liczby podstron, których zawartość jest bardzo zbliżona do siebie negatywnie wpływa na postrzeganie domeny i zwiększa ryzyko otrzymania kary od Google? Jasne że TAK. Niestety wciąż wiele osób wychodzi z założenia - "czym więcej tym lepiej" lub "lepiej byle jak niż wcale", jednak w dzisiejszych czasach takie podejście ma krótkie nogi i część osób, których strony ugryzła Panda, przekonało się o tym na własnej skórze.

Jakiś czas temu pisałem o rel="canonical" zlecieli się wielcy "znawcy" tematu wypowiadając słowa, jakoby canonical nie był żadnym zabezpieczeniem, owszem nie jest to panaceum na wszystkie "choroby", ale jak pokazuje praktyka (przykład tutaj), poprawna implementacja canonical mogła zmniejszyć duplikowanie i zapobiec późniejszym wydarzeniom. Na szczęście w tym przypadku obyło się bez płaczu, szybka reakcja pozwoliła naprawić problem, jednak wielu właścicieli sklepów wciąż bagatelizuje zagrożenie. Mam nadzieję, że w świadomości tych osób coś drgnie, również za sprawą podobnych artykułów.

Nieco odbiegliśmy od tematu przewodniego, wracamy do pytania czytelnika. Czy sztucznie generowany content może sprawić, że domena zyska tysiące odwiedzin? I tak i nie, wszystko zależy od jakości generowanej treści tj. metody generowania. Najpopularniejsze to generowanie nowej treści poprzez użycie synonimów. Niestety metoda aktualnie słabo sprawdza się chyba że...

W zeszłym roku testowałem możliwości wykorzystania auto wygenerowanych tekstów w ściąganiu ruchu na strony docelowe. Do tego celu między innymi stworzyłem prosty programik, który miał za zadanie stworzyć nowe treści, które następnie mogły zostać umieszczone (zaimportowane) na stronie.

Prosty generator tekstów

Metoda okazała się połowicznie skuteczna albowiem nie miałem kiedy skończyć metody słownikowej oraz wprowadzić udoskonalony algorytm krzyżowy (pochodzący z algorytmu genetycznego). Udało się ściągnąć trochę ruchu na satelitę, ale to było poniżej moich oczekiwań - inaczej mówiąc test powiedział, że gra nie jest warta świeczki. Google dobrze sobie radzi ze sztucznie generowanymi tekstami ale uważam, że do ideału jeszcze daleka droga, z pewnością przy użyciu odpowiednich aplikacji (algorytmów) da się stworzyć treści, które będą w pełni odporne na algorytmy wykrywania sztucznej treści lub inaczej... będą zrozumiałe dla czytelnika na tyle, że algorytm nie będzie potrafił nic wykryć. Jednak pamiętajmy, że analizując pełne spektrum tekstów na stronie zawsze można wyłowić regularności, dotyczy to nawet treści pisanych przez ludzi, którzy mają swoje nawyki w pisaniu.

W programie zastosowałem bardzo proste metody łączenia i podstawową podmianę wyrazów, co by było gdyby oprzeć się na inteligentnych algorytmach zawartych choćby w zaawansowanych synonimizatorach tekstów? Jeżeli tylko czas pozwoli na dokończenie programu, będę w tym roku ponownie testował tę metodę.

Dla jasności, nikogo nie namawiam do wykonywania tego typu testów, a tym bardziej generowania sztucznej treści na domenach firmowych - powiem wręcz, że sam nawet bałbym się zastosować metody na lepszej jakości zapleczu nie mówiąc już o domenie firmowej. Test przeprowadzałem w ramach corocznych eksperymentów, w celu sprawdzenia potencjału metody - wiemy doskonale ile kasy przeznaczamy na napisanie przyzwoitej jakości treści na zaplecza, jeśli udałoby się zaoszczędzić choćby 50% na tekstach zastępując je sztucznie generowanymi, sensownymi, zrozumiałymi dla człowieka treściami i "uodpornionymi" na Google, byłaby to wielka oszczędność czasu i przede wszystkim pieniędzy, co doprowadziłoby do wzrostu opłacalności projektów SEO lub jak kto woli zwiększenia zysków.

Mariusz Kołacz algorytmy generowania treści, nabijanie site, prosty generator treści

Skomentuj wpis - Komentarzy (10)

  1. sylwestrus pisze:

    Witam,
    mam pytanie dotyczące tłumaczonych tekstów. Czy Google się przed tym zabezpiecza? Jak tak to w jaki sposób?:O Mam na myśli półautomatyczne.

  2. Mariusz Kołacz pisze:

    Algorytmu nikt nie zna poza programistami Google, którzy nad tym pracowali. Ja mogę opierać się wyłącznie na swoich testach i obserwacjach. Translacja przy pomocy dedykowanych usług jak Google Translate jest łatwo odwracalna (podobnie jak sprowadzanie synonimów do pierwotnej postaci), co więcej w tej sytuacji korzystamy z narzędzia Google więc oni mają już wszelkie dane na swoich serwerach (oczywiście można skorzystać z innych usługodawców), w związku z czym w generatorze trzeba zastosować dodatkowe elementy i to te elementy odgrywają najistotniejszą rolę w treściach tłumaczonych. Podobnie jest z klasycznymi "półautomatycznymi" treściami synonimizowanymi. Wielopoziomowe artykuły synonimizowane o niewielkim stopniu pokrewieństwa są trudne do wykrycia ale nie niemożliwe. Założymy że wygenerowałeś 1000 tekstów i umieściłeś je na 1000 stronach, jeśli będzie analizowane całe spektrum inaczej mówiąc cała grupa stron lub choćby znaczna jej część, która zawiera ów auto wygenerowane - synonimizowane teksty, to wtedy nie ma bata, regularności zawsze się wyłowi, lecz takie działanie zajęłoby sporo czasu i pochłonęłoby wiele zasobów, ale Google stać na to, w końcu z tego co pamiętam są potęgą pod względem liczby serwerów. Żadna firma nie ma takich mocy przerobowych jak oni.

  3. fabian pisze:

    A robiłeś może testy czy sztuczny backlinking ma jeszcze jakiś sens ?

  4. Mariusz Kołacz pisze:

    Akurat nie miałem potrzeby wykonywać tego typu testów, ponieważ obserwuję to często podczas analiz profilu linków stron ukaranych za nienaturalne linki przychodzące ręcznie lub algorytmicznie, masowe pozyskiwanie linków z miejsc oklepanych ma bardzo krótkie nogi. Choćby mogę przytoczyć ostatni przypadek, gdzie właściciel www chcąc podbić pozycje wykupił na Allegro pakiet linków (piramidy, profile, katalogi), pozycja owszem podskoczyła w pierwszej fazie linkowania, ale nie doszło nawet do 2 miesięcy jak wszystko siadło na amen, w GWT teraz jest jak na wykresie elektrokardiograficznym zmarłego pacjenta. Gość nawet nie wbił się do TOP10 na interesujące go frazy i dostał po tyłku - to pokazuje wzrost skuteczności Google i jednocześnie informuje, że metody szybkie i masowe już nie działają.

  5. zeki pisze:

    Nie lepiej by było napisać kamień filozoficzny a jeszcze lepiej panaceum czy jakoś tak? Perpetuum to maszyna, która nie potrzebuje do swojego działania energii z zewnątrz co nijak się ma do zdania.

    (możesz Mariusz tego nie publikować bo i po co?)

  6. Mariusz Kołacz pisze:

    @zeki, dzięki za zwrócenie uwagi, faktycznie w kontekście zdania ma to większy sens, wpis zacząłem pisać późno w nocy i faktycznie tego zdania do końca nie przemyślałem, zmieniłem na panaceum (zmiany mogą być widoczne dopiero za jakiś czas ze względu na mechanizmy keszujące).

  7. Annka pisze:

    A czy jest możliwość udostępnienia takiego generatora tekstów :)?

  8. Mariusz Kołacz pisze:

    Być może kiedyś zostanie udostępniony odpłatnie.

  9. Maciej Sala pisze:

    Jakiś czas temu słyszałem o algorytmach pozwalających na wyłapywanie treści i rozpoznawanie - mniej lub bardziej trafne - czy należą do tego samego autora. Jak napisałeś, każda osoba ma pewien styl pisania, używa własnego słownika określeń (ten, zmienia się trochę w czasie oczywiście) i na tej podstawie - podobno - można stworzyć coś na kształt "odcisku palców". Myślę, że dla Google jest i będzie ważne przypisanie treści do osoby. Przykład? Załóżmy, że copyrighter pisze na temat leków i ochrony zdrowia, a jest to artykuł ekspercki albo na taki pozujący. Google musi brać pod uwagę, na ile to treść ekspercka a na ile nie? A jeśli dana osoba ma wykształcenie nieodpowiadające tematyce treści o której pisze, a cała strona internetowa wydaje się pisana przez tą osobę? Bah, będzie miała mniejszą lub większą karę. Oczywiście piszę o artykułach, a nie komentarzach.

  10. xseo pisze:

    Słowo pisane czy to z palca czy przez aplikacje zawsze będzie zbliżone do siebie.
    Wiem bo pisałem skrypty generujące treści i zgarniałem po 300k site w Google, jakiś czas temu, teraz mam na tyle silne serwisy linkujące, że się w to nie pakuję, ale co nie zmienia faktu... Jak dobry programista napisze swój algorytm generujący to osiągnie sukces, nie mówię, że ma to być od razu jakieś matematyczne ustrojstwo...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Poinformuj mnie o nowych komentarzach do tego wpisu.