LSI – latent semantic indexing

Tibor Peták, 3. Máj 2008

SEO chat blog začína byť príliš komerčný, dávno som sa nevenoval nejakému pokročilejšiemu SEO. Držiac sa úvah minulého článku o zverejňovaní know-how, reč bude o nie veľmi známej technológii LSI – latentnom sémantickom indexovaní (latent semantic indexing).

Zjednodušene: LSI je technológia, ktorá na základe štatistického vyhodnocovania, hľadá vzťahy medzi slovami, respektíve vzťahy medzi dokumentmi a slovami. Slová, ktoré sa dostatočne často vyskytujú na stránkach (v akýchkoľvek dokumentoch) spoločne, LSI označí ako sémanticky blízke (spolu súvisiace).

Príklad: Ak sa slová SEO, internet a marketing vyskytujú spoločne na mnohých stránkach, LSI v prípade zadania kľúčového slova SEO nehľadá iba medzi stránkami, ktoré obsahujú slovo SEO, ale hľadá aj stránky, ktoré obsahujú slová internet a marketing.

Takéto indexovanie je veľká zbraň v rukách vyhľadávača, pretože:

LSI pomáha v analýze relevantnosti – dva dokumenty sú relevantné nielen v prípade, že obsahujú rovnaké slová, stačí, ak obsahujú slová sémanticky blízke.

LSI dodá relevantný výsledok aj v prípade, kedy klasické (tvrdé) hľadanie zlyhá – ak sa hľadané slová (aspoň dve) nevyskytujú všetky naraz na žiadnej stránke, klasické hľadanie zlyháva, pričom LSI stále prinesie relevantné výsledky, pretože bude hľadať aj medzi sémanticky podobnými slovami.

LSI umožňuje ohýbať slová bez potreby poznania gramatiky konkrétneho jazyka – pri dostatočnom počte dokumentov vyhľadávač pomocou LSI dokáže priradiť k základnému tvaru slova rôzne iné tvary alebo skratky.

Čo LSI znamená pre SEO?

Ak pochopíte, čo LSI dokáže v analýze relevantnosti, pochopíte, prečo sa neoplatí zvyšovať hustotu kľúčových slov na stránke. Namiesto toho sa budete snažiť použiť čo najviac príbuzných fráz podporujúc tak relevantnosť primárneho kľúčového slova a zameriavajúc tak ďalšie a ďalšie kľúčové slová. Môže vám to pomôcť aj v pochopení toho, čo to sú relevantné spätné odkazy. Relevantní pre stránku nie sú len konkurenti/substitúty ale aj dodávatelia/komplementy – pre web autobazáru nie je relevantná len stránka iného autobazáru alebo výrobcu áut, ale aj stránka predajne pneumatík, čerpacej stanice alebo stránka o motorkách, ktorá vôbec nemusí obsahovať ani jedno spoločné slovo s odkazovanou stránkou autobazáru.

Výhoda lepšieho vyhľadávania sa tiež týka tvorby obsahu webu. Znamená napríklad, že nemusíte použiť všetky všecičky kľúčové slová z vašej analýzy v obsahu stránky. Pokiaľ by pre užívateľa bolo ďalšie kľúčové slovo na stránke rušivé, môžete ho vynechať a spoliehať sa na LSI. (Samozrejme, pokiaľ sa dá, ešte lepšie je zamerať dané kľúčové slovo inou stránkou.)

Vďaka LSI dokáže vyhľadávač ohýbať aj také slová, ktoré nie sú gramaticky správne, ale často sa používajú. Dobrým príkladom je ohýbanie slova Google. Ak hľadáte slovo Googli (akože-lokál od slova Google), hľadá sa zároveň slovo Googlu (akože-datív slova Google). Tieto dve slová sa totiž dostatočne často vedľa seba v dokumentoch vyskytujú. Ak však hľadáte slovo Googlom, vyhľadávač nevie, že ide o iný tvar slova Google. Slovo Googlom by sa muselo častejšie používať v kombinácii s Googli a Googlu, vyhľadávač by potom “pochopil”, že ide o ďalší tvar toho istého slova. Pre SEO to znamená napríklad toľko, že nemusíte do title-ov hádzať rôzne exaktné tvary kľúčových slov (vymenovanie kľúčových slov v nominatíve), ale môžete napísať skvelý pútavý title so skloňovanými kľúčovými slovami.

Sklamanie na záver

Ono, Google pravdepodobne LSI v klasickej forme nevyužíva, takže moje príklady nie sú úplne správne. Používa však buď navonok niečo veľmi podobné alebo LSI začlenené do zhluku ďalších algoritmov. Pochopenie princípu LSI vás však môže urobiť lepším SEoptimalizátorom, toť preto o tom píšem.

Pokiaľ by niekoho téma zaujímalo podrobnejšie, našiel som skvelú prednášku nielen o LSI: Ján Paralič – Objavovanie znalostí v textoch (pdf, 560 kB) (odkaz zrušený) – pochopenie celého textu vyžaduje dobré znalosti z matematickej algebry.

Z anglických zdrojov je najlepší tento: LSI – latent semantic indexing (University of Tennessee)


Podobné články / mohlo by vás zaujať:

5 komentárov k “LSI – latent semantic indexing”

1. Martin Vasko píše:
Máj 4th, 2008 at 10:47 am

Výborný článok.

Myslím, že človek aj bez detailného pochopenia LSI dokáže veľmi dobre optimalizovať stránku, ale pochopenie LSI mu pomôže najmä k jeho zručnostiam v linkbuildingu.

2. kiwwisk píše:
Máj 5th, 2008 at 10:03 am

Nesmeruje to vsetko k tomu, ze aby stranka mala byt pre co najvecsi prinos v ramci SEO bola pisana v prirodzenom style?

3. tybi-admin píše:
Máj 5th, 2008 at 10:53 am

Martin… Áno, aj bez pochopenia LSI môže byť niekto dobrým SEO, stačí, ak bude mať vždy na zreteli užívateľa. LSI a tento článok by mali presvečiť rádoby-optimalizérov o potrebe písať normálne texty (nesledovať hustotu kľúčových slov a podobné ptákoviny) a o možnosti získavať relevantné odkazy. Mnohokrát sa totiž webmástery sťažujú, že relevantné spätné odkazy nemôžu zohnať, pretože vraj ich stránka je strašné niche. Ono je toho ale ku každej stránke tak veľa relevantného (menej alebo viac), že takáto “výhovorka” neobstojí.

Kiwwisk… Presne o tom to je. Aby stránka bola z pohľadu SEO na tom čo najlepšie musí byť písaná prirodzene a musí získavať prirodzené (alebo aspoň prirodzene vypadajúce) odkazy.

4. pxforce píše:
Máj 5th, 2008 at 1:05 pm

Ako pises… Google sa snazi byt “ako clovek” a bohuzial vela “optimalizatorov” sa snazi byt ako google bot… spetne linky su podstatne tak isto ako ked vas sused o vas vie ze dobre opravujete elektroniku… jednoducho o vas povie dalej a netreba behat po meste s kopou klucovych slov napisanych po tele… prirodzenost a relevantnost… a google si tu cestu najde ;)

5. Martin Botťánek píše:
Máj 5th, 2008 at 2:27 pm

pxforce, asi tak ;) cely PageRank algoritmus je v podstate len to co vidis v beznom zivote aplikovane na web.

Súhlasíš - nesúhlasíš, reaguj!