Zápisky z přednášky Seznam Fujjtext

12. prosince 2006 v 13:59 | HejTi |  Jihomoravská éra Weblogy.cz
Zápisky z mnou nejočekávanější přednášky v rámci Seznam tour na FI MU.

11.50 Hned na začátku mě zklamalo, že Yuhů se zde nenachází (prý kvůli přehršel práci na Skliku).
12.03 Štěpán Škrob uvedl přednášku, bude mít následující strukturu:
  1. Robot
  2. Tvorba stránek
  3. Hledání
  4. Vnitřnosti
  5. Ukázka administračního rozhraní

12.07 Robot

  • Robot stáhne 2 milióny stránek/den.
  • Denní objem cca 8GB.
  • Robot "normalizuje URL" (bez či s www, encodované znaky, URL se rozbije na části, ignorují se různé části - např. www, PHPSESSID, rand). Výsledkem je MD5 hash.
  • Pokud najde url, tak se ho pokusí stáhnout a když se mu to napoprvé nepovede, jde do banlistu, ze kterého automaticky vypadne za 3měsíce.
  • Stránka se při reindexaci má 3x3 pokusy (pokud se nezdaří, je vyřazena z vyhledávání (pokud server nevyhodil 50X chybu), při úspěšném pokusu opět vložena).
  • Při vyřazení z hledací databáze se ztratí zpětné odkazy (které se obnovují cca měsíc).
  • robots.txt se stahuje pravidelně za 2-8 dní, nemá vliv na již zaindexované stránky
  • robots.txt povoluje (cituji) stejně jako google *, $
  • je možné, že se bude v budoucnu implementovat sitemap
  • stránky s vyšším rankem mají větší pravděpodobnost, že se dostanou do databáze (při přidávání se porovnává s náhodným číslem, když je náhodné číslo menší, stránka se přidá, jinak se zahodí)
  • Uchovává se posledních N (10?) změn a zaznamenává se, jestli se stránka změnila, nebo ne. Podle toho se určuje perioda stahování (podle ranku jsou max. a min. hodnoty).
  • Přeindexování by mělo být max. jednou za 2 měsíce
  • Po stáhnutí stránky se aplikují filtry (content-type - nevyhovující na banlist, binární data - nevyhovující na banlist, detekce jazyka - akceptuji pouze české, meta tag robots - noindex, nofollow)
  • Limity pro stahování: time-out, datová velikost
  • Parser vyhazuje duplicity - přes MD5 celé stránky (zůstává první)
  • Z parseru vyjde textový derivát (titulek, url, odstavce, odkazy...)
  • V indexeru je zpracován textový derivát (lemmatizace, doplňování diakritiky, vytváří index v paměti) a připraví data pro dynamické úryvky ve výsledku
  • Přeindexace - znovu do přidávacího formuláře (několik hodin), zároveň přegenerování screenshotu
  • Screenshoty běží nad jádrem IE (200 000 screenshotů/den)

12.50 Tvorba stránek

  • Upozornění před javascriptem, flashem, JS redirect, nutnost cookies
  • Doporučuje se mapa webu
  • Nepoužívat skryté text
  • Volně cituji: "Nejsem seo-optimalizátor. Mám dojem, že je titulek hodně důležitý." -
  • Stránky s neunikátními titulky mají velký problém
  • Meta tagy se ignorují (kromě robots, refresh)
  • Přednášející zauvažoval, že by se při zobrazování mohl zobrazovat description, pokud obsahuje klíčové slovo (podobně jako google)
  • Vyhledávač nemá rád věci, které na stránce nejsou přímo vidět (chybí kontakt mezi zadaným a viděným)
  • Doporučují se dělat SEO-friendly URL (oddělení pomlčkami - špatný příklad: jakpsatweb.cz ;-), co nejkratší URL (pouze krátké názvy domén (asi 3 slova) a i celkově URL)
  • Pokud má dokument víc možností URL, přesměrovat na jednu
  • Správně odpovídat chybovými stránkami (exp. 404, při systémových chybách 500 - jinak ban)

13.08 Hledání

  • cca do 250milis projde 40GB dat a zobrazí výsledek (cca 200dotazů za vteřinu)
  • Zpracování dotazu - rozloží na slova, pročistí (neznámé znaky), lemmatizace a doplnění diakritiky, výběr lemmatu ("TV nova" v. "nová TV"; stát - sloveso, podst. jm.; "Byt v Praze" v. "Být v Praze")
  • relevance: shodnost vzájemné pozice slov v textu (čím blíž si jsou, tím líp) oproti dotazu, shoda s původním tvarem slova se hodnotí v kategoriích: titulek, text po odstavcích (3x), URL, zpětné odkazy.
  • volně: 1000 x "sex" v titulku = 1 x "sex"
  • titulky mají velkou váhu, protože se téměř dá hledat pouze podle nich
  • texty zpětných odkazů jsou brány podle ranku
  • váhy se mění cca za 1/4 roku
  • výsledky jsou seřazeny čistě podle výsledné relevance
  • spojení mezi katalogem a fulltextem pouze ten, že se titulek z katalogu zaindexuje k dané stránce
  • při řazení se odstraňují podobné stránky a méně relevantní stránky ze stejného webu
  • podobná stránka se určí na základě charakteristických řetězců slov - N náhodně zvolených řetězců o M slovech. Podobná, když asi 8 z 10 řetezců je shodných.
  • problémové jsou eshopy
  • doporučení - neduplikovat zbytečně části stránek (i v rámci jednoho webu)
  • Zajímavý nápad: zapracovat speciální značky přímo do html "odtud až potud to indexuj"
  • problémy byly u screenshotgenerátoru a podvrhováním obrázků
  • operátory site: a ""

13.33 Vnitřnosti

Architektura:
Webovka se po zadání dotazu zeptá cache, pokud se nenajde, zeptá se search serveru, který si nechá sestavati další věcí od title serverů.
Hardware:
Search servery - IBM 346 - 11x (Dual Xeon 3GHz, ram 2GB, 6x SCSI 72GB, 15kRPM, RAID 0) - jeden server cca 120 000,- Kč. Běží na minimální výkon - hodně toho odfiltruje cache (Díky našeptávači;-)
Title servery - IBM 336 - 2x (Dual Xeon 3GHz, ram 2GB 14x SCSI 72GB, 15kRPM, RAID 1+0)
O. S. GNU Debian Linux "Sarge"
Seznamáckej fulltext není ničím zvláštní.

13.48 Administrační rozhraní

Informace o stránkách.
Menu: Url, domény (Hledat doménu, hledat doménu 2. řádu, přidat novou doménu, smazat doménu, zařadit url v doméně ke zpracování), hledání, problémy(informace o řešení, limity domén 2. řádu, limity domén, duplicitní domény, duplicity v parametrech), konfigurace, testy, uživatelé, monitoring.

U domény se dají vyspecifikovat ignorované parametry, frekvence dotazování.
U hledání se může zkoušet vyhledávání s různě nastavenými váhami.
Váhy jsou různé podle zadané fráze (víceslovné, jednoslovné...)
- jednoslovný - víc rank
- víceslovný - míň rank
U problematických stránek - duplicitní domény - jaká je hlavní

13.57 S-konec

Jestli bude svoleno zhora, možná se tu objeví i prezentace.

Buď první, kdo ohodnotí tento článek.

Komentáře

1 Richi Richi | Web | 12. prosince 2006 v 14:15 | Reagovat

Ehm, fujjtext je překlep nebo úmysl? :-)

Jinak díky! Zajímavé čtení.

2 HejTi HejTi | Web | 12. prosince 2006 v 14:18 | Reagovat

"Fujjtext" je nejspíš interní označení fulltextu v Seznamu, protože bylo na prezentaci i jako logo v prezentovaném administračním systému.

3 Marek Prokop Marek Prokop | Web | 12. prosince 2006 v 14:25 | Reagovat

Honzo, díky za velmi zajímavý článek. Mám je jednu otázku. Píšeš: "stránky s vyšším URL mají větší pravděpodobnost, že se dostanou do databáze"

Co to je "vyšší URL"?

4 HejTi HejTi | Web | 12. prosince 2006 v 14:37 | Reagovat

[3] Omlouvám se - mělo být "stránky s vyšším rankem", v článku jsem to již opravil. Díky za upozornění.

5 Jan Tichý Jan Tichý | Web | 12. prosince 2006 v 14:40 | Reagovat

"stránky s vyšším URL mají větší pravděpodobnost, že se dostanou do databáze (při přidávání se porovnává s náhodným číslem, když je náhodné číslo menší, stránka se přidá, jinak se zahodí)"

Tohle jsem asi nějak nepochopil, můžeš to prosím nějak vysvětlit?

6 Jan Tichý Jan Tichý | Web | 12. prosince 2006 v 14:44 | Reagovat

[5] Aha, než jsem článek dočetl, tak se tu objevil [3] a [4] :).

Nicméně i tak to nechápu a působí to na mě dojmem, že buďto vypadl kontext a že zůstalo něco zamlčeno. Nebo to opravdu znamená, že libovolná stránka se do indexu nemusí vůbec nikdy dostat, pokud jí zrovna nepadne na kostce "šťastné" číslo nižší než její srank?

7 Radek Karban Radek Karban | E-mail | Web | 12. prosince 2006 v 14:44 | Reagovat

Skvělý článek Honzo, přesně takové údaje jsem potřeboval vědět. Škoda, že nezavítal někdo ze Seznamu k nám na VŠE, taky bych to vše rád slyšel a videl osobně.

Například jsem netušil, že již po první návštěvě URL, která není dostupná, se dá URL  do banlistu na 3 měsíce. To mi připadá trochu přehnané - striktní, čekal jsem spíše pár hodin až dnů. Možná už se mi tak rýsuje důvod, proč některé URL ze Seznamu musí a po nějaké době se opět objeví :)

Zeptám se Tě, náhodou neukazovali screenshot z admin rozhraní, jaké detaily jsou k vidění o zařazené URL či doméně ?

8 HejTi HejTi | Web | 12. prosince 2006 v 14:47 | Reagovat

[6] - skutečně to tak je. Nicméně tak hrozné to není, protože pokud je nějaká stránka hodně kvalitní, je hodně velká pravděpodobnost, že se tam dostane. Je to prý dočasné řešení z technických důvodů.

9 HejTi HejTi | Web | 12. prosince 2006 v 14:52 | Reagovat

[7] Osobně ji slyšet je určitě lepší - bohužel nestíhám dělat dvě věci zároveň a tak tady spoustu věcí není a sem tam mi uteklo zase něco na úkor psaní. Jak je vidět, tak jsem u psaní na to psaní moc nemyslel, tak je tu hodně věcí zapsané dost zmatečně (víc než normálně) či nedokončené, vytržené z kontextu atp.

Admin - ukazovali nám screenshoty. Bohužel uchovávané údaje o doméně, stejně tak jako částečně chycený seznam vah jsem si nestačil uložit do svojí fotografické paměti:-(

10 Bednee Bednee | 12. prosince 2006 v 14:57 | Reagovat

Slo by rozepsat to pouziti SEO-friendly URL? Jak se divam na jakpsatweb.cz, tak mezery mezi slovy v URL nahrazuje prave pomlckami. Takze pomlcky jsou dobre nebo spatne?

11 HejTi HejTi | Web | 12. prosince 2006 v 15:03 | Reagovat

[10] - to bylo přímo k doméně jakpsatweb, kde slova jak, psát a web nejsou oddělená pomlčkou;-)

12 Pavel Pavel | Web | 12. prosince 2006 v 15:35 | Reagovat

[10] správně ma být odděleno pomlčkami:

jak-psat-web.cz  

špatně jsou podtržitka jak_psat_web.cz

podobně i u názvu souboru

dobre-napsan-nazev-souboru.htm

spatnenapsannazevsouboru.htm

spatne_napsan_nazev_souboru.htm

13 Ošklivý sup Ošklivý sup | 12. prosince 2006 v 15:58 | Reagovat

netušíte někdo zda se podobné přednášky budou konat i na některých z pražských (mff, fel, vse..) škol?

14 HejTi HejTi | Web | 12. prosince 2006 v 16:02 | Reagovat

[13] viz. http://ilblog.sblog.cz/2006/11/21/399

Tento odkaz navštivte prosím všichni, kteří se hodláte ptát, škemrat, nadávat ohledně přednášek Seznamu.

15 Petr Petr | Web | 12. prosince 2006 v 17:00 | Reagovat

[12] Můžet zmínit jeden jediný důvod, proč je lepší jak-psat-web.cz oproti jakpsatweb.cz? ;)

16 David Špinar David Špinar | Web | 12. prosince 2006 v 17:07 | Reagovat

[15] Takový web má za jinak stejných podmínek lepší vyhlídky na klíčová slova "jak", "psat" a "web". Opakuji, platí to "ceteris paribus", tedy za jinak stejných podmínek. :-)

17 Shaman Shaman | Web | 12. prosince 2006 v 17:48 | Reagovat

Zajímavý a po dlouhé době zase příjemně konkrétní článek :-)

Díky za něj.

18 Yuhů Yuhů | E-mail | Web | 12. prosince 2006 v 20:02 | Reagovat

Fíha, to je ale nepřesností!

:-)

Asi jsem tam fakt měl jet.

19 Yuhů Yuhů | E-mail | Web | 12. prosince 2006 v 20:31 | Reagovat

Zkusím zmínit pár věcí, které jsou nejméně přesné. Vlastně o každém bodu by se dalo mluvit deset minut, ale v rychlosti:

robots.txt nemá vliv na již zaindexované stránky

má, akorát ne okamžitý. Proti robots.txt se stránky vyhodnocují při reindexaci.

Parser vyhazuje duplicity - přes MD5 celé stránky (zůstává první)

nemusí zůstat ta první. Je tam nějaké zkušební období, kdy se dá nové duplicitě šance nabrat body a původní URL předběhnout (to pak vypadne).

Doporučují se dělat SEO-friendly URL (oddělení pomlčkami

nebo podtržítky, to Seznam chápe stejně. V doméně podtržítko samozřejmě použít nelze.

hodně toho odfiltruje cache (Díky našeptávači;-)

není to jenom díky našeptávači. Porovnávali jsme účinnost cache s Yandexem a máme ji velmi podobnou, ačkoli Yandex našeptávač nepoužívá. Našeptávač samozřejmě snižuje kardinalitu dotazů, ale nijak podstatně.

pokud je nějaká stránka hodně kvalitní, je hodně velká pravděpodobnost, že se tam dostane.

Je to prý dočasné řešení z technických důvodů.

souhlas, akorát to není dočasné řešení, ale důležitá fíčura. On v praxi je ten práh nastaven tak nízko, že i málo kvalitní stránky mají slušnou šanci se do indexu dostat. Hlavně se ale ta pravděpodobnost vyhodnocuje při každém průchodu robota, to znamená že jeden neúspěch neznamená konec navždy.

20 Marty Marty | E-mail | Web | 12. prosince 2006 v 20:38 | Reagovat

Velmi zajímavý článek a shrnutí v jednom, i když jak tak čtu Yuhůuv komentář [18] tak ho asi budu brát s rezervou ;)

21 Michal Michal | Web | 13. prosince 2006 v 0:36 | Reagovat

Mě překvapuje, že nové url, které se nepodaří stáhnout ma na 3 měsíce ban. Teď zbývá doufat, že server pojede, až přijde seznambot.

22 HejTi HejTi | Web | 13. prosince 2006 v 9:13 | Reagovat

[18],[19] Díky, Dušane, za upřesnění. Jak jsem psal výše - nestačil jsem dělat dvě věci zaráz a tak je něco vytržené z kontextu, něco jsem nestačil zapsat a hlavně jsou to pořád jen zápisky z přednášky, akorát jsem si řekl, že bude obecně přínosné je sem vůbec uvést. Podle času u jednotlivých nadpisů je i vidět jak dlouho jsme se těm bodům věnovali, takže u téměř každého bodu toho vím víc, než je napsáno, nicméně napsání komentáře ke každému bodu by mi zabralo tolik času, že bych nikdy komentované zápisky nepublikoval. Navíc tady dochází k modifikaci celou cestou: Něco nějak je -> Štěpán něco stručně řekl -> já jsem to nějak pochopil -> nějak jsem to stručně zapsal -> nějak to čtenář pochopil, takže je logické, že je tady spousta napřesností.

[20] Ano, berte ho s rezervou - viz předchozí odstavec.

[21] To je ale, dle mého názoru, pro robota důležité - jinak by neustále navštěvoval neexistující url, což by ho zaměstnávalo natolik, že by nemohl indexovat nějaké množství existujících stránek.

23 Richi Richi | Web | 13. prosince 2006 v 9:48 | Reagovat

Nevíte někdo zda a kde se dá zjistit kdy byl naposled web zaindexován seznam robotem tak jak to jde u Googlu?

24 HejTi HejTi | Web | 13. prosince 2006 v 9:51 | Reagovat

[19] > není to jenom díky našeptávaèi. To bylo jen moje dloubnutí, které jsem si nemohl odpustit;-)

[23] doporučuji konferenci seo.nawebu.cz

25 neon neon | Web | 13. prosince 2006 v 10:48 | Reagovat

Parser vyhazuje duplicity - přes MD5 celé stránky (zůstává první)

To jako, že duplicitní obsah by se posuzoval přes MD5 celého webu? Když se změní písmenko v článku tak už nebude duplicitní? Vím, že to tak není, nebylo by nějaké podrobnější info? Vyhodnocuje Seznam každou větu nebo části vět a zkoumá duplicity s jinými stránkami?

26 Ošklivý sup Ošklivý sup | 14. prosince 2006 v 3:01 | Reagovat

sem se trefil do špatného članáku, tak podruhé:

No tak jsem byl na FELu, Yuhů tam dokonce byl (celkem asi 3 seznamáci), ale nepřednášel, spíš působyl dojmem aby přednášející neříkal co nemá :-)

tady několik poznámek které jsem doplnil ke zdejším: http://www.osklivy-sup.cz/seznam.php

27 MzK MzK | Web | 16. prosince 2006 v 20:56 | Reagovat

Perfektní zápisky!

28 Solamyl Solamyl | E-mail | 18. prosince 2006 v 11:42 | Reagovat

Musím říct, že jsem byl také ohromen podrobností zápisků, to jsem fakt nečekal ;-)

29 Martin Martin | 18. prosince 2006 v 20:39 | Reagovat

Taky jsem byl na FELu, diky Seznamaci za zajimavou prednasku, diky HejTi za osvezeni!

Neni mi jasne: "Stránky s neunikátními titulky mají velký problém" - znamena neunikatni v ramci jedne URL nebo v ramci jednoho webu? Pokud dam nazev webu do <h1> a bude na vsech URL na tomto webu stejny, je to problem nebo ne? Pripadne diky za upresneni.

30 HejTi HejTi | Web | 19. prosince 2006 v 14:18 | Reagovat

[29] titulkem jsem myslel obsah elementu <title>, nicméně doporučuju i unikátní H1 v rámci webu...

31 Anthoan Anthoan | Web | 10. září 2008 v 11:13 | Reagovat

Hodně zajímavý článek... Moc díky za výtah z přenádšky...

32 Rios23Marcy Rios23Marcy | E-mail | Web | 6. září 2011 v 2:33 | Reagovat

Houses and cars are not very cheap and not every person can buy it. But, <a href="http://bestfinance-blog.com">loans</a> are created to aid people in such kind of cases.

33 business loans business loans | E-mail | Web | 5. prosince 2011 v 9:45 | Reagovat

That is well known that cash makes us disembarrass. But what to do when someone does not have cash? The one way is to try to get the personal loans and just consolidation loan.

34 Joyce Summers Joyce Summers | E-mail | Web | 14. března 2012 v 18:35 | Reagovat

Still looking online for something like a <a href="http://www.findacellphoneuser.com/2010/04/cell-phone-white-pages-how-to-identify.html">cell phone white pages</a>?  It really isn't that hard to find.  Identifying unknown mobile phone callers is as easy as finding a good reverse phone directory from which to perform a search.  You know?

Nový komentář

Přihlásit se
  Ještě nemáte vlastní web? Můžete si jej zdarma založit na Blog.cz.