Prijava na forum:
Ime:
Lozinka:
Prijavi me trajno:
Trajanje:
Registruj nalog:
Ime:
Lozinka:
Ponovi Lozinku:
E-mail:

ConQUIZtador
nazadnapred
Korisnici koji su trenutno na forumu 0 članova i 1 gost pregledaju ovu temu.

Read-only arhiva vesti:

Sveze vesti i informacije mozete citati u forumu Internet ~ Novosti ~ Provideri!

Idi dole
Stranice:
Počni novu temu Nova anketa Odgovor Štampaj Dodaj temu u favorite Pogledajte svoje poruke u temi
Tema: Kako radi Google i ostali pretraživači  (Pročitano 1476 puta)
01. Dec 2005, 11:35:10
Administrator
Capo di tutti capi


Underpromise; overdeliver.

Zodijak Gemini
Pol Muškarac
Poruke Odustao od brojanja
Zastava 44°49′N - 20°29′E
OS
Windows XP
Browser
Opera 8.50
mob
Apple iPhone 6s
Kako radi Google i ostali pretraživači

Dobra vest vezana za Internet i veliki deo njegovih vidljivih komponenti WWW-a je da postoje stotine miliona web stranica koje čekaju da se pojave sa svim svojim tematskim različitimostima.
Loša vest vezana za Internet je da isto toliki deo web stranica zahvaljujući svoj tvorcima samo sedi na nekim serverima mističnih imena. Kada su vam potrebne informacije vezane za neku temu, kako znate koje od stranica vam zaista i trebaju? Ukoliko ste kao većina ljudi koristite internet pretraživače (Internet search engine).
   Pretraživači su specijalizovani sajtovi koji su dizajnirani da pomognu ljudima da pronađu informacije koje se nalaze na sajtovima.
Postoje razilke u načinu rada pretraživača, ali u osnovi svi izvršavaju sledeće zadatke:

·   Pretražuju Internet- ili manje delove Interneta- bazirane na ključnim rečima u zahtevu.
·   Čuvaj index reči koji pronađu i njihovu lokaciju.
·   Dozvoljavaju korisnicima da pretražuju reči ili kombinaciju reči koje se nalaze u tom indexu.
Stariji pretraživači su imali index of nekoliko stotina hiljada stranica i dokumenata, i imali su možda jednu ili dve hiljade upita svaki dan. Danas, najači pretraživači indexiraju stotine miliona stranica i odgovaraju na desetine miliona upita na dnevnoj bazi.
U ovom tekstu pokazaćemo vam kako oni rade i izvršavaju svoje funkcije, i kako pretraživači sklapaju deliće u celinu kako bismo svi dobili željene informacije.
Osvrt na Web

Kada većina ljudi govori o Internet pretraživačima, zapravo misle na World Wide Web pretraćivače. Pre nego što je Web postao najvidljiviji deo Interneta, već su postojali pretraživači na Net-u. Programi kao što su “gopher” i “Archie” čuvali su indexe fajlova na serverima vezanim na Internet, i značajno umanjivali vreme potrebno da se nađu programi i podaci. Kasnih 80-tih znati koristiti Internet zavisilo je od toga koliko dobro umete da korisitite gopher, Archie, Vernica i ostale programe.




Danas, većina korisnika Interneta se ograničava kada je u pitanju pretraga po Web-u, tako da ćemo se i mi ograničiti i fokusirati na pretragu po sadržaju Web stranica.

Početak
Pre nego što pretraživač gde se nalazi fajl ili dokument, prvo to mora biti pronađeno.Da bi pronašli informacije na hiljade miliona stranica, prteraživač upošljava specijalne softverke robote, nazvani paukovi (spiders), koji grade listu reči pronađenih na sajtovima.
Kada pauk gradi svoju listu, proces se naziva u bukvalnom smislu puzanje (crawling). Kako bi izgradio i održavao korisnu listu reči, paukovi moraju da pregledaju veliki broj stranica.
Kako pauk započinje svoje putovanje na Web-u? Uobičajena početna tačka su teško opterećeni i korišćeni serveri i veoma popularne stranice. Pauk će početi sa popularnim stranicama, indeksirati reči na njima i prateći svaki link koji se na toj stranici nalazi. Na ovaj način putovanje pauka se brzo širi na najveći deo iskorišćenog Web-a.



 "Paukovi" uzimaju sadržaj Web stranica i prave ključne reči za pretragu koje kasnije omogućavaju korisnicima da pretražuju.
Google.com je počeo kao pretraživač koji će služiti u akademske svrhe. Na papiru koji opisuje kako je ceo sistem napravljen SergeyBrin i Lawrence Page daju primer koliko brzo njihovi paukovi zapravo rade.
Pri inicijalizaciji procesa koriste višestruke paukove, uglavnom tri istovremeno. Svaki pauk može da održava 300 konekcija prema Web stranama. Na svom vrhuncu koristeći četiri pauka njihov sistem može da izprocesira 100 strana u sekundi generišući oko 600 kb podataka svake sekunde.
   Održavati da sve radi tako brzo značilo je napraviti sistem koji će hraniti paukove neophodnim informacijama. Raniji Google sistem je imao svoj posvećeni server koji daje URL-ove paucima. Umesto da zavise od Internet servi provajdera i DNS-a (domain name server) koji prevodi imena servera u adrese, Google je imao sopstveni DNS kako bi odstranio i najmanja kašnjenja.
Kada bi Google pauk naišao na HTML stranicu, beležio je dve stvari:
·   Reči pronađene unutar stranice
·   Lokaciju gde su reči pronađene
Reči nađene u naslovima, pod naslovima, meta tagovima i njihove pozicije zavisno od važnosti, specijalno su beležene za lakšu pretragu.
Google paukovi su pravili index od svake bitnije reči koja se pojavljuje na stranici, izostavljajući članove kao što su  "a," "an" ili "the."
Drugi paukovi imaju drugačiji pristup.
Ovi različiti pristupi uglavnom nastoje da naprave brže paukove, dozvole korisnicima da pretražuju brže i efikasnije. Na primer, neki paukovi će pratiti reči u naslovima, pod naslovima i linkovima, zajedno sa još 100 najkorišćenijih reči na stranama, i sve reči u prvih 20 redova teksta. Lycos koristi ovakav pristup kada su u pitanju njegovi paukovi.
Drugi sistemi, kao što je na primer AltaVista idu drugim putem, indexiraju svaku reč na stranici, zajedno sa članovima   "a," "an" i "the." i drugim rečima koje drugi možda smatraju nevažnim.

Da dodatno zakomplikujemo stvari neophodno je pogledati odnos prema čuvenim meta tagovima.

Meta Tagovi

Meta tagovi dozvoljavaju svom vlasniku da navede ključne reči i koncepte pod koje će se njegova strana indexirati. Ovo može biti od velike pomoći, pogotovu u slučajevima kada se na stranici nalaze reči od dvostrukog ili trostrukog značenja. Meta tagovi mogu da navedu pretraživačima na moguće tačno značenje ovih reči. Kako god, postoji i opasnost preterane zavisnosti od meta tagova, jer nepažljivi ili zavidni kreatori stranica mogu da dodaju meta tagove koji odgovaraju veoma popularnim temama a da u svom sadržaju nemaju ništa približno slično. Kako bi se zaštitili od ove opasnosti, paukovi će uporediti meta tagove sa sadržajem na stranici, odstranjujući meta tagove koji ne odgovaraju sadržaju.
Sve ovo pod je validno jedino pod pretpostavkom da vlasnik stranice zapravo i želi da bude svrstan u pretraživače. Mnogo puta, vlasnik stranice ne želi da se pojavi na velikim pretraživačima niti želi aktivnost paukova na svojoj stranici. Zamislite samo sledeći slučaj, igrica preko interneta, koja gradi nove aktivne stranice svaki put kada se pristupa nekoj od njenih stranica ili linkova. Ukoliko bi pauk pristupio jednoj ovakvoj stranici, igrica bi mogla da ga pobrka sa korisnikom i da se otrgne kontroli. Da bi se ovakve situacije izbegle stvoren je protokol pod nazivom robot exclusion protocol. Ovaj protokol, implementiran u meta tag sekciji na početku web stranice daje instrukcije pauku da ne pristupa stranici i da ga ne indexira niti prati njegove linkove.
Pravljenje indexa

Jednom kada su paukovi završili sa zadakom pronalaženja infomacija
na Web stranama (treba imati na umu da ovaj zadatak zapravo nikada nije završen, zbog konstantne promeljive prirode Web-a), pretraživači moraju da sačuvaju informacije na iskoristljiv način. Postoje dve ključne komponente koje omogućavaju sakupljene podatke dostupne korisnicima:
·   Informacije sačuvane unutar podataka
·   Metod na koji se informacije indeksiraju

 
U najjednostavnijem slučaju, pretraživač samo sačuva reč i URL na kojoj je pronađena. U realnosti, ovo se koristi za pretraživače specijalnih namena jer ne postoji način da se zna da li je reč iskorišćena kao sastavni deo nečega bitnog ili trivijalnog, niti da li je reč upotrebljena više puta ili je možda reč koja se nalazi na nekim od linkova same stranice. Drugim rečima, nema način da se svori rank lista koja nastoji da prikaže najkorisnije stranice na samom vrhu liste pretrage.
Da bi smo dobili iskoristjlivije rezulate, većina pretraživača čuvaju više od reči i URL-a. Pretraživač može sačuvati broj pojavljivanja reči na jednoj stranici. Može dodeliti težinu svakom unosu, uvećavajući je ukoliko se reč pojavljuje u naslovu, pod naslovu, meta tagu itd. Svaki komercijalni pretraživač ima drugačiju formulu za dodeljivanje težine rečima u svom indexu. Ovo je jedan od razloga zašto iste reči daju različite rezultate na različitim pretraživačima.
Bez obzira na metod, podaci se moraju enkoridarti kako bi se sačuvao prostor. Na primer, originalni Google opisuje korišćenje 2 bajta, svaki po 8 bitova, da sačuva informaciju po njegovoj težini, bilo da je velim slovom, pozicija ili veličina fonta. Svaki faktor uzima od 2 do 3 bita u 2 bajt-noj grupaciji. Kao rezultat, veliki deo informacija se može sačuvati na malo prostora. Kada je informacija u ovakvoj formi, spremna je za indeksiranje.
Indeks ima samo jednu svrhu: Dozvoljava informaciji da bude pronađena što je pre to moguće. Postoje nekoliko načina da se napravi indeks, ali jedan od najefikasnijih je pravljenje heš tabele. Kod heširanja formula je primenjena kako bi se dodala numerička vrednost svakoj reči. Formula je takva da ravnomerno distribuira unose po predefinisanim brojevima i grupama. Numerička distribucija je različita od distriburianja reči po alfabetu, i u tome leži ključ uspeha heš tabele.
U Engleskom postoje neka slova kojima započinjemo mnoge reči, dok postoje i slova kojima započinjemo mali broj reči. Ovo znači da bi pronalaženje reči sa popularnim slovom moglo da bitnije potraje u poređenju sa ne tako korišćenim slovom. Heširanje izjednačuje verovatnoće, i smanjuje srednje vreme potrebno za pronalaženje unosa. Takođe razdvaja indeks od stvarnog unosa. Heš tabla poseduje heširan broj zajedno sa pokazivačem na pravi podatak, koji može biti sačuvan na bilo koji način koji se pokaže kao efikasniji. Kombinacija efikasnog indeksiranja i efikasnog čuvanja omogućava brzu pretragu čak i kada korisnik napravi komplikovan upit.
Stvaranje pretrage

Pretraživanje kroz indeks uključuje korisnikovo stvaranje upit i slanje istog kroz pretraživač. Upit može biti veoma jednostavan, jedna reč je minimum. Stvaranje kompleksnijeg upita zahteva korišćenje Bulovih operandi koje dozvoljavaju proširenje naših upita.

Bulove operande koje najčeće srećemo su:
·   AND – Svi termini spojeni sa AND se moraju pojaviti u stranici ili dokumentu. Neki pretraživači umesto AND-a koriste +.
·   OR – Barem jedan od termina se mora pojaviti na stranici ili u dokumentu.
·   NOT – Termin koji prati NOT se ne sme pojaviti u stranici ili dokumentu. Neki pretraživači umesto NOT-a koriste -.
·   FOLLOWED BY – Jedan od termina mora obavezno biti propraćen sledećim.
·   NEAR – Jedan od termina mora biti određen broj reči drugog termina.
·   Znaci navodnika – Reči unutar znaka navodnika se tretiraju kao fraza i kao takva mora biti pronađena identična unutar web stranice. 

Pripremio Rastko Ilić
IP sačuvana
social share
Pobednik, pre svega.

Napomena: Moje privatne poruke, icq, msn, yim, google talk i mail ne sluze za pruzanje tehnicke podrske ili odgovaranje na pitanja korisnika. Za sva pitanja postoji adekvatan deo foruma. Pronadjite ga! Takve privatne poruke cu jednostavno ignorisati!
Preporuke za clanove: Procitajte najcesce postavljana pitanja!
Pogledaj profil WWW GTalk Twitter Facebook
 
Prijava na forum:
Ime:
Lozinka:
Zelim biti prijavljen:
Trajanje:
Registruj nalog:
Ime:
Lozinka:
Ponovi Lozinku:
E-mail:
Idi gore
Stranice:
Počni novu temu Nova anketa Odgovor Štampaj Dodaj temu u favorite Pogledajte svoje poruke u temi
nazadnapred
Prebaci se na:  

Poslednji odgovor u temi napisan je pre više od 6 meseci.  

Temu ne bi trebalo "iskopavati" osim u slučaju da imate nešto važno da dodate. Ako ipak želite napisati komentar, kliknite na dugme "Odgovori" u meniju iznad ove poruke. Postoje teme kod kojih su odgovori dobrodošli bez obzira na to koliko je vremena od prošlog prošlo. Npr. teme o određenom piscu, knjizi, muzičaru, glumcu i sl. Nemojte da vas ovaj spisak ograničava, ali nemojte ni pisati na teme koje su završena priča.

web design

Forum Info: Banneri Foruma :: Burek Toolbar :: Burek Prodavnica :: Burek Quiz :: Najcesca pitanja :: Tim Foruma :: Prijava zloupotrebe

Izvori vesti: Blic :: Wikipedia :: Mondo :: Press :: Naša mreža :: Sportska Centrala :: Glas Javnosti :: Kurir :: Mikro :: B92 Sport :: RTS :: Danas

Prijatelji foruma: Triviador :: Domaci :: Morazzia :: TotalCar :: FTW.rs :: MojaPijaca :: Pojacalo :: 011info :: Burgos :: Alfaprevod

Pravne Informacije: Pravilnik Foruma :: Politika privatnosti :: Uslovi koriscenja :: O nama :: Marketing :: Kontakt :: Sitemap

All content on this website is property of "Burek.com" and, as such, they may not be used on other websites without written permission.

Copyright © 2002- "Burek.com", all rights reserved. Performance: 0.06 sec za 17 q. Powered by: SMF. © 2005, Simple Machines LLC.