Deep Web: alla scoperta delle informazioni nascoste



Viene definito Deep Web tutto il web che i motori di ricerca non riescono a vedere e quindi a catalogare.
Da studi sembra che solo 1% delle pagine web sia stato indicizzato (cioè letto e catalogato) dai motori di ricerca.
WebCrawler
E il rimanente 99% perchè non riescono a vederlo ?
Non ci riescono perchè i programmi che analizzano le pagine web, definiti web crawler, non riescono ad analizzare altro che le pagine semplici ed i link in essi contenuti.
Facciamo un esempio: se avere una pagina semplice scritta in HTML con all’interno 2 link, questa sarà correttamente analizzata dal web crawler e quindi correttamente indicizzata nel motore di ricerca.

Facciamo ora un esempio di qualcosa che gli attuali web crawler non riescono a decodificare: abbiamo un documento PDF dove ci sono al suo interno indicate delle risorse presenti nella rete. Bene in questo caso caso quelle informazioni non saranno indicizzate nel motore di ricerca.
Altri esempi possono essere pagine generate dinamicamente da database a fronte di una form riempita dall’utente, oppure contenuti audio-video, banche dati, pagine con accesso ristretto con utente e password, e molto altro.
In questo caso infatti il web crawler si ferma alla pagina precedente e tutto quello che segue rimane nascosto.

Quindi i web crawler attuali sono sostanzialmente stupidi, mentre sono allo studio web crawler con maggior intelligenza per poter analizzare con maggior completezza il web.

Web Crawler 2
Ora c’è una start up, Kosmix, che si sta occupando di creare il web crawler del futuro che provvederà a scandagliare quel 99% di web nascosto.

aBellina (www.abspace.it)

Annunci sponsorizzati:
Condividi su Facebook Condividi su Twitter!
Pinterest