"Il lavoro minorile è una brutta piaga...ma anche i maggiorenni che non fanno un cazzo!"
25 febbraio 2009
L'utopia del "Web semantico"
Deep Web, dove non arriva nemmeno Google
C'è un mondo oltre Google. Questo è poco ma sicuro. Solo che oggi ha un nome: Deep Web, la rete profonda, quella dove anche il motore di ricerca più potente del mondo non riesce ad arrivare. Per quanto possa risultare difficile da credere, oltre i trilioni di pagine web indicizzate dall'algoritmo di Mountain View c'è un oceano di siti, indirizzi web, informazioni che aspettano solo di essere catalogati e portati in superficie. L'attesa è legata non tanto a un difetto dei tradizionali motori di ricerca quanto a una caratteristica intrinseca di internet. Per trovare i contenuti in rete si utilizzano dei software ragno, (web crawler in gergo tecnico). Si tratta di programmi-segugio che saltabeccano di collegamento in collegamento (hyperlink) in modo automatico senza una guida acquisendo una copia testuale di tutti i documenti visitati allo scopo di inserirla in un indice di un motore di ricerca. Questi strumenti si sono rivelati inefficaci a scovare le risorse del Deep Web in quanto non sono in grado di interrogare per esempio un database di una pagina dinamica dato il numero infinito di termini che si potrebbero ricercare. In sostanza, riescono a sclafire solo la superficie, non vanno per usare una metafora oltre la seconda domanda, ovvero non eseguono percorsi all'interno di più data base. Secondo Brightt, società statunitense specializzata nell'indicizzazione di contenuti dinamci, questo difetto avrebbe permesso agli attuali motori di catalogare poco meno dell'1% dei contenuti presenti su internet. Ecco perché stanno nascendo nuovi software per aggredire il Deep Web. Come ad esempio, scrive il New York Times, Kosmix , una start up nata per scavare laddove non c'è un collegamento ipertestuale. File Pdf, contenitori audio-video, banche dati ad accesso ristretto sono contenuti finora inaccessibile ai tradizionali ragni. A questo va aggiunto il fatto che il crawler è tutto sommato stupido. Non ragiona come un essere un umano e non risponde a domande. Con gli attuali motori si inserisce una parola e il ragno scova tutti i contenuti che contengono o sono collegati a quel termine. In altri termini, le attuali tecnologie di ricerca non possono rispondere alle interrogazioni complesse come la domanda: «Qual è il dottore migliore, vicino casa mia, in grado di curare una determinata malattia». Ecco perché da oltre cinque anni il Web semantico resta una delle grandi promesse non mantenute della rete. Rendere internet un ambiente capace di fornire risposte evolute resta la sfida sottesa al censimento del Deep Web.
Nessun commento:
Posta un commento