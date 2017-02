Dal 2014, Chris Mattmann fa parte di uno dei gruppi di studio all’opera su Memex, programma finanziato dall’agenzia governativa del dipartimento della difesa statunitense dedita allo sviluppo di nuove tecnologie per scopo militare (Darpa). Obiettivo: un motore di ricerca per il deep e il dark web

LOOK alla William Riker, primo ufficiale dell’astronave USS Enterprise E nella serie tv Star Trek – The next generation. Professione: data scientist. È Chris Mattmann, 36 anni, di cui gli ultimi sedici spesi dentro il Jet Propulsion Laboratory, laboratorio che si occupa di costruire le sonde spaziali senza equipaggio della Nasa. “Qui sono circondato da scienziati straordinari”, racconta a Repubblica. “Lavorano su grandi missioni e rispettivi grattacapi. Risolverli richiede la capacità di gestire un’enorme mole di informazioni diverse, di far funzionare velocemente algoritmi scientifici e trasformare i dati disponibili online in conoscenza. Sfide impossibili da trovare altrove”.

Dal 2014, fa parte di uno dei gruppi di studio all’opera su Memex, programma finanziato dall’agenzia governativa del dipartimento della difesa statunitense, dedita allo sviluppo di nuove tecnologie per scopo militare (Darpa). L’obiettivo è realizzare un motore di ricerca che aiuti le forze dell’ordine a contrastare il traffico di essere umani, scandagliando le parti meno visibili della Rete: deep e dark web. Tra gli strumenti chiave utilizzati c’è Tika, co-creato da Mattmann. “Si ricorda il traduttore universale dalle sembianze di un pesciolino giallo, fantasticato da Douglas Adams in Guida galattica per gli autostoppisti? Ne immagini uno per i contenuti digitali: capace di farci comprendere qualsiasi tipo di file e ciò che contiene. Le presento Tika”. Il progetto si concluderà tra sei mesi, ne abbiamo parlato in anteprima.

Mattmann, quanto è grande la Rete? Riusciamo ad avere un’idea?

“Sì, anche se bisogna fare una premessa: ci sono diversi modi di definire la sua grandezza. In termini di url (l’indirizzo di una risorsa in internet), parliamo di trilioni. Invece il volume, cioè il traffico internet globale, raggiungerà presto un paio di zettabyte. Si può fare una stima pure in base a quanti nuovi domini vengono aggiunti ogni anno: centinaia di milioni. Ci fa capire quanto tutto stia accadendo velocemente”.

Che cosa conosciamo oggi del web?

“Ormai, sia da pc che da smartphone, accediamo alla Rete tramite Google o altri motori di ricerca. Sono diventati una sorta di collo di bottiglia”.

Come funzionano?

“Semplificando: utilizzano i web crawler, cioè dei software che acquisiscono una copia testuale dei documenti online visitati e la inseriscono in un indice. Con le informazioni relative: questa è una pagina internet, parla di tale persona e così via. Un’altra proprietà fondamentale dei motori di ricerca è la capacità di organizzare le informazioni e renderle subito reperibili”.

Riescono a ‘catalogare’ ogni cosa?

“No. Innanzitutto, generalmente i crawler non collezionano le pagine web a cui per accedere è necessario autenticarsi o fare il login. Un esempio è l’indirizzario universitario. Poi escludono i contenuti dinamici, come ajax o javascript, cioè i codici che ci permettono di navigare più agevolmente. Inoltre, il materiale della Rete più facilmente indicizzato è il testo. Mentre video e immagini contengono informazioni e conoscenze che, tuttavia, oggi non vengono estratte molto semplicemente. Questo è ciò che definisco deep web e costituisce tra l’89 e il 96 per cento di internet. Un altro discorso è il dark web: secondo le nostre stime, conta circa decine di migliaia di url”.

Cioè?

“Si tratta di pagine che sono ospitate su dei server utilizzando il protocollo Tor, sviluppato in origine dal dipartimento di difesa statunitense per consentire comunicazioni anonime e sicure. Nel 2004 è diventato di dominio pubblico. Un buon strumento per proteggere la privacy. Da allora, però, al suo interno è cresciuto anche il mercato nero: è possibile trovare droga, armi, persino affittare dei killer per uccidere qualcuno”.

Ed ecco che entra in gioco il progetto Memex.

“Memex si propone di creare un motore di ricerca per aiutare le forze dell’ordine a contrastare il traffico di esseri umani e di armi illegali, scandagliando deep e dark web. A differenza di Google, di cui ignoriamo il funzionamento, tutto il codice scritto per Memex dal 2014 a oggi è open source e si può trovare sul sito della Darpa. Tra gli strumenti chiave utilizzati c’è Tika che ho aiutato a sviluppare”.

Il modo più semplice per spiegare cos’è.

“È il nostro babel fish. Si ricorda il traduttore universale dalle sembianze di un pesciolino giallo, fantasticato da Douglas Adams? Ne pensi uno per i contenuti digitali: capace di farci comprendere qualsiasi tipo di file e ciò che contiene. Ecco, le presento Tika: riesce a identificare ogni tipo di file che incontra e a utilizzare gli strumenti giusti per estrarre i metadati, inclusi la data di creazione del file, chi l’ha modificato in ultima battuta, in quale lingua è stato scritto. Da poco permette di tradurre da un linguaggio all’altro. Ma i motori di ricerca sono solo uno dei modi in cui Tika può essere sfruttato nell’analisi dei contenuti”.

Per esempio?

“L’abbiamo usato per aiutare i giornalisti a setacciare i Panama Papers: oltre 11 milioni di documenti sottratti allo studio legale panamense Mossack Fonseca, al centro della più grande fuga di notizie della storia della finanza. Ma anche alla Nasa, quando abbiamo avuto bisogno di estrarre velocemente informazioni dagli articoli scientifici”.

Tutti i Panama Papers in un motore di ricerca

Che cosa è stato fatto e che cosa resta da fare?

“Durante il progetto Memex Tika è stato ulteriormente sviluppato, ora riesce a trattare meglio i contenuti multimediali trovati su deep e dark web. Per esempio: può automaticamente processare e analizzare il testo presente nelle immagini, o certe loro proprietà come la luce della camera. In alcuni casi, è in grado di identificare persone, cose e luoghi. Purtroppo stiamo solo grattando la superficie, quindi c’è ancora molto da fare nell’analisi dei video. Per non parlare del monitoraggio dei social media”.

Possiamo immaginare una Google per dark e deep web entro i prossimi dieci anni?

“Assolutamente sì! Stiamo dimostrando che è possibile”.

Ma perché dovrebbe interessare a tutti un motore di ricerca del genere?

“Tipicamente quando le compagnie vengono hackerate i dati rubati sono messi in vendita sul dark web. Basta pensare a Yahoo!. Uno strumento del genere potrebbe essere utile a controllare le informazioni che circolano su di noi. In più sul dark web ci sono anche siti che contengono informazioni utilissime, renderli a portata di mano può aiutare a socializzare la tecnologia”.

A cosa lavorerà prossimamente?

“Personalmente, mi sto concentrando molto

sull’insegnamento. Mi entusiasma. Perché ciò a cui tengo di più è allenare la prossima generazione di ricercatori che sia in grado di prendere in mano il progetto e portarlo avanti”.

La Repubblica