Il Garante schiera l’intelligenza artificiale. In una banca dati tutta l’informazione italiana

Share

L’AgCom chiede a un fornitore esterno di creare un contenitore capace di raccogliere fino a 100 milioni di documenti. Al suo interno, ogni giorno, i pezzi di siti, giornali, radio e televisioni. Il data base sarà navigabile con un motore di ricerca in stile Google

Questa immagine ha l'attributo alt vuoto; il nome del file è banca-dati-linformazione-italiana.jpg

L’investimento non è banale: 150 mila euro in 5 anni (più Iva). L’obiettivo è ambizioso. Disporre di una banca dati dove sia presente tutta l’informazione prodotta in Italia. Questa banca dati sarà navigabile con un motore di ricerca interno – in perfetto stile Google – anche grazie ai software dell’Intelligenza Artificiale.
L’Autorità per le Comunicazioni (AgCom) – arbitro delle questioni televisive e della telefonia – cerca un fornitore esterno in grado di creare un “giocattolo” di questo tipo. La banca dati sarà a disposizione del Servizio economico-statistico dell’Autorità che punta a studiare la nostra informazione – le parole che usa, i temi che affronta – in maniera molto più analitica che in passato.

Perché lo studio sia attendibile, c’è bisogno di disporre di grandi quantità di documenti. Per questo, l’Autorità ambisce a un sistema di monitoraggio che guardi ad almeno 2000 fonti d’informazione. Questo è l’elenco:

  • quotidiani nazionali e locali (testate cartacee);
  • telegiornali (incluse le edizioni regionali);
  • altri programmi televisivi di informazione;
  • giornali radio e altri programmi radiofonici di informazione;
  • agenzie di stampa (siti web);
  • siti web di quotidiani, televisioni e radio;
  • testate esclusivamente online;
  • fonti scientifiche (siti web).

Interessa anche l’informazione che prende forma sui social. Per questo, il sistema di monitoraggio dovrà registrare quello che scrivono le pagine e gli account social (Facebook e Twitter) delle fonti di informazione prima elencate. Saranno monitorati infine gli influencer legati al mondo dell’informazione; e altri siti web, pagine e account social di “fonti di informazione non tradizionale”.

Tutte queste fonti dovranno essere raccolti per 5 anni dal momento della firma del contratto tra il fornitore e l’Autorità. Il fornitore dovrà andare anche un po’ a ritroso, includento anche tutto quello che è stato pubblicato dal primo gennaio del 2020.

Quanto sarà grande, alla fine, un simile contenitore? “Dovrà supportare la gestione di circa 100 milioni di documenti come ordine di grandezza”. Un numero degno dell’era dei big data che stiamo vivendo.

Ovviamente avere quantità scondinate di documenti equivale a non averne, se non disponiamo anche degli strumenti per catalogare le informazioni e per navigarle. I tecnici dell’Autorità, in altre parole, devono avere la possibilità di interrogare la banca dati (“con operatori logici come AND OR, NOT, e con parentesi).I tecnici dovranno dosporre anche di “una serie di filtri: data di inizio, data di fine, fonti e gruppi di fonti”. E la banca dati dovrà fornire risposte in forme aggregate ed esaurienti.

La banca dati potrà dare queste risposte se progettata da esperti di intelligenza artificiale. A ciascuna notizia presente nel database dovranno essere associati quelli che gli esperti chiamano metadati: un numero identificativo del documento, il titolo della notizia, il sottotitolo, la data di pubblicazione, l’autore, la fonte,la categoria (cronaca, cultura, economia, esteri, politica, scienza, spettacolo, sport).

Una simile banca dati può essere creata a condizione di mettere in campo i software più sofisticati dell’Intelligenza Artificiale. Servono, per la precisione, gli algoritmi della famiglia del natural language processing. Sono software in grado ci comprendere in linguaggio dell’uomo. Servo, più in generale, algoritmi dinamici della famiglia del machine learning. Sono software che migliorano le loro prestazioni attraverso l’esperienza sul campo.

Le aziende dell’Intelligenza Artificiale avranno tempo fino al 15 luglio 2020 per candidarsi a realizzare il “giocattolo” sognato dall’Autorità.

Repubblica