Il colosso americano ha sfruttato un database da oltre 99 milioni di foto, ma ha “dimenticato” di avvertire gli utenti di essere parte di un programma di addestramento per una intelligenza artificiale
I ricercatori di IBM, lavorando su un nuovo programma di riconoscimento facciale, erano costretti a scovare e sfruttare un modo efficace per «allenarlo». Hanno così trovato in Flickr un valido alleato: milioni di immagini online in Creative Commons. Il set di dati è composto da ben 99,2 milioni di fotografie e 800 mila video, e si chiama YFCC100M. Questo materiale messo a disposizione da Yahoo! Webscope può essere usato per fini scientifici di ricerca, a patto che il fotografo (o il videografo) venga accreditato come autore.
IBM ha quindi preso questo materiale e ha creato Diversity in Faces , con un milione di foto con licenza Creative Commons, che stabilisce la possibilità d’uso purché non a scopo di lucro. La società informatica ha perciò seguito le regole, ma ha dimenticato di citare gli autori, e ha ricevuto pesanti critiche da chi in quelle foto compare, senza avere mai dato il permesso di essere parte di un programma di addestramento per una intelligenza artificiale.
L’OBIETTIVO DI DIVERSITY IN FACES
Il progetto scientifico di IBM, pubblicato nell’archivio per bozze definitive di articoli scientifici ArXiv , della Cornell University, ha l’obiettivo di creare sistemi in grado di rilevare, riconoscere, verificare e comprendere i volti umani in modo accurato, dalla fisionomia alle espressioni. Esistono ostacoli tecnici da considerare nel riconoscimento di un volto in contesti di confusione, come ad esempio posa, risoluzione, illuminazione. Ma grazie ai recenti progressi delle reti neurali artificiali, il riconoscimento facciale ha raggiunto una accuratezza notevole, basata in gran parte sul deep learning di big data. Diversity in Faces si è basato su 1 milione di foto: la scelta di estrapolare le immagini dal database di Flickr, YFCC100M, è dettata proprio dai molteplici modi in cui i volti appaiono nelle foto, in quanto a luce, colori, punti di vista e punti focali.
COME FUNZIONA
L’intelligenza artificiale di IBM ha studiato i volti attraverso 10 nuovi schemi di codifica: le distanze craniofacciali, le aree craniofacciali, i rapporti craniofacciali, la simmetria facciale, il contrasto facciale, il colore della pelle, la previsione dell’età, il sesso, l’annotazione soggettiva sui due schemi precedenti (ossia basati questa volta su una predizione di un network neurale artificiale), e la posa e risoluzione.
Il vantaggio di utilizzare 10 schemi di codifica, tutti con solida base scientifica, sta nell’opportunità di avere più punti di confronto tra i diversi volti. Gli schemi sono rappresentabili numericamente, quindi computabili e interpretabili oggettivamente, e sono interpolabili. Per esempio, il colore della pelle, preso da solo, non è indicatore di razza, ma messo a sistema con le altre caratteristiche analizzate offre l’etnia del volto in questione.
Questi schemi si basano su un sottoinsieme di 19 punti di riferimento sul viso.
COME RICHIEDERE LA RIMOZIONE DEL PROPRIO VOLTO DAL DATABASE
Secondo la NBC, ci sono fotografi che hanno oltre 700 foto all’interno del database da cui IBM ha estrapolato il materiale per la ricerca, e che ovviamente erano all’oscuro di tutto.
L’azienda radiotelevisiva ha creato uno strumento online, grazie al quale è possibile controllare se il proprio nome utente di Flickr è compreso nel dataset di IBM. Il colosso americano, la cui colpa, ricordiamo, è stata quella di non citare i fotografi, ha fatto sapere che c’è una possibilità per essere eliminati dal set. Basterà contattare IBM, indicando i link di ogni singola foto che si desidera cancellare. Ma attenzione: non è detto che se IBM eliminasse le immagini su richiesta dei proprietari, lo facciano anche le oltre 300 società di ricerca che stanno già usando il database Diversity in Faces.
Luca Scarcella, La Stampa