Su Petapixel si parla di un algoritmo di Google in grado di descrivere il contenuto di una foto con una precisione del 93,9%. Il dato è impressionante e fa pensare, come si legge nell’articolo, che la descrizione delle foto presto sarà tra i lavori che dei robot potranno fare allo stesso livello degli umani. Ma è davvero così?
E’ dal 2014 che il Google Brain Team studia un sistema di catalogazione delle immagini, tra l’altro vincendo nel 2015 il Microsoft COCO image captioning challenge, un concorso dedicato a questo tipo di ricerche. Rispetto a precedenti tentativi talvolta imbarazzanti, Google ora sembra davvero sulla buona strada per creare una tecnologia in grado di diventare uno strumento potente non solo per la catalogazione delle immagini, ma anche per la creazione di un’intelligenza artificiale molto sofisticata.
Questa versione dell’algoritmo, infatti, contiene dei miglioramenti significativi al componente della visione computerizzata del sistema di descrizione, è molto più veloce e produce didascalie più dettagliate e precise.
Sul Google Research Blog, si possono vedere degli esempi sorprendenti di come l’algoritmo di Google sia in grado di descrivere contenuti simili in modo completamente automatico.
Inoltre, una novità di rilievo è che da qualche giorno Google ha reso questo sistema di captioning disponibile in open source, mettendo a disposizione la libreria TensorFlow per chiunque voglia implementarlo.
Immaginare dei software in grado di descrivere le foto come farebbero delle persone è dunque davvero ormai quasi realtà.
Non del tutto, però. Perché se questo diventa sempre più plausibile per il livello “letterale” della descrizione, cioè per quanto riguarda gli elementi concreti presenti nella foto (cose, persone, animali, loro caratteristiche fisiche, sfondo ecc.), non è così semplice per il livello “concettuale” della descrizione, che è particolarmente importante per le foto di stock.
Un conto è capire quali elementi si distinguono nella foto (aboutness), un altro quelli che possono essere rappresentati da essa (offness).
Capire cosa suggerisce quella foto, infatti, quali stati d’animo, idee, concetti, proverbi, modi di dire ecc., è molto più complesso. Saper individuare questo tipo di parole chiave è difficile, ma fornire questo tipo di informazioni a un potenziale cliente rappresenta un valore aggiunto molto ricercato dalle agenzie fotografiche. Getty, ad esempio, ci punta molto. E in questo gli umani restano insostituibili, almeno per ora.