Data mining e esperimenti di trasformazioni delle immagini sulle fotografie di Portus

Con la semplificazione e l’accesso al pubblico dell’elaborazione dei dati su larga scala, aumenta la tentazione di provare a utilizzare le nuove tecnologie e metodologie per ridurre la quantità di lavoro manuale che viene solitamente svolto con la classificazione e la categorizzazione delle grandi raccolte dati. Con i dati testuali, sono già state stabilite, più o meno, le tecniche di estrazione delle  informazioni utili da dati non strutturati. Per quanto riguarda i gruppi delle immagini pesanti – come le foto Portus – dobbiamo rivolgerci ai metodi di elaborazione delle immagini come il rilevamento di oggetti e di riconoscimento del testo, che purtroppo sono ancora molto inaffidabile e nella maggior parte dei casi non reggono al confronto con il lavoro svolto dall’essere umano.

Portus Project 2011


Prima di iniziare il lavoro sui dati Portus, ho avuto qualche vaga conoscenza dello stato dell’elaborazione delle immagini. Sapevo che esistono algoritmi di riconoscimento del testo e degli oggetti abbastanza robusti e che i dati in sé non sarebbero molto diversi; ci sarebbero alcune foto duplicate (o quasi identiche) e molti oggetti (come le lavagne) probabilmente presenti nella maggioranza delle immagini. Pertanto, come esperimento, ho costruito una semplice pipeline di elaborazione delle immagini che ha tentato di trovare una lavagnetta e di riconoscere il testo scritto su di esso in ogni foto. Se avrà successo, questo programma potrebbe quindi essere utilizzato per cercare ed estrarre le note dalle fotografie o almeno trovare tutte le fotografie che contengono le note. Dato che i dati erano anche “reale”, nel senso che nulla era stato fatto in precedenza per rendere l’analisi dei dati più facile (come il tagging EXIF standardizzato o una struttura rigida delle cartelle) ed eventuali innovazioni e successi potrebbero quindi probabilmente essere ripetuti in scenari di vita reale con dati simili.

Tuttavia, i risultati di questo trattamento non sono stati del tutto soddisfacenti. Mentre rilevare la lavagnetta in una data immagine (immagine qui sopra) è stato abbastanza facile, il riconoscimento del testo scritto a mano da sua superficie non è stato altrettanto semplice. Ciò è dovuto al fatto che per ottenere buone prestazioni, gli algoritmi di riconoscimento del testo richiedono un set di lettere predefinite al fine di ottimizzare la prestazione. Nel caso dei dati di Portus la creazione di questo set non è stato possibile a causa delle limitazioni di tempo. Una soluzione possibile per questo problema è quello di sostituire la scritta eseguita a mano con stampe o con i codici Quick Response (QR) dato che fil riconoscimento del testo digitato è molto più facile.

In generale, ritengo che utilizzando metodi di elaborazione delle immagini per estrarre le informazioni o per classificare le collezioni fotografiche è possibile, ma allo stato attuale della tecnologia i risultati sono tutt’altro che ideali. Molto può anche essere migliorato regolando il processo della fotografia stessa e la memorizzazione iniziale delle foto. Ad esempio, utilizzando il GPS di uno smartphone, si potrebbe facilmente aggiungere dati di posizionamento abbastanza precisi per singole foto per poi visualizzare la posizione come punti su una mappa.

Karl Potisepp MSc, ha lavorato sui dati di Portus come parte integrante della sua tesi.