Processamento audio e video su piattaforme Android

Transcript

Processamento audio e video su piattaforme Android
Relatore: Simone Scardapane
{[email protected]}
L'Apprendimento Automatico
per la Rappresentazione
della Conoscenza
Il Deep Learning e la nuova generazione di reti neurali
Scuola SEFIR, Perugia (21-24 Giugno 2015)
Feature Extraction
Estrazione di Feature
Estrazione di
Feature
Dati
Classificazione
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
3
Come rappresentare una persona?
… ma un umano "vede"
altezza, peso, sesso…
Alto livello
Basso livello
Un computer vede una
sequenza di pixels…
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
4
Rappresentare le immagini
http://www.research.att.com/projects/Video/VisualBiometrics/
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
5
Un'Ispirazione Biologica
Un elemento essenziale:
strati multipli di elaborazione
Urbanski, M., Coubard, O. A., & Bourlon, C. (2014). Visualizing the blind brain: brain imaging of visual field defects
from early recovery to rehabilitation techniques. Frontiers in integrative neuroscience, 8.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
6
Deep Neural Networks
Deep (Artificial) Networks
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
8
Breve Storia delle Reti Neurali
• 1957: Frank Rosenblatt presenta il percettrone
• Anni '70: "AI Winter"
• Anni '80: la prima "rinascita" delle reti neurali
• Parziale abbandono fino al 2000
• Dal 2006: deep networks, la seconda "rinascita"
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
9
Fattori Scatenanti
1. Nuovi algoritmi per allenare reti con vari strati
nascosti (inizializzazione unsupervised, ecc.).
2. Training set di svariati milioni di elementi ("big
data").
3. Grandi capacità computazionali: clusters, GPU,
ecc.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
10
Image Representation
Deep learning per immagini
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
12
Strati di rappresentazione
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521, 436-444.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
13
Cosa “vede” una deep network?
Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks.
In Computer Vision–ECCV 2014 (pp. 818-833). Springer International Publishing.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
14
La GoogleNet
• Architettura con 1 miliardo di connessioni (9 strati).
• Allenata tramite 10 milioni di immagini estratte da
YouTube.
• Hardware: 1000 computer per un totale di 16000 CPUs.
• Nessuna classe di output predefinita: allenamento non
supervisionato.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
15
Il “neurone dei gatti”
Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In 2013 IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP), (pp. 8595-8598). IEEE.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
16
Il “neurone dei gatti” (2)
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
17
Ingannare una rete neurale
Nguyen A, Yosinski J & Clune J. Deep Neural Networks are Easily Fooled: High Confidence Predictions for
Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR ’15), IEEE, 2015.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
18
Word Representation
Word2Vec
• Rete neurale allenata a predire una parola date le
parole ad essa vicina.
• Permette di creare rappresentazioni numeriche per
ciascuna parola.
• Tali rappresentazioni possono essere manipulate
matematicamente come vettori classici.
• Allenamento effettuato su database di centinaia di
miliardi di parole.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
20
Parole simili
http://deeplearning4j.org/word2vec.html
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
21
Rappresentazione Semantica
It was recently shown that the word vectors capture many linguistic
regularities, for example vector operations vector('Paris') - vector('France')
+ vector('Italy') results in a vector that is very close to vector('Rome'),
and vector('king') - vector('man') + vector('woman') is close
to vector('queen').
https://code.google.com/p/word2vec/
Mikolov, T., Chen, K., Corrado, G. & Dean, J. Efficient Estimation of Word Representations in
Vector Space. In Proceedings of Workshop at ICLR, 2013.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
22
Combinare Immagini e Parole
http://googleresearch.blogspot.it/2014/11/a-picture-is-worth-thousandcoherent.html
Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2014). Show and tell: A neural image
caption generator. arXiv preprint arXiv:1411.4555.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
23
Conclusione
La Conoscenza come Compressione
• Cosa rende una rappresentazione “ottima”?
• Per il machine learning: accuratezza di classificazione.
• Filosoficamente? Descrive compattamente
l’informazione originale.
• Machine learning e feature extraction possono essere
visti come meccanismi di compressione.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
25
Riferimenti generali
Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review
and new perspectives. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 35(8), 1798-1828.
Bengio, Y. (2009). Learning deep architectures for AI. Foundations and trends® in
Machine Learning, 2(1), 1-127.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521, 436-444.
Schmidhuber, J. (2015). Deep learning in neural networks: An overview. Neural
Networks, 61, 85-117.
Schmidhuber, J. (2010). Formal theory of creativity, fun, and intrinsic motivation
(1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247.
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
26
Copyright Immagini
Titolo: All Rights Reserved: http://gureckislab.org/blog/?p=2648
Estrazione di Features: IconFinder, Devine Icons (Free for personal use)
Come rappresentare una persona: http://pixshark.com/person-icon-png.htm
Deep (Artificial) Networks: http://neuralnetworksanddeeplearning.com/chap1.html
Deep learning per immagini: http://deeplearning.net/tutorial/lenet.html
Deep learning per immagini (2): http://parse.ele.tue.nl/education/cluster2
L'Apprendimento Automatico per la
Rappresentazione della Conoscenza
21/06/2015
27
Grazie per l’attenzione
Domande? 
“Don't blame you," said Marvin and counted five hundred and ninety-seven
thousand million sheep before falling asleep again a second later.”
[The Hitchhiker's Guide to the Galaxy]