Processamento audio e video su piattaforme Android
Transcript
Processamento audio e video su piattaforme Android
Relatore: Simone Scardapane {[email protected]} L'Apprendimento Automatico per la Rappresentazione della Conoscenza Il Deep Learning e la nuova generazione di reti neurali Scuola SEFIR, Perugia (21-24 Giugno 2015) Feature Extraction Estrazione di Feature Estrazione di Feature Dati Classificazione L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 3 Come rappresentare una persona? … ma un umano "vede" altezza, peso, sesso… Alto livello Basso livello Un computer vede una sequenza di pixels… L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 4 Rappresentare le immagini http://www.research.att.com/projects/Video/VisualBiometrics/ L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 5 Un'Ispirazione Biologica Un elemento essenziale: strati multipli di elaborazione Urbanski, M., Coubard, O. A., & Bourlon, C. (2014). Visualizing the blind brain: brain imaging of visual field defects from early recovery to rehabilitation techniques. Frontiers in integrative neuroscience, 8. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 6 Deep Neural Networks Deep (Artificial) Networks L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 8 Breve Storia delle Reti Neurali • 1957: Frank Rosenblatt presenta il percettrone • Anni '70: "AI Winter" • Anni '80: la prima "rinascita" delle reti neurali • Parziale abbandono fino al 2000 • Dal 2006: deep networks, la seconda "rinascita" L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 9 Fattori Scatenanti 1. Nuovi algoritmi per allenare reti con vari strati nascosti (inizializzazione unsupervised, ecc.). 2. Training set di svariati milioni di elementi ("big data"). 3. Grandi capacità computazionali: clusters, GPU, ecc. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 10 Image Representation Deep learning per immagini L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 12 Strati di rappresentazione LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521, 436-444. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 13 Cosa “vede” una deep network? Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014 (pp. 818-833). Springer International Publishing. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 14 La GoogleNet • Architettura con 1 miliardo di connessioni (9 strati). • Allenata tramite 10 milioni di immagini estratte da YouTube. • Hardware: 1000 computer per un totale di 16000 CPUs. • Nessuna classe di output predefinita: allenamento non supervisionato. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 15 Il “neurone dei gatti” Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), (pp. 8595-8598). IEEE. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 16 Il “neurone dei gatti” (2) L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 17 Ingannare una rete neurale Nguyen A, Yosinski J & Clune J. Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR ’15), IEEE, 2015. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 18 Word Representation Word2Vec • Rete neurale allenata a predire una parola date le parole ad essa vicina. • Permette di creare rappresentazioni numeriche per ciascuna parola. • Tali rappresentazioni possono essere manipulate matematicamente come vettori classici. • Allenamento effettuato su database di centinaia di miliardi di parole. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 20 Parole simili http://deeplearning4j.org/word2vec.html L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 21 Rappresentazione Semantica It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and vector('king') - vector('man') + vector('woman') is close to vector('queen'). https://code.google.com/p/word2vec/ Mikolov, T., Chen, K., Corrado, G. & Dean, J. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 22 Combinare Immagini e Parole http://googleresearch.blogspot.it/2014/11/a-picture-is-worth-thousandcoherent.html Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2014). Show and tell: A neural image caption generator. arXiv preprint arXiv:1411.4555. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 23 Conclusione La Conoscenza come Compressione • Cosa rende una rappresentazione “ottima”? • Per il machine learning: accuratezza di classificazione. • Filosoficamente? Descrive compattamente l’informazione originale. • Machine learning e feature extraction possono essere visti come meccanismi di compressione. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 25 Riferimenti generali Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798-1828. Bengio, Y. (2009). Learning deep architectures for AI. Foundations and trends® in Machine Learning, 2(1), 1-127. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521, 436-444. Schmidhuber, J. (2015). Deep learning in neural networks: An overview. Neural Networks, 61, 85-117. Schmidhuber, J. (2010). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247. L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 26 Copyright Immagini Titolo: All Rights Reserved: http://gureckislab.org/blog/?p=2648 Estrazione di Features: IconFinder, Devine Icons (Free for personal use) Come rappresentare una persona: http://pixshark.com/person-icon-png.htm Deep (Artificial) Networks: http://neuralnetworksanddeeplearning.com/chap1.html Deep learning per immagini: http://deeplearning.net/tutorial/lenet.html Deep learning per immagini (2): http://parse.ele.tue.nl/education/cluster2 L'Apprendimento Automatico per la Rappresentazione della Conoscenza 21/06/2015 27 Grazie per l’attenzione Domande? “Don't blame you," said Marvin and counted five hundred and ninety-seven thousand million sheep before falling asleep again a second later.” [The Hitchhiker's Guide to the Galaxy]