Annotazione calcio FINAL
Transcript
Annotazione calcio FINAL
Annotazione semantica di eventi calcistici Valentino Frasnelli Liceo Linguistico “Sophie Scholl” - Tirocinio presso l’unità di ricerca HLT-NLP Team FBK: Bernardo Magnini, Anne-Lyse Minard e Manuela Speranza Cronache live on-line delle partite di calcio ➢ descrizione delle azioni principali ➢ testi scritti costituiti da singoli brevi commenti ➢ ogni commento contiene il minuto di gioco a cui si riferisce ➢ esempio: http://www.corriere.it/trsport/ tempo-reale/Live.shtml Cronache live on-line delle partite di calcio ➢ descrizione delle azioni principali ➢ testi scritti costituiti da singoli brevi commenti ➢ ogni commento contiene il minuto di gioco a cui si riferisce ➢ esempio: http://www.corriere.it/trsport/ tempo-reale/Live.shtml Cronache live on-line delle partite di calcio ➢ descrizione delle azioni principali ➢ testi scritti costituiti da singoli brevi commenti ➢ ogni commento contiene il minuto di gioco a cui si riferisce ➢ esempio: http://www.corriere.it/trsport/ tempo-reale/Live.shtml Motivazioni Analisi automatica dei commenti scritti per poi passare alle registrazioni video Possbili applicazioni: ➢ ricerca avanzata di informazioni nelle riprese video ➢ generazione automatica di commenti a partire dalle riprese video Possibili ambiti di applicazione: ➢ sportivo (allenatori) ➢ giornalistico Contesto: ➢ Progetto congiunto UMC (Understanding Multimedia Content) che coinvolge tre gruppi di ricerca di FBK (HLT-NLP, TEV e DKM) Outline Obiettivo di alto livello: Interpretare automaticamente il significato del testo 1. 2. Definizione del task completo, che comprende eventi, entità e anche relazioni (Valentino e team FBK, 1a settimana) Annotazione manuale di un corpus di valutazione per il task completo (Valentino, 2a settimana) Obiettivo specifico limitato agli eventi: Sviluppo di un sistema automatico per estrarre e classificare eventi (non entità e relazioni) 3. 4. 5. sistema di apprendimento automatico (team FBK) sviluppo di un corpus annotato a mano per l'addestramento del sistema (Valentino, 3a e 4a settimana) valutazione del sistema sul corpus annotato nella fase precedente (team FBK) 1. Definizione del task ➢ Classificazione degli eventi in 6 categorie (ciascuna con sottocategorie): ○ ○ ○ ○ ○ ○ ➢ Classificazione delle entità: ○ ○ ○ ○ ➢ “tiro” “possesso” “interruzione” “decisione arbitrale” “gol” “evento senza palla” “giocatore” “squadra” “arbitro” “allenatore” Relazioni che esistono tra gli elementi identificati (per es. tra un evento e un’entità che partecipa a quell’evento) 2. Corpus di valutazione annotato a mano ➢ ➢ ➢ ➢ ➢ Fonti: siti di testate giornalistiche (Il Corriere, Eurosport, La Repubblica) Composizione: cronache live di 9 partite (Euro 2016 e Campionato 2015-16) Dimensione: 652 commenti (ca. 13 000 parole) Annotazioni: circa 1400 eventi, 1600 entità, 1600 relazioni Esempio (preso da CAT, il tool di annotazione usato): 3. Estrazione e classificazione automatica degli eventi Selezione di commenti da annotare basata su Active Learning: 1. 2. 3. selezione di commenti con la maggiore probabilità di influenzare positivamente comportamenti errati del sistema correzione manuale degli errori di annotazione commessi dal sistema il sistema utilizza i nuovi dati per costruirsi regole che gli consentono di ottenere prestazioni migliori Vantaggi: ➢ impiego più efficiente del tempo dell’annotatore 4. Corpus di addestramento annotato a mano Dati relativi al corpus: ➢ 1377 commenti (ca. 32 000 parole) - presi da 101 diverse partite ➢ 1238 eventi annotati 5. Valutazione del sistema addestrato con il corpus Prestazioni: ➢ Precisione: 80.16 (l’80% delle annotazioni automatiche sono corrette) ➢ Recupero: 73.42 (il sistema identifica correttamente il 73% degli eventi) Il lavoro sarà presentato alla conferenza CLiC-it 2016, Napoli, 5-6 Dicembre 2016 A.-L. Minard, M. Speranza, B. Magnini, e M. R. H. Qwaider. Semantic Interpretation of Events in Live Soccer Commentaries. Grazie!