Annotazione calcio FINAL

Transcript

Annotazione calcio FINAL
Annotazione semantica
di eventi calcistici
Valentino Frasnelli
Liceo Linguistico “Sophie Scholl” - Tirocinio presso l’unità di ricerca HLT-NLP
Team FBK: Bernardo Magnini, Anne-Lyse Minard e Manuela Speranza
Cronache live on-line delle partite di calcio
➢ descrizione delle azioni
principali
➢ testi scritti costituiti da singoli
brevi commenti
➢ ogni commento contiene il
minuto di gioco a cui si
riferisce
➢ esempio:
http://www.corriere.it/trsport/
tempo-reale/Live.shtml
Cronache live on-line delle partite di calcio
➢ descrizione delle azioni
principali
➢ testi scritti costituiti da singoli
brevi commenti
➢ ogni commento contiene il
minuto di gioco a cui si
riferisce
➢ esempio:
http://www.corriere.it/trsport/
tempo-reale/Live.shtml
Cronache live on-line delle partite di calcio
➢ descrizione delle azioni
principali
➢ testi scritti costituiti da singoli
brevi commenti
➢ ogni commento contiene il
minuto di gioco a cui si
riferisce
➢ esempio:
http://www.corriere.it/trsport/
tempo-reale/Live.shtml
Motivazioni
Analisi automatica dei commenti scritti per poi passare alle registrazioni video
Possbili applicazioni:
➢ ricerca avanzata di informazioni nelle riprese video
➢ generazione automatica di commenti a partire dalle riprese video
Possibili ambiti di applicazione:
➢ sportivo (allenatori)
➢ giornalistico
Contesto:
➢ Progetto congiunto UMC (Understanding Multimedia Content) che coinvolge
tre gruppi di ricerca di FBK (HLT-NLP, TEV e DKM)
Outline
Obiettivo di alto livello: Interpretare automaticamente il significato del testo
1.
2.
Definizione del task completo, che comprende eventi, entità e anche
relazioni (Valentino e team FBK, 1a settimana)
Annotazione manuale di un corpus di valutazione per il task completo
(Valentino, 2a settimana)
Obiettivo specifico limitato agli eventi: Sviluppo di un sistema automatico per
estrarre e classificare eventi (non entità e relazioni)
3.
4.
5.
sistema di apprendimento automatico (team FBK)
sviluppo di un corpus annotato a mano per l'addestramento del sistema
(Valentino, 3a e 4a settimana)
valutazione del sistema sul corpus annotato nella fase precedente (team
FBK)
1. Definizione del task
➢
Classificazione degli eventi in 6 categorie (ciascuna con sottocategorie):
○
○
○
○
○
○
➢
Classificazione delle entità:
○
○
○
○
➢
“tiro”
“possesso”
“interruzione”
“decisione arbitrale”
“gol”
“evento senza palla”
“giocatore”
“squadra”
“arbitro”
“allenatore”
Relazioni che esistono tra gli elementi identificati (per es. tra un evento e
un’entità che partecipa a quell’evento)
2. Corpus di valutazione annotato a mano
➢
➢
➢
➢
➢
Fonti: siti di testate giornalistiche (Il Corriere, Eurosport, La Repubblica)
Composizione: cronache live di 9 partite (Euro 2016 e Campionato 2015-16)
Dimensione: 652 commenti (ca. 13 000 parole)
Annotazioni: circa 1400 eventi, 1600 entità, 1600 relazioni
Esempio (preso da CAT, il tool di annotazione usato):
3. Estrazione e classificazione automatica degli eventi
Selezione di commenti da annotare basata su Active
Learning:
1.
2.
3.
selezione di commenti con la maggiore probabilità di influenzare
positivamente comportamenti errati del sistema
correzione manuale degli errori di annotazione commessi dal sistema
il sistema utilizza i nuovi dati per costruirsi regole che gli consentono di
ottenere prestazioni migliori
Vantaggi:
➢
impiego più efficiente del tempo dell’annotatore
4. Corpus di addestramento annotato a mano
Dati relativi al corpus:
➢ 1377 commenti (ca. 32 000 parole) - presi da 101 diverse partite
➢ 1238 eventi annotati
5. Valutazione del sistema addestrato con il corpus
Prestazioni:
➢ Precisione: 80.16 (l’80% delle annotazioni automatiche sono corrette)
➢ Recupero: 73.42 (il sistema identifica correttamente il 73% degli eventi)
Il lavoro sarà presentato alla conferenza CLiC-it 2016, Napoli, 5-6 Dicembre 2016
A.-L. Minard, M. Speranza, B. Magnini, e M. R. H. Qwaider.
Semantic Interpretation of Events in Live Soccer Commentaries.
Grazie!