The Object Oriented Optical Music Recognition System (O3MR) is a

Transcript

The Object Oriented Optical Music Recognition System (O3MR) is a
MUSICNETWORK Open Workshop
December 2002, Darmstadt, Germany
Position Paper: Music Imaging WG
Converting old music sheets with digital technology with
minimal effort and cost
Ivan Bruno and Paolo Nesi, DSI, University of Florence
La trasformazione dell’informazione musicale da supporto cartaceo ad una rappresentazione
notazionale gestibile da applicazioni software dedicate all’editing, alla stampa e al salvataggio di
documenti musicali è un processo che richiede molte risorse in termini di persone e tempo. Sono
possibili varie metodologie di immissione dati (data entry), ma ognuna di esse tende a risolvere in
parte i requisiti di efficienza e basso costo.
I principali metodi di immissione dati nella trascrizione in formato di documenti musicali sono i
seguenti:
1. MIDI Files – Ipotizzando l’esistenza di un rappresentazione MIDI file fedele del brano
musicale da trascrivere, in termini di tempo risulta il mezzo più semplice e veloce (basso costo).
Tuttavia a fronte di una velocità di immissione bisogna evidenziare la quantità di svantaggi
imputabili alla scarsa flessibilità e potenza espressiva del linguaggio MIDI, il quale risulta
prevalentemente orientato all’esecuzione piuttosto che alla rappresentazione in forma simbolica.
Pertanto, ogni trascrizione da MIDI a simbolico necessita di un ulteriore lavoro da parte
dell’utente, per correggere quelle imperfezioni generate dal processo di conversione e
aggiungere simboli trascurati, perché difficilmente gestibili dal processo di conversione. Tali
imperfezioni e mancanze, difficilmente quantificabili e dipendenti dal brano che si vuole
trascrivere, sono principalmente legate a:
• errori di rappresentazione delle strutture musicali come gruppi di note, note legate, note
puntate. In questo caso l’utente deve pazientemente apporre delle correzioni sulla
rappresentazione per rendere la struttura fedele all’originale.
• Impossibilità a determinare le indicazioni di dinamica(piano, forte, accenti, etc…). In questo
caso è compito dell’utente aggiungere i segni e le indicazioni mancanti.
• in presenza di brani musicali con voci che condividono lo stesso pentagramma, la
conversione allo stato dell’arte non è in grado di separare le singole voci, il risultato che si
ottiene è una rappresentazione simbolica che si avvale di strutture di note in accordo che
nella versione cartacea originale risultano inesistenti. Questa situazione è la più critica e
richiede il maggior sforzo da parte dell’utente, che deve pesantemente modificare le
strutture per riportarle nella versione originale. Il tempo necessario per effettuare le
modifiche talvolta è comparabile a quello necessario per riscrivere ex novo la struttura.
• Impossibilità a riconoscere abbellimenti, gruppetti e più in generale simboli che consentono
di compattare la scrittura musicale. Questi vengono trascritti nella versione estesa per mezzo
di note o pause aggiuntive. In questo contesto, l’utente deve intervenire per eliminare
notazione superflua e ricorre all’editing per inserire quei simboli che permettono di
compattare la scrittura
• Conversione del brano in tonalità errata. La versione originale è scritta in una tonalità
diversa da quella rappresentata dopo la conversione. In queste circostanze, l’utente deve
ricorre ad operazioni di trasposizione per raggiungere la tonalità originale e da non è
escludere che l’utente debba mettere mano a correzioni dovute a imperfezioni di
trasposizione.
Nel caso in cui il Midi file non sia fedele alla rappresentazione, allora l’intervento dell’utente è
inevitabile e non quantificabile concretamente, perché si può trovare di fronte ai seguenti
problemi aggiuntivi:
• Le durate delle note o delle pause non sono corrette. L’utente deve modificare le durate
• Il numero di battute è inferiore a quelle del brano originale. L’utente deve aggiungere ex
novo le battute mancanti.
• Sono presenti un numero diverso di parti. Un caso del genere è dovuto ad esempio a parti
multivoce che sono state divise in più parti. L’utente deve pertanto fondere in un’unica parte
e ricorrere a correzioni di vario genere (disposizione delle note, gambi, beam, etc…)
• Le chiavi musicali non sono corrette.
2. Step by step – È senz’altro il metodo che massimizza la correttezza dei risultati ma allo stesso
tempo il più oneroso in termini di costi e tempi. L’utente avvalendosi dell’interfaccia fornita
dell’applicativo di editing, deve trascrivere tutto il brano ex novo. La quantificazione dei tempi
e quindi dei costi sono legati alla complessità dei comandi dell’applicazione usata e alla
complessità di scrittura del brano che si vuole trascrivere e gli errori sono imputabili ad errori
introdotti dall’utente.
3. Strumenti Midi – È da ritenersi più un’interfaccia utente di ausilio che un metodo cui affidarsi
per la trascrizione del brano musicale. Poiché tale metodo si basa sul MIDI, esso soffre di tutte
le problematiche ad esso inerenti, soprattutto se si pensa di suonare il brano per registrare e
ottenere una conversione in tempo reale o per genere un file MIDI da convertire
successivamente. In questo caso è necessario effettuare un’esecuzione al limite della perfezione,
limitandosi a seguire le indicazioni di metronomo e trascurando ogni forma di espressione
dinamica, abbellimento e più in generale segni non notazionali. Tuttavia, nel caso di immissione
step by step, lo strumento MIDI può essere usato per velocizzare l’immissione delle note in
quanto può risultare più familiare e veloce suonare la nota che si vuole trascrivere, piuttosto che
posizionarsi sul pentagramma ed eseguire le operazioni necessarie di scrittura secondo le regole
dell’applicazione usata.
4. OMR – Il riconoscimento ottico dei caratteri musicali è senza dubbio, il metodo che molti
auspicano come metodo generale in quanto facile da usare da parte di un utente, ma allo stesso
tempo è anche il metodo tecnologicamente più complesso. Tale metodo non è immune da
imperfezioni nella trascrizione e le prestazioni che esso offre sono suscettibili a molteplici
fattori (imperfezioni della stampa, deterioramento della carta e dello stampato, qualità della
stampa, stili di scrittura). In termini di tempi di conversione, i metodi basati sul riconoscimento
ottico, grazie all’evoluzione dell’hardware, sono competitivi con i metodi basati su conversione
di formati, tuttavia a questi tempi deve essere sommato il tempo necessario all’utente per
effettuare le correzioni e le aggiunte dovute ad errori di riconoscimento o carenza nella gestione
di simboli musicali da parte del riconoscitore usato.
5. Audio Recognition – Esistono delle soluzioni basate sul riconoscimento direttamente da un
audio musicale. Questi applicativi forniscono generalmente una versione MIDI del brano e
pertanto rimanda il problema di conversione dal MIDI alla notazione simbolica, con tutte le
difficoltà descritte.
6. Linguaggi formali – Si tratta di linguaggi in grado descrivere la musica, spesso complessi da
usare o non accettati dagli utenti. In questo caso, si tratta di trascrivere il brano step by step
usando i formalismi del linguaggio usato o ricorrere a convertitori di formato. In quest’ultimo
caso, non è garantita una conversione fedele ed è richiesto un intervento dell’utente per
correggere o aggiungere i simboli musicali.
Proposed Process to reach the goal
Per poter stabilire quale delle tecniche risulta la più competitiva in termini di
minimal effort e costs, è necessario formalizzare e introdurre delle metriche
per definire una metodologia di valutazione in termini di costi, efficienza. Per
fare questo devono essere fornite le risposte alle seguenti domande:
•
•
•
•
•
Quanto la complessità di scrittura di un brano musicale incide sul tempo di trascrittura?
Devono essere usati metodi diversi in presenza di brani diversi per stile e periodo?
Quanto complessa è l’applicazione usata per fare la conversione e quanto incide sui tempi di
trascrittura?
È possibile trascrivere tutta la musica su carta?
Come quantificare l’effort?
La risposta a queste domande passa da una completa review di:
• the present music notation software
• Midi convertor engine (pro. and cons.)
•
•
• Identificare se esistono convertitori in grado di aggiungere dettagli espressivi
OMR application
• Valutazione delle prestazioni definendo dei parametri di valutazione: ad es. numero di note
corrette in altezza e in durata, numero di simboli correttamente rappresentati
Audio recognition software
• Prestazioni
• Limiti
Quali sono le necessità per fare questo:
•
•
•
Stimare i tempi di trascrizione per ciascun brano della collezione usando le tecniche
menzionate.
Individuare i tempi per ciascun metodo usato
Stabilire i fattori da usare per definire il costo per un’operazione di trascrizione
Tools and implementation: