The Object Oriented Optical Music Recognition System (O3MR) is a
Transcript
The Object Oriented Optical Music Recognition System (O3MR) is a
MUSICNETWORK Open Workshop December 2002, Darmstadt, Germany Position Paper: Music Imaging WG Converting old music sheets with digital technology with minimal effort and cost Ivan Bruno and Paolo Nesi, DSI, University of Florence La trasformazione dell’informazione musicale da supporto cartaceo ad una rappresentazione notazionale gestibile da applicazioni software dedicate all’editing, alla stampa e al salvataggio di documenti musicali è un processo che richiede molte risorse in termini di persone e tempo. Sono possibili varie metodologie di immissione dati (data entry), ma ognuna di esse tende a risolvere in parte i requisiti di efficienza e basso costo. I principali metodi di immissione dati nella trascrizione in formato di documenti musicali sono i seguenti: 1. MIDI Files – Ipotizzando l’esistenza di un rappresentazione MIDI file fedele del brano musicale da trascrivere, in termini di tempo risulta il mezzo più semplice e veloce (basso costo). Tuttavia a fronte di una velocità di immissione bisogna evidenziare la quantità di svantaggi imputabili alla scarsa flessibilità e potenza espressiva del linguaggio MIDI, il quale risulta prevalentemente orientato all’esecuzione piuttosto che alla rappresentazione in forma simbolica. Pertanto, ogni trascrizione da MIDI a simbolico necessita di un ulteriore lavoro da parte dell’utente, per correggere quelle imperfezioni generate dal processo di conversione e aggiungere simboli trascurati, perché difficilmente gestibili dal processo di conversione. Tali imperfezioni e mancanze, difficilmente quantificabili e dipendenti dal brano che si vuole trascrivere, sono principalmente legate a: • errori di rappresentazione delle strutture musicali come gruppi di note, note legate, note puntate. In questo caso l’utente deve pazientemente apporre delle correzioni sulla rappresentazione per rendere la struttura fedele all’originale. • Impossibilità a determinare le indicazioni di dinamica(piano, forte, accenti, etc…). In questo caso è compito dell’utente aggiungere i segni e le indicazioni mancanti. • in presenza di brani musicali con voci che condividono lo stesso pentagramma, la conversione allo stato dell’arte non è in grado di separare le singole voci, il risultato che si ottiene è una rappresentazione simbolica che si avvale di strutture di note in accordo che nella versione cartacea originale risultano inesistenti. Questa situazione è la più critica e richiede il maggior sforzo da parte dell’utente, che deve pesantemente modificare le strutture per riportarle nella versione originale. Il tempo necessario per effettuare le modifiche talvolta è comparabile a quello necessario per riscrivere ex novo la struttura. • Impossibilità a riconoscere abbellimenti, gruppetti e più in generale simboli che consentono di compattare la scrittura musicale. Questi vengono trascritti nella versione estesa per mezzo di note o pause aggiuntive. In questo contesto, l’utente deve intervenire per eliminare notazione superflua e ricorre all’editing per inserire quei simboli che permettono di compattare la scrittura • Conversione del brano in tonalità errata. La versione originale è scritta in una tonalità diversa da quella rappresentata dopo la conversione. In queste circostanze, l’utente deve ricorre ad operazioni di trasposizione per raggiungere la tonalità originale e da non è escludere che l’utente debba mettere mano a correzioni dovute a imperfezioni di trasposizione. Nel caso in cui il Midi file non sia fedele alla rappresentazione, allora l’intervento dell’utente è inevitabile e non quantificabile concretamente, perché si può trovare di fronte ai seguenti problemi aggiuntivi: • Le durate delle note o delle pause non sono corrette. L’utente deve modificare le durate • Il numero di battute è inferiore a quelle del brano originale. L’utente deve aggiungere ex novo le battute mancanti. • Sono presenti un numero diverso di parti. Un caso del genere è dovuto ad esempio a parti multivoce che sono state divise in più parti. L’utente deve pertanto fondere in un’unica parte e ricorrere a correzioni di vario genere (disposizione delle note, gambi, beam, etc…) • Le chiavi musicali non sono corrette. 2. Step by step – È senz’altro il metodo che massimizza la correttezza dei risultati ma allo stesso tempo il più oneroso in termini di costi e tempi. L’utente avvalendosi dell’interfaccia fornita dell’applicativo di editing, deve trascrivere tutto il brano ex novo. La quantificazione dei tempi e quindi dei costi sono legati alla complessità dei comandi dell’applicazione usata e alla complessità di scrittura del brano che si vuole trascrivere e gli errori sono imputabili ad errori introdotti dall’utente. 3. Strumenti Midi – È da ritenersi più un’interfaccia utente di ausilio che un metodo cui affidarsi per la trascrizione del brano musicale. Poiché tale metodo si basa sul MIDI, esso soffre di tutte le problematiche ad esso inerenti, soprattutto se si pensa di suonare il brano per registrare e ottenere una conversione in tempo reale o per genere un file MIDI da convertire successivamente. In questo caso è necessario effettuare un’esecuzione al limite della perfezione, limitandosi a seguire le indicazioni di metronomo e trascurando ogni forma di espressione dinamica, abbellimento e più in generale segni non notazionali. Tuttavia, nel caso di immissione step by step, lo strumento MIDI può essere usato per velocizzare l’immissione delle note in quanto può risultare più familiare e veloce suonare la nota che si vuole trascrivere, piuttosto che posizionarsi sul pentagramma ed eseguire le operazioni necessarie di scrittura secondo le regole dell’applicazione usata. 4. OMR – Il riconoscimento ottico dei caratteri musicali è senza dubbio, il metodo che molti auspicano come metodo generale in quanto facile da usare da parte di un utente, ma allo stesso tempo è anche il metodo tecnologicamente più complesso. Tale metodo non è immune da imperfezioni nella trascrizione e le prestazioni che esso offre sono suscettibili a molteplici fattori (imperfezioni della stampa, deterioramento della carta e dello stampato, qualità della stampa, stili di scrittura). In termini di tempi di conversione, i metodi basati sul riconoscimento ottico, grazie all’evoluzione dell’hardware, sono competitivi con i metodi basati su conversione di formati, tuttavia a questi tempi deve essere sommato il tempo necessario all’utente per effettuare le correzioni e le aggiunte dovute ad errori di riconoscimento o carenza nella gestione di simboli musicali da parte del riconoscitore usato. 5. Audio Recognition – Esistono delle soluzioni basate sul riconoscimento direttamente da un audio musicale. Questi applicativi forniscono generalmente una versione MIDI del brano e pertanto rimanda il problema di conversione dal MIDI alla notazione simbolica, con tutte le difficoltà descritte. 6. Linguaggi formali – Si tratta di linguaggi in grado descrivere la musica, spesso complessi da usare o non accettati dagli utenti. In questo caso, si tratta di trascrivere il brano step by step usando i formalismi del linguaggio usato o ricorrere a convertitori di formato. In quest’ultimo caso, non è garantita una conversione fedele ed è richiesto un intervento dell’utente per correggere o aggiungere i simboli musicali. Proposed Process to reach the goal Per poter stabilire quale delle tecniche risulta la più competitiva in termini di minimal effort e costs, è necessario formalizzare e introdurre delle metriche per definire una metodologia di valutazione in termini di costi, efficienza. Per fare questo devono essere fornite le risposte alle seguenti domande: • • • • • Quanto la complessità di scrittura di un brano musicale incide sul tempo di trascrittura? Devono essere usati metodi diversi in presenza di brani diversi per stile e periodo? Quanto complessa è l’applicazione usata per fare la conversione e quanto incide sui tempi di trascrittura? È possibile trascrivere tutta la musica su carta? Come quantificare l’effort? La risposta a queste domande passa da una completa review di: • the present music notation software • Midi convertor engine (pro. and cons.) • • • Identificare se esistono convertitori in grado di aggiungere dettagli espressivi OMR application • Valutazione delle prestazioni definendo dei parametri di valutazione: ad es. numero di note corrette in altezza e in durata, numero di simboli correttamente rappresentati Audio recognition software • Prestazioni • Limiti Quali sono le necessità per fare questo: • • • Stimare i tempi di trascrizione per ciascun brano della collezione usando le tecniche menzionate. Individuare i tempi per ciascun metodo usato Stabilire i fattori da usare per definire il costo per un’operazione di trascrizione Tools and implementation: