La traduzione automatica

Transcript

La traduzione automatica
La traduzione come transcodifica
z La traduzione può essere interpretata
come un:
La traduzione automatica
{processo di “conversione” di un messaggio in
codice in un altro messaggio in un altro codice
{ il testo prodotto in una lingua di partenza
(source language) deve essere trasformato in
un testo di pari senso nella lingua di arrivo
(target language)
Traduzione automatica
Traduzione assistita dal computer
human-aided machine translation
Speech translation
Modelli di traduttore automatico
Software di traduzione
Informatica e lingue naturali - Isabella Chiari
(2004)
1
Informatica e lingue naturali - Isabella Chiari
(2004)
La storia della traduzione automatica
I primi modelli di traduttore automatico
z 1947, Warren Weaver, co-autore della Teoria
matematica della comunicazione, suggerisce che il
problema della traduzione possa essere assimilato a un
problema crittografico di semplice trasposizione di un
messaggio da un codice a un altro
z tavole di corrispondenza parola per parola
z Pëtr Trojanskij propone (anni Trenta) di costruire un
traduttore basato sull’esperanto come interlingua
{ Il modello proposto da Trojanskij è però pressoché sconosciuto
z 1954, Università di Georgetown negli Stati Uniti, primo
esperimento pubblico di traduzione automatica
{ Dunque almeno una parte del lavoro di traduzione possa essere
svolto in automatico
{ sistema IBM per la traduzione dal russo all’inglese (250 parole )
z TA, traduzione automatica, MT machine-translation
z Anni Cinquanta. Si sviluppa pienamente la teoria
dell’informazione e nasce l’era dei calcolatori
Informatica e lingue naturali - Isabella Chiari
(2004)
z A cogliere la sfida con entusiasmo sono soprattutto
indipendentemente Stati Uniti e Unione Sovietica
3
Informatica e lingue naturali - Isabella Chiari
(2004)
L’arresto e la ripresta della ricerca
I finanziamenti, l’impulso economico
z 1966, l’Automatic Language Processing Advisory Committee
(ALPAC) afferma che le ricerche condotte sulla TA non hanno
portato a vantaggi qualitativi, economici o di rapidità nelle traduzioni
z Seconda metà degli anni Settanta. Lo sviluppo dell’intelligenza
artificiale e del Natural Language Processing (pos-tagging e parsing
sintattico) permette di integrare ai modelli primitivi di TA componenti
di analisi morfologica e sintattica e disambiguatori semantici
z organismi internazionali come la UE, la
NATO, l’ONU
{ nasce SYSTRAN come sistema di traduzione diretta dal russo
all’inglese
z Usato alla NATO, UE e aziende commerciali come XEROX
{ Nascono in concorrenza altri sistemi commerciali come Logos, Metal,
Pc-Translator, GTS, ecc.
4
{banche dati terminologiche nei campi
dell’economia, del diritto e della politica
internazionale
{standardizzazione delle traduzioni tecnicoscientifiche dei documenti interni e pubblici
z multinazionali
z Sempre negli anni Settanta entra sul mercato la ricerca e il prodotto
giapponese
Informatica e lingue naturali - Isabella Chiari
(2004)
2
{traduzione di manuali tecnici
{documenti multilingui a fini pratici
5
Informatica e lingue naturali - Isabella Chiari
(2004)
6
1
I nuovi obiettivi
I sistemi di traduzione automatica
z human-aided machine translation o traduzione
automatica assistita
z computer-aided translation, CAT o traduzione
assistita dal computer
z traduzione automatica del parlato (speech
translation)
z traduttori automatici
z Bilingui o plurilingui
z sistemi ultraspecializzati
{METEO canadese per le traduzioni dei bollettini
meteorologici in francese e inglese
z sistemi di impianto generale (e
multidisciplinare)
z Sistemi elementari per testi dialogici
{di pagine web
{di e-mail
{dell’instant messaging e delle chat
Informatica e lingue naturali - Isabella Chiari
(2004)
7
Informatica e lingue naturali - Isabella Chiari
(2004)
8
I principali modelli di TA
I sistemi basati su regole
i.
z rule-based MT
z vengono identificate e formalizzate alcune
regole di trasformazione delle unità
z Le regole possono essere organizzate in moduli
diversi che interagiscono a diversi livelli,
Sistemi basati su regole:
i. Sistemi di traduzione diretta o per unità;
ii. Sistemi di traduzione sintattici o T-sistemi (da
transfer);
iii. Sistemi di traduzione a interlingua;
ii. Sistemi statistici e basati su corpora:
i.
{in genere le regole sono rappresentate da diagrammi ad
albero (morfologici, sintattici e/o semantici).
SMT, Statistical Machine Translation
z procedura di lavoro seriale
ii. Example-based MT;
Informatica e lingue naturali - Isabella Chiari
(2004)
9
Sistema di traduzione diretta (rule-based)
sistemi di traduzione diretta
(o per unità, detti anche binary translation).
Informatica e lingue naturali - Isabella Chiari
(2004)
Schema di traduttore diretto (rule-based)
Unità testuale (it.)
cani
1. ogni unità testuale (in genere la parola grafica, in qualche caso
unità composte da più unità come le polirematiche) viene
analizzata per trovare il suo corrispondente diretto nella lingua di
arrivo
2. un modulo morfologico per la lingua di partenza che analizza la
forma della parola da tradurre per individuare le eventuali
informazioni fornite dalla flessione
3. verifica degli omonimi e degli omografi
4. Individuazione del traducente
5. Applicazione del modulo morfologico per la lingua d’arrivo
Forma selezionata
cane1 : cani
cani
Traducente (ingl.)
dog
cani
Traducente flesso
dogs
cani
Informatica e lingue naturali - Isabella Chiari
(2004)
11
10
ANALISI
LESSICALE
ANALISI
MORFOLOGICA
(source)
DIZIONARIO
ANALISI
MORFOLOGICA
(target)
Lista omonimi
cane1 cane2 ecc.
can-i (pl.)
cane1 -> dog
dog-s (pl.)
Informatica e lingue naturali - Isabella Chiari
(2004)
12
2
T-sistemi (transfer systems) rule-based
sistemi a interlingua (rule-based)
z approccio generativo: grammatica formale
di tipo sintattico (tra i più usati oggi nella
traduzione automatica)
z tre fasi:
z Tra source language e target language si trova
una rappresentazione intermedia, l’interlingua
z L’interlingua è rappresentazione morfologica,
sintattica e semantica semplificata
z Due passaggi:
{analisi morfo-sintattica,
{trasferimento della struttura sintattica della
lingua di partenza in quella di arrivo,
{sintesi
Informatica e lingue naturali - Isabella Chiari
(2004)
{T1 descrive il passaggio dalla lingua di partenza
all’interlingua,
{T2 descrive il passaggio dall’interlingua alla lingua di
arrivo
z Pensata per sistemi plurilingui (come
EUROTRA della CEE)
13
Informatica e lingue naturali - Isabella Chiari
(2004)
sistemi statistici di traduzione
automatica
Schema di sistema a interlingua
I.
example-based MT
I.
- Modulo morfosintattico
- Modulo semantico
- Knowledge bases
Interlingua
II.
Lingua di partenza
corpora paralleli
Statistical Machine Translation (SMT)
I.
T1
14
parametri statistici per l’attribuzione
I.
II.
Lingua di arrivo
T2
dell’ordine delle parole
del traducente
II. example-based MT
III. sistemi non linguistici
Informatica e lingue naturali - Isabella Chiari
(2004)
15
Informatica e lingue naturali - Isabella Chiari
(2004)
16
Sistemi ibridi di traduzione
I principali software di traduzione
z di tipo componenziale,
z a moduli che si interconnettono
z Rule-based e statistici a seconda dello
specifico problema di traduzione
z A strategia variabile
z Maggiore flessibilità e accuratezza
dell’output
z a) i grandi progetti di traduzione
automatica ad alto costo diffusi nelle
grandi aziende multinazionali;
z b) software per i personal computer anche
integrabili o integrati con i pacchetti di
word processing;
z c) i servizi di traduzione online per
documenti e pagine web;
z d) le workstations per traduttori.
Informatica e lingue naturali - Isabella Chiari
(2004)
17
Informatica e lingue naturali - Isabella Chiari
(2004)
18
3
Software commerciali
SYSTRAN su Babel Fish di Altavista
z software per personal computer Globalink,
SYSTRAN, Intergraph e Logos
z sistemi di traduzione online
{SYSTRAN (Il traduttore Babelfish del motore di ricerca
Altavista)
{un utente può gratuitamente tradurre in tempo reale un
testo (in inglese, francese, tedesco, italiano, russo, ecc.)
in qualunque delle lingue supportate
z incollando il testo nella finestra
z indicando l’indirizzo di una qualunque pagina web (URL)
{Il prodotto è una traduzione grezza
Informatica e lingue naturali - Isabella Chiari
(2004)
19
Sistemi professionali per traduttori
Informatica e lingue naturali - Isabella Chiari
(2004)
20
Un esempio TRADOS
z Translator’s workstation (workbenches)
{TRADOS Translation Workbench, Translation Manager
della IBM, Deja vu
z Le workstations sono dei pacchetti integrati per
gestire le traduzioni in modo flessibile:
{word processors multilingui,
{controllori grammaticali e ortografici,
{dizionari e tesauri,
{banche dati terminologiche, possibilità di accesso a
traduzioni precedenti (translation memory)
{motori di traduzione automatica
Informatica e lingue naturali - Isabella Chiari
(2004)
21
Informatica e lingue naturali - Isabella Chiari
(2004)
Risultati recenti della TA
Obiettivi di ottimizzazione della TA
z produzione di traduzioni di buona qualità
soprattutto di testi a carattere tecnicospecialistico;
z Sviluppo ed estensione delle translation
memory;
z Traduzione in tempo reale di pagine web e
di e-mail;
z Integrazione con corpora paralleli
Informatica e lingue naturali - Isabella Chiari
(2004)
23
22
{example-based MT
z Estensione a lingue precedentemente non
trattate
z speech translation o spoken-language MT per i
sistemi di dialogo uomo-macchina
{Integrazione con il riconoscimento e sintesi del parlato
{Difficoltà:
z differenze vocali individuali, ipo- ed iperarticolati,
z fenomeni come pause piene, esitazioni, ri-programmazioni
del discorso, autocorrezioni, errori e lapsus,
z riferimenti extra-testuali
Informatica e lingue naturali - Isabella Chiari
(2004)
24
4