La traduzione automatica

Transcript

La traduzione automatica
La traduzione automatica
Traduzione automatica
Traduzione assistita dal computer
human-aided machine translation
Speech translation
Modelli di traduttore automatico
Software di traduzione
Informatica e lingue naturali - Isabella Chiari
(2004)
1
La traduzione come transcodifica
La traduzione può essere interpretata
come un:
processo di “conversione” di un messaggio in
codice in un altro messaggio in un altro codice
il testo prodotto in una lingua di partenza
(source language) deve essere trasformato in
un testo di pari senso nella lingua di arrivo
(target language)
Informatica e lingue naturali - Isabella Chiari
(2004)
2
1
La storia della traduzione automatica
1947, Warren Weaver, co-autore della Teoria
matematica della comunicazione, suggerisce che il
problema della traduzione possa essere assimilato a un
problema crittografico di semplice trasposizione di un
messaggio da un codice a un altro
Dunque almeno una parte del lavoro di traduzione possa essere
svolto in automatico
TA, traduzione automatica, MT machine-translation
Anni Cinquanta. Si sviluppa pienamente la teoria
dell’informazione e nasce l’era dei calcolatori
Informatica e lingue naturali - Isabella Chiari
(2004)
3
I primi modelli di traduttore automatico
tavole di corrispondenza parola per parola
Pëtr Trojanskij propone (anni Trenta) di costruire un
traduttore basato sull’esperanto come interlingua
Il modello proposto da Trojanskij è però pressoché sconosciuto
1954, Università di Georgetown negli Stati Uniti, primo
esperimento pubblico di traduzione automatica
sistema IBM per la traduzione dal russo all’inglese (250 parole )
A cogliere la sfida con entusiasmo sono soprattutto
indipendentemente Stati Uniti e Unione Sovietica
Informatica e lingue naturali - Isabella Chiari
(2004)
4
2
L’arresto e la ripresta della ricerca
1966, l’Automatic Language Processing Advisory Committee
(ALPAC) afferma che le ricerche condotte sulla TA non hanno
portato a vantaggi qualitativi, economici o di rapidità nelle traduzioni
Seconda metà degli anni Settanta. Lo sviluppo dell’intelligenza
artificiale e del Natural Language Processing (pos-tagging e parsing
sintattico) permette di integrare ai modelli primitivi di TA componenti
di analisi morfologica e sintattica e disambiguatori semantici
nasce SYSTRAN come sistema di traduzione diretta dal russo
all’inglese
Usato alla NATO, UE e aziende commerciali come XEROX
Nascono in concorrenza altri sistemi commerciali come Logos, Metal,
Pc-Translator, GTS, ecc.
Sempre negli anni Settanta entra sul mercato la ricerca e il prodotto
giapponese
Informatica e lingue naturali - Isabella Chiari
(2004)
5
I finanziamenti, l’impulso economico
organismi internazionali come la UE, la
NATO, l’ONU
banche dati terminologiche nei campi
dell’economia, del diritto e della politica
internazionale
standardizzazione delle traduzioni tecnicoscientifiche dei documenti interni e pubblici
multinazionali
traduzione di manuali tecnici
documenti multilingui a fini pratici
Informatica e lingue naturali - Isabella Chiari
(2004)
6
3
I nuovi obiettivi
human-aided machine translation o traduzione
automatica assistita
computer-aided translation, CAT o traduzione
assistita dal computer
traduzione automatica del parlato (speech
translation)
traduttori automatici
di pagine web
di e-mail
dell’instant messaging e delle chat
Informatica e lingue naturali - Isabella Chiari
(2004)
7
I sistemi di traduzione automatica
Bilingui o plurilingui
sistemi ultraspecializzati
METEO canadese per le traduzioni dei bollettini
meteorologici in francese e inglese
sistemi di impianto generale (e
multidisciplinare)
Sistemi elementari per testi dialogici
Informatica e lingue naturali - Isabella Chiari
(2004)
8
4
I principali modelli di TA
i.
Sistemi basati su regole:
i. Sistemi di traduzione diretta o per unità;
ii. Sistemi di traduzione sintattici o T-sistemi (da
transfer);
iii. Sistemi di traduzione a interlingua;
ii. Sistemi statistici e basati su corpora:
i.
SMT, Statistical Machine Translation
ii. Example-based MT;
Informatica e lingue naturali - Isabella Chiari
(2004)
9
I sistemi basati su regole
rule-based MT
vengono identificate e formalizzate alcune
regole di trasformazione delle unità
Le regole possono essere organizzate in moduli
diversi che interagiscono a diversi livelli,
in genere le regole sono rappresentate da diagrammi ad
albero (morfologici, sintattici e/o semantici).
procedura di lavoro seriale
Informatica e lingue naturali - Isabella Chiari
(2004)
10
5
Sistema di traduzione diretta (rule-based)
sistemi di traduzione diretta
(o per unità, detti anche binary translation).
1. ogni unità testuale (in genere la parola grafica, in qualche caso
unità composte da più unità come le polirematiche) viene
analizzata per trovare il suo corrispondente diretto nella lingua di
arrivo
2. un modulo morfologico per la lingua di partenza che analizza la
forma della parola da tradurre per individuare le eventuali
informazioni fornite dalla flessione
3. verifica degli omonimi e degli omografi
4. Individuazione del traducente
5. Applicazione del modulo morfologico per la lingua d’arrivo
Informatica e lingue naturali - Isabella Chiari
(2004)
11
Schema di traduttore diretto (rule-based)
Unità testuale (it.)
cani
Forma selezionata
cane1 : cani
cani
Traducente (ingl.)
dog
cani
Traducente flesso
dogs
cani
ANALISI
LESSICALE
ANALISI
MORFOLOGICA
(source)
DIZIONARIO
ANALISI
MORFOLOGICA
(target)
Lista omonimi
cane1 cane2 ecc.
can-i (pl.)
cane1 -> dog
dog-s (pl.)
Informatica e lingue naturali - Isabella Chiari
(2004)
12
6
T-sistemi (transfer systems) rule-based
approccio generativo: grammatica formale
di tipo sintattico (tra i più usati oggi nella
traduzione automatica)
tre fasi:
analisi morfo-sintattica,
trasferimento della struttura sintattica della
lingua di partenza in quella di arrivo,
sintesi
Informatica e lingue naturali - Isabella Chiari
(2004)
13
sistemi a interlingua (rule-based)
Tra source language e target language si trova
una rappresentazione intermedia, l’interlingua
L’interlingua è rappresentazione morfologica,
sintattica e semantica semplificata
Due passaggi:
T1 descrive il passaggio dalla lingua di partenza
all’interlingua,
T2 descrive il passaggio dall’interlingua alla lingua di
arrivo
Pensata per sistemi plurilingui (come
EUROTRA della CEE)
Informatica e lingue naturali - Isabella Chiari
(2004)
14
7
Schema di sistema a interlingua
- Modulo morfosintattico
- Modulo semantico
- Knowledge bases
Interlingua
Lingua di partenza
T1
Lingua di arrivo
T2
Informatica e lingue naturali - Isabella Chiari
(2004)
15
sistemi statistici di traduzione
automatica
I.
example-based MT
I.
II.
corpora paralleli
Statistical Machine Translation (SMT)
I.
parametri statistici per l’attribuzione
I.
II.
dell’ordine delle parole
del traducente
II. example-based MT
III. sistemi non linguistici
Informatica e lingue naturali - Isabella Chiari
(2004)
16
8
Statistics-based MT
Diapositiva
tratta da
Hurford,
Leeds 2003
bilingual corpora: original and translation (not available for some
languages)
little or no linguistic ‘knowledge’, based on word co-occurrences in SL
and TL texts (of a corpus), relative positions of words within sentences,
length of sentences
SL and TL sentences aligned statistically (according to sentence length
and position)
‘translation model’: probability that a TL string is the translation of a SL
string, based on:
frequency of SL/TL co-occurrence in aligned texts of corpus
position of SL words in SL string, and TL words in TL string
‘language model’: probability that a TL string is a valid TL sentence
(based on frequencies of bigrams and trigrams), search for TL string
that maximizes these probabilities
first example: IBM Candide (1988) on Canadian Hansard (English and
French)
Informatica e lingue naturali - Isabella Chiari
(2004)
17
Sistemi ibridi di traduzione
di tipo componenziale,
a moduli che si interconnettono
Rule-based e statistici a seconda dello
specifico problema di traduzione
A strategia variabile
Maggiore flessibilità e accuratezza
dell’output
Informatica e lingue naturali - Isabella Chiari
(2004)
18
9
I principali software di traduzione
a) i grandi progetti di traduzione
automatica ad alto costo diffusi nelle
grandi aziende multinazionali;
b) software per i personal computer anche
integrabili o integrati con i pacchetti di
word processing;
c) i servizi di traduzione online per
documenti e pagine web;
d) le workstations per traduttori.
Informatica e lingue naturali - Isabella Chiari
(2004)
19
Software commerciali
software per personal computer Globalink,
SYSTRAN, Intergraph e Logos
sistemi di traduzione online
SYSTRAN (Il traduttore Babelfish del motore di ricerca
Altavista)
un utente può gratuitamente tradurre in tempo reale un
testo (in inglese, francese, tedesco, italiano, russo, ecc.)
in qualunque delle lingue supportate
incollando il testo nella finestra
indicando l’indirizzo di una qualunque pagina web (URL)
Il prodotto è una traduzione grezza
Informatica e lingue naturali - Isabella Chiari
(2004)
20
10
SYSTRAN su Babel Fish di Altavista
Informatica e lingue naturali - Isabella Chiari
(2004)
21
Diapositiva
tratta da
Hurford,
Leeds 2003
Online and PC translation: why so bad?
old models (word for word, simple transformer architecture)
often single equivalents, no morphological analysis or target adjustment
dictionaries too small, insufficient information, and difficult (or impossible) to update
weak syntactic analysis/transfer
poor disambiguation (little semantic information)
general-purpose (not domain restricted)
not designed for language/style of emails
web page translations: graphics not translated, distorted, ignored; format lost
need special functions if used as aid for writing in foreign language
language coverage uneven; many languages of Africa and Asia are lacking
translation from English often poorer than into English
conclusion: of use/value only if source language unknown or known only poorly and if
essence and not full information is adequate
the less the user knows the source language, the more useful becomes automatic
translation
Informatica e lingue naturali - Isabella Chiari
(2004)
22
11
Human-assisted MT
Pre-edited input
Controlled language
input
MT engine
‘Raw’ input
Domain-specific
database
Post-editing
User
dictionary
Sublanguage
Diapositiva
tratta da
Hurford,
Leeds 2003
Informatica e lingue naturali - Isabella Chiari
(2004)
23
Sistemi professionali per traduttori
Translator’s workstation (workbenches)
TRADOS Translation Workbench, Translation Manager
della IBM, Deja vu
Le workstations sono dei pacchetti integrati per
gestire le traduzioni in modo flessibile:
word processors multilingui,
controllori grammaticali e ortografici,
dizionari e tesauri,
banche dati terminologiche, possibilità di accesso a
traduzioni precedenti (translation memory)
motori di traduzione automatica
Informatica e lingue naturali - Isabella Chiari
(2004)
24
12
Machine-aided human translation
Terminology
database
text glossary
Human translator
(workstation)
revision
pre-translation
(MT)
Translation memory
Diapositiva
tratta da
Hurford,
Leeds 2003
Informatica e lingue naturali - Isabella Chiari
(2004)
25
Computer-aided translation and translation
tools
recognition that fully automatic translation not appropriate for professional
translators
PCs and multilingual word processing, desk top publishing
Translator ‘in control’
dictionaries (monolingual, bilingual): on-line access
grammar aids, spelling checkers
user glossary, terminology management, ‘authorised’ terms, standards,
specialist glossaries
input, output, transmission (OCR, pre-editing, controlled language)
translation memory, alignment
management support tools (project control, budgeting, workflow)
Diapositiva
previous antagonism of translators to MT diminished
tratta da
Hurford,
Leeds 2003
Informatica e lingue naturali - Isabella Chiari
(2004)
26
13
Translation memories: weaknesses
Expensive to build (in time and money)
sentence-based comparisons restrict potential use (no phrase matching); whole
sentence repetition is rare (except with revised texts)
loss of context beyond sentence
any TM likely to contain redundant, ambiguous versions
any TM likely to contain conflicting translations (with little or no guidance)
sentences are edited by translators outside TM environment and therefore not
included in the database
TM systems do not ‘learn’ decisions/choices made by users (e.g. which potential
translations are preferred, which rejected)
fuzzy matching often fails (hidden tags) and too complex, and translators opt not
to use the facility; prefer translating from scratch
combining extracted translation segments left entirely to user/translator
Diapositiva
developments needed:
tratta da
finding phrases (retrieval, fuzzy matching)
Hurford,
combining phrases; searching for words in combination
Leeds 2003
phrase repetition
Informatica e lingue naturali - Isabella Chiari
(2004)
27
Un esempio TRADOS
Informatica e lingue naturali - Isabella Chiari
(2004)
28
14
Risultati recenti della TA
produzione di traduzioni di buona qualità
soprattutto di testi a carattere tecnicospecialistico;
Sviluppo ed estensione delle translation
memory;
Traduzione in tempo reale di pagine web e
di e-mail;
Informatica e lingue naturali - Isabella Chiari
(2004)
Large-scale translation and MT
29
Diapositiva
tratta da
Hurford,
Leeds 2003
accurate, good quality, publishable (dissemination)
publicity, marketing, reports, operational manuals, localization
technical documentation; large volumes
repetitive, frequent updates; saving costs (and staffing?)
multilingual output (e.g. English to French, German, Japanese,
Portuguese, Spanish)
available in-house terminological database; user (company)
dictionaries
backup resources (translated texts, personnel for dictionaries, etc.)
human assistance for quality (controlled language input, post-editing)
integrate with technical writing and publishing
availability of in-house printing/publishing
technical expertise (computers, printers, etc.)
Informatica e lingue naturali - Isabella Chiari
(2004)
30
15
MT: when it works and when it doesn’t
cannot be both fully automatic (no pre- or post-editing) and general-purpose
beyond its scope:
literature, philosophy, sociology, law
large corporations, cost-effective if:
controlled input, standardised terminology, multilingual output, repetitive
documentation, restricted domain
occasional (information-only)
rough, not for publication; immediate (fast) production
small-scale MT
‘formulaic’ documents (business correspondence), restricted domain
interactive assistance
Diapositiva
tratta da
Hurford,
Leeds 2003
Informatica e lingue naturali - Isabella Chiari
(2004)
31
Obiettivi di ottimizzazione della TA
Integrazione con corpora paralleli
example-based MT
Estensione a lingue precedentemente non
trattate
speech translation o spoken-language MT per i
sistemi di dialogo uomo-macchina
Integrazione con il riconoscimento e sintesi del parlato
Difficoltà:
differenze vocali individuali, ipo- ed iperarticolati,
fenomeni come pause piene, esitazioni, ri-programmazioni
del discorso, autocorrezioni, errori e lapsus,
riferimenti extra-testuali
Informatica e lingue naturali - Isabella Chiari
(2004)
32
16