1 L`ADIL2 come strumento per la ricerca Massimo Palermo 1. Il

Transcript

L’ADIL2 come strumento per la ricerca
Massimo Palermo
1. Il corpus
L’ADIL2 è stato progettato e realizzato nell’ambito della ricerca da me diretta Le interlingue
di apprendimento a base non italiana dell’Osservatorio Linguistico Permanente dell'Italiano
diffuso fra stranieri e delle lingue immigrate in Italia istituito dal MIUR presso l’Università per
stranieri di Siena1. Con la pubblicazione del DVD contenente la banca dati e il motore di ricerca si
intende
ora mettere a disposizione della comunità degli studiosi uno strumento per ricerche
linguistiche e glottodidattiche sull’apprendimento guidato dell’italiano L2: i saggi contenuti nel
volume, realizzati da colleghi dell’Università per Stranieri di Siena, indicano alcune possibili
applicazioni in tal senso relative alla morfosintassi, al lessico, alle modalità di gestione della
comunicazione orale e scritta da parte di non nativi2.
Negli ultimi venti anni lo sviluppo dell’informatica ha reso possibile la creazione di corpora
di italiano scritto e parlato sempre più estesi quantitativamente e, in alcuni casi, più sofisticati nelle
potenzialità di interrogazione dei testi3. Più recentemente, ad essi si sono affiancati corpora di
apprendimento (learner corpora) aventi l’italiano come lingua target; senza pretesa di esaustività
ricordiamo la Banca dati di italiano L2 del Progetto di Pavia, contenente trascrizioni di interviste ad
immigrati raccolte fra il 1985 e il 2000 (disponibile su CD-ROM dal 2001), il LIPS (Lessico
dell’italiano parlato da stranieri), basato sull’archivio delle prove di produzione orale della
certificazione CILS dell’Università per stranieri di Siena dal 1993 ad oggi4, il Co.Cer.IT (Corpus
della Certificazione IT) iniziato nel 2005 e basato sulle prove di certificazione IT dell’Università di
Roma Tre5; il VALICO (Varietà di Apprendimento della Lingua Italiana Corpus Online), realizzato
presso l’Università di Torino6; il Corpus Parlato di Italiano L2, che raccoglie trascrizioni di
interviste a parlanti di italiano L2, realizzato dall’Osservatorio sull’italiano di stranieri e
sull’italiano all’estero dell’Università per straneri di Perugia7. A questa lista si può ora aggiungere
1
Il Centro, fondato nel 2001 e diretto fino al 2005 da Massimo Vedovelli, è attualmente sotto la direzione di Riccardo
Campa. Per maggiori dettagli sulle finalità del progetto si rimanda a Palermo 2005, da cui sono tratti alcuni dei dati
riproposti nelle pagine che seguono.
2
Per altri esempi di studi basati sul corpus ADIL2 mi permetto di rinviare a Palermo 2006 e Palermo - Troncarelli –
Petrocelli (in stampa).
3
Per maggiori dettagli sullo sviluppo della linguistica dei corpora in Italia e all’estero cfr. Rossini Favretti 2000. Per
quanto riguarda la sitografia, basti rimandare a “Parlaritaliano” <www.parlaritaliano.it>, un osservatorio dedicato allo
studio del parlato italiano costituito nel 2004 da gruppi di ricerca di varie università italiane e al sito dell’Università di
Graz, all’indirizzo <http://languageserver.uni-graz.at/badip/badip/home.php>.
4
Cfr. Vedovelli 2006; Barni - Gallina 2008 e 2009
5
Il corpus contiene attualmente 11 ore e 35 minuti di registrazione di parlanti di italiano L2. fr. Cfr. Ambroso Bonvino 2009.
6
Cfr. Barbera – Marello, 2004.
7
Consultabile in rete all’indirizzo <http://elearning.unistrapg.it/osservatorio/Home.html>.
1
ADIL2, i cui rilevamenti sono stati realizzati tra il 1997 e il 20048. A questa prima fase di grande
fervore nella produzione e pubblicazione di nuovi corpora sarebbe auspicabile che seguisse ora una
comune riflessione mirata alla progressiva omogeneizzazione dei corpora esistenti. Sarà essenziale
a mio avviso soprattutto favorire l’importabilità / esportabilità deii dati, per poterli utilizzare su
diverse piattaforme e sfruttare quindi al meglio le potenzialità dei singoli motori di ricerca9.
Veniamo ora a una descrizione di ADIL2. Il corpus è formato da 1168 unità testuali,
prodotte da 1126 informanti. In termini di estensione l’intero corpus contiene 432.606 forme
(tokens). Al suo interno distinguiamo tre sezioni: testi scritti trasversali, risultato di prove
somministrate una sola volta a gruppi di informanti (sez. A, 1051 unità testuali, 185.455 forme);
testi orali trasversali (sez. B, 65 unità testuali, 84.846 forme); testi orali longitudinali (sez. C, 53
unità testuali, 185.455 forme), risultato di interviste allo stesso informante realizzate in un arco di
tempo variabile. I testi orali sono in tutto 117 e corrispondono a oltre 37 ore di registrazione10. Se si
considera il numero di forme di ciascuna sezione si ha la proporzione rappresentata nel grafico
seguente:
Grafico 1. Composizione di ADIL2 (percentuale relativa al n. di forme)
8
L’elaborazione del progetto e la gran parte dei rilevamenti risalgono al periodo 2002-2004. Gli informanti sono gli
studenti che in quel periodo frequentavano i corsi ordinari di italiano L2 presso il Centro Linguistico d’Ateneo. La
somministrazione delle prove, le interviste e le altre videoregistrazioni, le trascrizioni e la marcatura dei testi sono state
effettuate da Marco Cassandro. Alcune trascrizioni e marcature si devono a Vincenzo Faraoni. L’allestimento
informatico del sistema è a cura di Luca Belgiovane. Sono confluiti nel corpus, trascritti e marcati secondo le norme
ADIL2, alcuni testi scritti e orali raccolti precedentemente. La prova scritta su Cappuccetto Rosso è stata somministrata
nel 1997 da un gruppo di ricerca del Centro linguistico d’Ateneo, coordinato da M. G. Lo Duca (per maggiori dettagli
cfr. Lo Duca 1998). Le interviste longitudinali a CAM, HOL e JOD sono state effettuate da Marco Cassandro in
occasione della propria tesi di dottorato nel 1998 (Cassandro, tesi di dottorato). Colgo l’occasione per ringraziare, oltre
alle persone sopra citate, i docenti e i collaboratori esperti linguistici del Centro Linguistico dell’Università per stranieri
che in questo lungo lasso di tempo hanno collaborato a vario titolo ai rilevamenti. Per maggiori notizie sulla genesi di
ADIL2 cfr. Palermo 2005.
9
Sui learner corpora cfr. Granger 2004 e, per lo specifico dell’italiano L2 Andorno – Rastelli 2009.
10
Di questi 74 sono stati videoregistrati (19 ore e 6 minuti), 43 registrati in solo formato audio (18 ore e 11 minuti).
Nella versione di ADIL2 che si pubblica con questo volume, per ragioni di privacy, i file video sono stati convertiti in
file audio. Su richiesta di singoli ricercatori, da inviare al curatore del volume, sarà possibile visionare le
videoregistrazioni.
2
B: ORALE TRASVERSALE
20%
A: SCRITTO
42%
C: ORALE LONGITUDINALE
38%
Per le sezioni A e B il criterio primario per la costituzione del corpus è stato testuale: con
riferimento alla classificazione funzionale dei testi, si è cercato di coprire in modo bilanciato i
cinque tipi fondamentali. I testi orali della sezione B si differenziano, oltre che sulla base del tipo
testuale, in funzione delle modalità di interazione (monologo, dialogo, conversazione di gruppo). La
sezione orale longitudinale (C) comprende soltanto interviste semi-strutturate.
Vediamo qualche dato ulteriore sugli informanti. Per quel che riguarda la lingua madre il
quadro emergente è quello rappresentato dalla Tabella 1:
Tabella 1. Composizione dell’ADIL2 (per lingua madre degli apprendenti)
MADRELINGUA
Inglese
Giapponese
Cinese
Coreano
Tedesco
Spagnolo
Arabo
Francese
Russo
Svedese
Albanese
Greco
Portoghese
Tailandese
Polacco
Serbo-croato
Ucraino
Indonesiano
Slovacco
Olandese
Vietnamita
Estone
Persiano
NUMERO
286
151
102
82
73
54
41
33
32
29
28
24
19
19
14
14
10
8
8
7
7
6
6
MADRELINGUA
Gallese
Lettone
Norvegese
Bulgaro
Kazako
Lituano
Malese
Ungherese
Azero
Bantu11
Finlandese
Islandese
Birmano
Ceco
Ebraico
Rumeno
Uzbeko
Armeno
Georgiano
Igbo (Nigeria)
Malgascio
Moldavo
Kiniarwanda
NUMERO
1
5
5
4
4
4
4
4
3
3
3
3
2
2
2
2
2
2
1
1
1
1
1
11
Si tratta di due informanti di nazionalità camerunense e mozambicana. Ho usato per semplicità il nome della famiglia
linguistica d’appartenenza.
3
Turco
Danese
(Ruanda)
Catalano
Minangkabau
(Sumatra)
6
5
1
1
I casi più significativi di lingue madri “ombrello”, cioè corrispondenti a parlanti di nazionalità
diverse riguardano l’ arabo (21 magrebini, 2 arabi, 2 siriani, 6 palestinesi, 6 giordani), l’inglese (213
statunitensi, 19 australiani, 8 britannici, 7 canadesi, 4 sudafricani, 2 irlandesi, 1 neozelandese, i
rimanenti con doppia cittadinanza), lo spagnolo (12 spagnoli, 12 argentini, 7 cileni, 4 colombiani, 3
messicani, i rimanenti centro o sudamericani), il francese (21 francesi, 5 belgi, 2 franco-canadesi, 1
gabonese, senegalese, mauriziano, ivoriano), il tedesco (61 tedeschi, 4 svizzeri, 4 austriaci), il
portoghese (7 portoghesi e 12 brasiliani), il serbo-croato (11 bosniaci, 2 serbi, 1 croato). Per evitare
l’eccessiva frammentazione dei dati abbiamo compiuto alcune forzature non tenendo conto delle
differenze linguistiche interne agli informanti di nazionalità cinese e taiwanese e dei pochi
appartenenti a lingue del gruppo bantu (2 mozambicani, 1 camerunense). Interessanti infine i casi
degli informanti provenienti da paesi ex coloniali, in particolare africani, che non dichiarano come
lingua madre la lingua ufficiale europea in uso nella loro nazione. Per quanto riguarda gli europei,
da segnalare l’autodichiarazione di due apprendenti (rispettivamente spagnolo e britannico) che
hanno fatto riferimento al catalano e al gallese.
Una delle possibile direttrici di studio del corpus riguarda i rapporti tra tipo linguistico e
caratteristiche dell’interlingua. A tale scopo può essere utile un’analisi della suddivisione degli
apprendenti per famiglia linguistica. Il primo dato rilevante è l’appartenenza del 58% degli
informanti a lingue indoeuropee. Nel grafico 2 riportiamo nel dettaglio le cifre relative alle famiglie
linguistiche che presentino più di 5 informanti12:
Grafico 2. Distribuzione degli informanti per famiglia linguistica
distribuzione degli informanti per famiglia linguistica
408
15
19
23
28
43
82
84
104
151
28
al
tro
14
98
ro
m
an
si
zo
no
-ti
be
ta
no
gi
ap
po
ne
se
ge
rm
an
ic
o
13
sl
av
o
9
ta
i
gr
ec
o
al
ba
ne
se
se
m
iti
co
co
re
an
o
6
ba
lti
ug
co
ro
-fi
n
au
ni
co
st
ro
ne
si
an
o
al
ta
ic
o
in
do
-ir
an
ic
o
450
400
350
300
250
200
150
100
50
0
12
Rientrano nella colonna “altro”, oltre ad alcune autodichiarazioni incerte, le famiglie linguistiche con meno di 6
informanti: alcune lingue africane (igbo, bantu, ruandese), il vietnamita, il georgiano, il gallese.
4
Particolare cura è stata posta nell’ottenere una distribuzione equilibrata degli informanti per
livello di competenza, come si evince dal grafico seguente13:
Grafico 3. Distribuzione degli informanti per livelli di competenza
altre
tipologie 46 principiante
avanzato
290
217
intermedio
227
elementare
352
I due terzi degli informanti sono compresi nella fascia d’età tra i 18 e i 25 anni. Per quel che
riguarda il livello d’istruzione (hanno compilato questa sezione 830 informanti) notiamo un 5,55%
di laureati, un 43,01% di studenti universitari, un 51,44% di persone in possesso del diploma di
scuola superiore.
I 912 informanti che hanno compilato la sezione “altre lingue conosciute” sono così distribuiti:
Grafico 4. Altre lingue conosciute
tre
179
quattro
18
una
234
due
481
13
Ricordiamo che al momento dei rilevamenti i corsi ordinari di lingua del Centro linguistico dell’Università per
stranieri erano articolati su quattro livelli, mentre dal 1° gennaio 2005 si è passati ad un’articolazione su sei livelli,
secondo l’impostazione del Quadro comune europeo.
5
La prima lingua straniera conosciuta è l’inglese (574 casi), seguita dal francese (110 casi), dallo
spagnolo (90), dal tedesco (26), dal russo (18), dal cinese (15 casi, per lo più taiwanesi, giapponesi,
coreani), dal giapponese (7 casi, per lo più coreani).
2. Le rilevazioni
Vediamo ora come sono state predisposte le prove. Per la sezione A esse sono suddivise
secondo i cinque tipi testuali fondamentali. Eccone il quadro riassuntivo:
Tabella 2. Tipologia delle prove scritte
Tipo
Genere
Titolo
Descrizione
Livelli
di
competenza
Regolativo
Ricetta
Come
si Dare istruzioni per preparare I-IV
prepara un un caffé all’italiana.
buon caffé!
Narrativo 1
Racconto
di
esperienze I-IV
Parlaci di te Racconto
personale
personali.
Narrativo 2
Favola
I-IV
Cappuccetto Narrazione della favola.
Rosso
Espositivo
Saggio
Lo sviluppo Esposizione della situazione I-IV
breve
demografica
italiana.
della
popolazione Esposizione e interpretazione
di tabelle con dati reali.
italiana
Descrittivo
Gioco
Confronta le Descrivere due immagini che I-IV
si differenziano per alcuni
enigmistico due
immagini e dettagli
scrivi
le
differenze
che trovi.
Argomentativo Lettera
Lettera a un Scrivere una lettera a un I-IV
informale
amico per convincerlo a
amico.
visitare il proprio paese
Nella somministrazione di alcune prove ci siamo avvalsi dell’ausilio di immagini o di altri materiali
di supporto (v. infra, par. 4): per la prova regolativa si è dapprima mostrato un breve video di una
persona che prepara il caffé, poi si è fornito agli studenti un foglio con alcune immagini delle fasi
principali della preparazione e un lessico tecnico fondamentale; per la narrazione della favola
l’input era costituito da un’illustrazione che riproduceva i protagonisti della storia, per la prova
descrittiva si sono utilizzate due immagini quasi identiche di cui gli studenti dovevano individuare e
descrivere le differenze; per la prova espositiva si sono forniti due grafici che illustrano l'andamento
della popolazione italiana dal 1999 al 2001 e un grafico con ipotesi sul futuro sviluppo demografico
del nostro Paese14. Lo spazio maggiore dedicato alla tipologia narrativa si spiega tenendo conto del
14
Nella cartella “materiali di supporto” presente nel DVD allegato al volume sono contenuti i file con le consegne delle
prove.
6
fatto che la prova su Cappuccetto Rosso, certamente di notevole interesse per molti altri aspetti15 poteva comportare un certo condizionamento degli scriventi per quel che riguarda le regole
retoriche e stilistiche con cui la narrazione favolistica si è storicamente sedimentata nelle varie
culture, con conseguenze sulla selezione di strutture linguistiche caratteristiche del narrare (mi
riferisco in particolare alla selezione dei tempi del passato e a particolari vincoli nella costruzione
delle catene anaforiche), mentre la narrazione pragmatica richiesta con il racconto personale
dovrebbe risentire in misura minore di condizionamenti di tal genere.
Un’analoga suddivisione è stata compiuta per i testi delle sezioni B e C. Tuttavia nei testi orali
occorre considerare come variabili pertinenti anche le modalità della conversazione. Dal punto di
vista delle modalità di interazione tra gli interlocutori sono presenti sia monologhi sia conversazioni
faccia a faccia con variazione nella libertà di presa del turno, sia conversazioni di gruppo più o
meno guidate. In linea di massima, tuttavia, le rilevazioni orali, benché sempre guidate dal
ricercatore, hanno avuto carattere libero e, quando se ne è presentata l’opportunità, si è cercato di
incoraggiare le produzioni autonome degli apprendenti. Il sottocorpus raccoglie varie tipologie di
prove - in genere svoltesi nell’ambito dell’interazione di classe - che includono unità testuali
narrative (ordinare una storia a disegni e narrarla, riassumere il contenuto di un breve video),
descrittive (descrivere un’immagine proposta), espositive (presentare una breve ricerca), regolative
(spiegare come si fa il caffé all’italiana), argomentative (convincere a trascorrere un fine settimana
in una località turistica).
La sezione C è costituita da 52 interviste semilstrutturate realizzate nel tempo a un gruppo di
dieci informanti. La tabella seguente descrive la lingua madre dei parlanti, il loro livello di
competenza iniziale e finale, il numero di interviste.
Tabella 3. Informanti del corpus longitudinale
Sigla
Lingua
Informante madre
Livelli
di n.
Sigla
Lingua
competenza interviste Informante madre
Livelli
di n.
competenza interviste
ANA
Spagnolo
1–3 (non 2) 3
MON
Arabo
1–2
(libico)
Arabo
1
(palestinese)
Arabo
1
(palestinese)
Cinese
1-3
GHA
AMI
WEN
WAN
Cinese
3-4
2
6
CAM
1-2
9
2
HLY
Inglese
(USA)
Inglese
(USA)
1-3
11
2
JOD
5
HUI
Inglese 1-3
(USA)
Cinese
2-3
(Taiwan)
8
3
15
Sulle ragioni che hanno determinato l’uso di tale favola per uno studio comparato sull’apprendimento della scrittura
nei bambini si veda Ferreiro / Pontecorvo (1996).
7
3. Modalità di accesso ai dati e funzioni di ricerca
L’ADIL2 è un sistema composto da una banca dati di testi multimediali (trascrizioni e
registrazioni audio/video) e un programma che consente di accedere alla lettura e alle ricerche
testuali. Sia la lettura che la ricerca sfruttano le potenzialità del supporto digitale, in quanto è
possibile selezionare dinamicamente la porzione di corpus su cui lavorare. L’utente può predisporre
sottoinsiemi di testi definiti sulla base delle proprie esigenze di ricerca, leggerli in maniera
sequenziale e non, operare su di essi ricerche testuali.
3.1 Installare e lanciare il programma, selezionare i testi
ADIL2 funziona con i sistemi operativi di Windows. Per installarlo, avviare “setup.exe” e
seguire la procedura. Per ascoltare i testi orali è necessario che sul proprio PC sia presente il
programma Windows Media Player, versione 10 o superiore. In caso contrario, aprire la cartella
“Player” contenuta nel DVD e lanciare Winxp.exe per sistemi operativi XP, NON_WinXP.exe per
sistemi operativi diversi da XP. Una volta eseguita l’installazione non sarà più necessario inserire il
DVD nel lettore per usare il programma.
Lanciato il programma con doppio clic sull’icona ADIL2, la prima operazione consiste nel
selezionare il sottoinsieme di testi su cui lavorare: corpus scritto o orale. Effettuata questa scelta, è
possibile lavorare sull’intero insieme di testi (opzione di default) o selezionarlo ulteriormente in
base a:
! tipo di testo;
! caratteristiche dell’apprendente: età, lingua madre, livello di competenza;
! modalità di rilevamento (longitudinale o trasversale);
! modalità di scambio (monodirezionale o bidirezionale).
Nelle figg. 1 e 2 sono riprodotte le maschere di selezione relative al corpus scritto e orale:
8
Figura 1. Maschera di selezione del corpus scritto
Figura 2. Maschera di selezione del corpus orale
Ciascun testo corrisponde a un n. di file. La numerazione parte da 1 sia per il corpus scritto sia per
quello orale. Nelle citazioni di brani tratti da ADIL2 in questo volume, salvo diversa indicazione
dell’autore, sarà specificato il corpus e il n. file, per es. [SC 234]; [OR 56].
3.2 Lettura, ricerca semplice, ricerca avanzata
Una volta selezionati i testi è possibile scegliere tre modalità di accesso ai dati: lettura,
ricerca semplice e ricerca avanzata. La modalità lettura consente, nel caso delle produzioni
scritte, di visualizzare il testo e varie informazioni sulla mise en page (cancellature, sostituzioni,
aggiunte interlineari, parole di dubbia lettura o non comprensibili) e sulle incertezze ortografiche
9
(concrezioni, discrezioni). Nel caso dei testi orali le trascrizioni sono associate ai corrispondenti file
audio/video: nella cornice di sinistra compare la trascrizione, in quella di destra è possibile attivare
l’ascolto o la visione del file. La possibilità di accesso diretto ai file multimediali ha consentito di
semplificare le convenzioni di trascrizione e di ricorrere all’ortografia standard affiancata da pochi
simboli, che si riportano nelle tabelle 4, 5 e 6:
Tabella 4. Convenzioni di trascrizione e visualizzazione comuni ai testi orali e scritti
Fenomeno
Inserti in L1 dell’informante
Inserti in L2 dell’informante
Cambio di tema16
Falsa partenza17
Riferimento metalinguistico18
parola illeggibile o
incomprensibile /
cancellatura irrecuperabile
Trascrizione alternativa in
caso di dubbi
Ricostruzione congetturale
Simbolo / Visualizzazione
colore blu
colore rosso
÷
@
corsivo
{xxx}
numero di x corrispondente
grosso modo al numero di
grafemi / fonemi non
recuperabili
testo tra parentesi graffe
testo tra parentesi graffe
Esempio
Un po' più tardi ein Jaeger passa
ehm quindi , ehm quando sono vicini ,
character [#] altre , va bene
sì , perché ehm [#] ho abito nella
famiglia belgi . ho: ÷ no , sono andato
a un scuola belgi .
ehm io drit¦ @ io ha dritto .
sì , ehm primo ci sono quattre ragazze
. e loro fanno una gherra con neve .
ehm loro lansano lanciano ?
lo portò a casa sua, e gli dare (pass.
remoto) tante cose da mangiare per
guarire
Per me,{xxxxx} penso che è un'iptesi
alta
ma:: [#] qua {va} a Siena ?
Le personi {f}anno a palavolo
Tabella 5. Convenzioni di trascrizione e visualizzazione usate solo nei testi orali
Fenomeno
Tonia esclamativa
Tonia interrogativa
Tonia conclusiva
Tonia sospensiva
!
?
.
…
Giuntura sintattica
Domande a coda
,
¿ xxx ?
Esempio
A:- ieri sono andato a Roma…
B:- mhm mhm
A:- [+] e ho fatto shopping
Senti , che pensi di questa cosa?
vedi che lui ha un libro in mano ¿ no ?
16
Il parlante cambia spontaneamente il topic e passa a un nuovo tema che può essere anche vagamente correlato
all’argomento precedente.
17
Riformulazione dello stesso concetto con altre parole nello stesso enunciato, diverso dal cambio di progetto che è
anche un cambio di topic e dall’autointerruzione che è una vera e propria interruzione
18
Casi in cui il parlante o lo scrivente, con un’intonazione particolare o altri segnali grafici o paralinguistici cerca di
attirare l’attenzione dell’interlocutore sulla forma linguistica. Il primo esempio è tratto da un testo orale, il secondo da
un testo scritto.
10
Pausa (breve, media lunga)
Tenuta vocalica
Sovrapposizione
[#][##][###] in base alla
durata
: :: ::: in base alla durata
[//]
Autointerruzione
[///]
Eterointerruzione
[/]
Autocompletamento
[+]
Eterocompletamento
[++]
Annotazioni, glosse e altre
informazioni
para/extralinguistiche,
minutaggio19
Interruzione di parola
Caratteri fonetici20
colore viola
|
|\
tu hai fatto qualcosa di: ehm piacevole
RIC: che [//] che [//] che cosa hai
fatto a Venezia ?
MON: [//] sì [//] . Venezia [#] va bene
. molto bella .
A:- Ieri sono andato a Roma [///]
A:- ma che è ‘sto rumore?
A:- Ieri sono andato a Roma [/]
B:- ieri?
A:- sì
MER: in strada .
ma in aula che è più tranquillo .
più facile di di ...
KRY: ah , va bene .
MER: [+] registrare .
MON: Italia parlano qui in Italia [/]
RIC: [++] e basta !
MON: lo so , lo so.
e poi [simula reazione di spavento] .
ha paura .
MON: [//] no [//] saluti .
spettià | spettano ?
corpo maggiore grassetto
Click avulsivo
sì , ma: [##] non sono in contatto .
se c'è anche ehm altra film @ cassetta
per città . si chiama derEZ
ah {e i:} [##] |\ , regale @ regali @
i regali .
Tabella 6. Convenzioni di trascrizione e visualizzazione usate solo nei TESTI SCRITTI
Fenomeno
concrezioni
colore verde
discrezioni
cancellature
aggiunte
interlineari
colore verde
testo barrato
testo in apice tra barre
trasversali
sovrascrittura
punto o serie di
punti con
testo originario in pedice,
testo sovrascritto in apice
tra parentesi
···
Esempio
Hao arrivato in corea adesso. ti sentireo il la
mancanza, perché ti bene di tutto cioché ha fatto
per me
Perche durante le state il mio paese è bellissimo
per la prima volta lo avevo garud visto in Italia
il primo \ipotesa/ mostra che la popolazione
dell'Italia aumenterà molto
Questa estate. sono andata
azzurra. azzura
(ho viaggiato)
alla costa
Questo, è un motivo per la gente di venire
a lavorare alla Italia; le persone delle paese poberi
19
I tag relativi al minutaggio sono inseriti nella trascrizione ad intervalli di tre minuti e indicano i secondi trascorsi
dall’inizio del file audio video: servono a facilitare l’abbinamento trascrizione / ascolto. Naturalmente glosse,
spiegazioni di fenomeni paralinguistici, minutaggi e tutto quanto visualizzato in viola è escluso dalle ricerche.
20
Essendo possibile ascoltare l’audio i caratteri fonetici sono stati usati solo in caso di effettiva necessità. I simboli usati
sono quelli dell’alfabeto SAMPA (Speech Assessment Methods Phonetic Alphabet). Maggiori informazioni al riguardo
si possono trovare in rete agli indirizzi <www.phon.ucl.ac.uk/home/sampa/home.htm> e <www.phon.ucl
.ac.uk/home/sampa/italian.htm>
11
funzione non
demarcativa di
periodo
fine pagina
[||]
· ·· ma per altro posto, la Italia non è molto
economica per vivere ··· ma comunque
anche posto di lavoro è attrativo
"Perciò voglio ti sentire meglio" risponde il lupo.[||]
Finalmente la ragazza chiede
Ecco un esempio di trascrizione del corpus scritto [testo espositivo di un informante inglese
diciannovenne, principiante]:
A) Penso che le popolazioni nel in tutto il mondo diventa più
ma il cambio grande fra 2000 e 2001 è perché
la gente ha voluto avere bambini ÷ si sono nati nel anno
2000. Era un anno molto speciale. L'inizio della nuovea
millenia.
C'è anche il problema con le gravidanze nei giovani è
i Catolici non gli piaciono \loro/ gli aborti.
La popolzione cresce perché gli stranieri vengono dei paesi
più poveri e fanno tanti bambini.
Non è la colpa degli italiani perché in graffico 2 si puo
vedere che se non ci sono gli stranieri, la popolazione
sarà meno di solito.
È molto interessante che gli italiani L'italia ha il percento
di c gli italiani fanno più bambini del mondo.
B) Scelgo l'ipotesi media. La popolazione crescerà, è sono sicuro.
Gli stranieri \ci/ continueranno {x} venire {x} con le loro famiglie
e continueranno fare bambini ma fra pochi anni qualche
anno, sarà detrimortale per L'Italia perché il paese non
avrà il forte per vivere in salute. Eventualmente il governo
dovrà fermare gli immigrati che \lo/ abusano e lavorano nero.
Dovrà anche fermare dare i soldi troppo liberalmente agli stranieri. [23]
e uno di trascrizione dell’orale [intervista a GON, portoghese, 23 anni, principiante]:
RIC:
a te ti piace il cinema ?
GON:
sì !
muito .
RIC:
molto .
GON:
muito .
RIC:
ehm lo sai che oggi vedremo un film ?
GON:
ehm: [//] sì [//] , sì .
RIC:
[//] in classe [//] .
ah .
GON:
ma: non lo so che: che film ...
RIC:
ehm forse un film di Benigni .
GON:
La Vita è Bella ?
RIC:
no .
GON:
Un Mostro ?
RIC:
Il Mostro .
GON:
Il Mostro .
RIC:
12
l'hai visto ?
GON:
sì , è muy bello .
RIC:
ehm o forse un altro film se riesco a trovarlo .
però ancora non l'ho trovato .
quindi per adesso ho preso Il Mostro .
poi: [//] [#] [//] vediamo .
GON:
[//] okay [//] .
RIC:
senti , ehm sei stato al cinema qui te: ?
GON:
no , [//] no [//] .
RIC:
[//] mai [//] ?
GON:
ehm: nunca @ mai .
ehm perché: non mi piace: ehm:: guardare la:: lo:: cine [//] [#] [//] ehm:: ehm italiano . [105]
Ricerca semplice
La modalità ricerca semplice, le cui maschere sono riprodotte nelle fig. 3 (corpus scritto) e 4
(corpus orale), consente di eseguire le seguenti operazioni:
!
!
!
!
!
!
!
cercare parole, gruppi di parole adiacenti, frasi. Digitando “casa” si ottengono tutti i contesti in cui la
parola compare; digitando “la casa di Cappuccetto Rosso” si ottengono tutte i contesti in cui compare
l’espressione;
cercare parti di parole. Come caratteri jolly sono disponibili “$” (qualsiasi carattere) e “*” (qualsiasi
sequenza di caratteri); quindi cercando “cas$” si ottengono tutti i contesti di casa /case / caso ecc. cercando
“cas*” si ottengono tutti i contesti di casa /case / casetta / castello / castoro ecc. È possibile escludere dai
risultati della ricerca alcune parole. In questo caso occorre separare con un punto e virgola (senza spazio) le
parole da escludere. Per es., per ricercare le forme verbali al gerundio posso impostare come ricerca la stringa
“*ndo” ed escludere dai risultati parole di disturbo come quando;mando;fondo;mondo ecc.
generare concordanze e liste di frequenza. Digitando come stringa di ricerca il solo carattere “*” si
ottengono le concordanze o le liste di frequenza dell’intero corpus selezionato (v. infra per maggiore
dettagli).
cercare combinazioni di due parole non adiacenti (cerca parola1 e parola2 separate da N parole).
L’indicatore di prossimità (n. di parole che separano “parola1” e “parola2”) è modificabile dall’utente.
cercare varianti di parole (cerca parola1 oppure parola2). Questa funzione è particolarmente utile in un
corpus acquisizionale per cercare varianti grafiche di una parola, per es. casa, caza, chasa;
escludere alcuni contesti. In una ricerca su casa posso escludere tutti i contesti in cui la parola è preceduta
dall’articolo la (cerca parola2 non preceduta da parola1), oppure tutti i contesti in cui la parola è seguita dalla
preposizione di (cerca parola1 non seguita da parola2);
generare il contesto sinistro (cerca parola2 preceduta da qualunque parola) o destro (cerca parola1 seguita da
qualunque parola). Per es. posso ottenere la lista in ordine alfabetico tutte le parole che seguono il verbo voglio
(per es. per vedere con quali verbi è usato il modale) oppure tute le parole che precedono il participio andato
(per es. per una ricerca sull’ausiliare);
Nel corpus orale è possibile, selezionando la casella di controllo, escludere dalle ricerche i turni di
parola dell’intervistatore.
13
Figura 3. Maschera per la ricerca semplice (corpus scritto)
Figura 4. Maschera per la ricerca semplice (corpus orale)
Risultati delle ricerche
Le figg. 5 e 6 mostrano i risultati della ricerca della parola casa in un testo scritto e in uno
orale. Come si vede, nella cornice in basso compaiono tutti i risultati. Il contesto, cioè la forma o le
forme corrispondenti alla stringa di ricerca digitata, è presente nell’ultima colonna a destra,
preceduto da informazioni sul testo e sull’informante (n. file, sottocorpus, tipo testuale, modalità di
scambio, lingua madre, età, livello di competenza). Di default i risultati appaiono ordinati secondo il
n. di file, ma possono essere ordinati per uno qualsiasi degli altri campi cliccando sul capo colonna
corrispondente. Selezionando uno dei risultati, nella cornice in alto appare il contesto ampio, con la
forma ricercata evidenziata in giallo (scorrendo in alto e in basso si può leggere l’intero testo). Nel
14
caso dei testi orali (fig. 6) la cornice di sinistra contiene la trascrizione, quella di destra consente di
aprire il file multimediale con la registrazione audio/video21. In basso a sinistra sono visualizzate le
occorrenze totali risultanti dalla ricerca (nei nostri ess. casa compare 971 volte nel corpus scritto,
324 nel corpus orale).
Figura 5. Risultati della ricerca di “casa” nel corpus scritto
Figura 6. Risultati della ricerca di “casa”nel corpus orale
Salvataggio dei risultati delle ricerche
Agendo sull’icona del floppy disk in basso a destra (fig. 7) i risultati di una ricerca possono
essere salvati in un file di formato .txt. Nella finestra di salvataggio, selezionando le varie
possibilità elencate in “salva come” è possibile specificare quali informazioni trasferire su file: tutte
le colonne, il n. file e il contesto, il solo contesto o la lista di frequenza.
21
Nelle trascrizioni sono stati inseriti ogni 180 secondi dei tag che indicano i secondi trascorsi dall’inizio del file, per
facilitare il ritrovamento della stringa di testo evidenziata sul file audio-video.
15
Per salvare su file le concordanze, dopo aver digitato come stringa di ricerca il carattere *, cliccare
sull’icona del floppy disk e selezionare nel menù a scorrimento “salva come” l’opzione “numero
file e contesto”, oppure “tutte le colonne” (esempi dei file risultanti nelle figg. 8 e 9).
Per salvare su file una lista di frequenza procedere come per le concordanze, ma selezionare nel
menù a scorrimento “salva come” l’opzione “lista di frequenza” (esempi dei file risultanti nella fig.
10).
Fig. 7. Modalità di salvataggio su file
Figura 8. Salvataggio di concordanze con l’opzione “tutte le colonne”
file
tipo testuale
madrelingua
età
livello
forma
0889
0163
0248
0979
0742
0793
0793
0909
1010
1015
0170
0222
0947
narrativo2
argomentativo
argomentativo
narrativo2
prescrittivo
narrativo2
narrativo2
narrativo2
narrativo2
narrativo2
argomentativo
argomentativo
narrativo2
inglese
cinese
inglese
albanese
albanese
coreano
coreano
bulgaro
francese
inglese
polacco
russo
greco
20
26
26
19
32
29
29
18
25
22
21
32
20
2-elementare
2-elementare
2-elementare
4-avanzato
altro
1-principiante
1-principiante
2-elementare
4-avanzato
4-avanzato
3-intermedio
4-avanzato
3-intermedio
abbraccio
abbraccione
abbraccione
abbracciono
Abbraci
abbracia
abbracia
abbraciare
abbraciare
abbraciatti
abbracio
abbracio
abbraciò
Figura 9. Salvataggio di concordanze con l’opzione “numero file e contesto”
0889 abbraccio
0163 abbraccione
0248 abbraccione
16
0979
0742
0793
0793
0909
1010
1015
0170
0222
0947
abbracciono
Abbraci
abbracia
abbracia
abbraciare
abbraciare
abbraciatti
abbracio
abbracio
abbraciò
Figura 10. Salvataggio di una lista di frequenza
prime 20 forme per frequenza nel corpus scritto
prime 20 forme per frequenza nel corpus orale
5938
5888
4502
4054
3192
3184
2785
2726
2421
2229
1966
1951
1941
1919
1871
1463
1425
1359
1357
1302
8303
4437
4398
3889
3662
2492
2278
2265
2166
1968
1942
1773
1749
1697
1625
1608
1451
1445
1235
1222
e
la
il
di
che
è
a
un
per
in
sono
nonna
ha
non
una
si
era
lupo
ma
Con
sì
ehm
è
non
e
no
ma
la
un
che
per
a
di
perché
il
in
mhm
io
ho
sono
In modalità ricerca semplice è possibile individuare alcuni fenomeni segnalati da caratteri o
sequenze di caratteri speciali, già illustrati nelle convenzioni di trascrizione (v. tabelle 4, 5 e 6).
Poiché alcuni di questi caratteri non sono presenti sulla tastiera del PC, si sono riprodotti nella
maschera di ricerca. Per inserirli nella finestra di ricerca è sufficiente fare su di essi doppio clic. A
parte il carattere ÷, che segnala il cambio di tema ed è comune ai testi scritti e orali, per il resto si
tratta di convenzioni di trascrizione utilizzate solo per i testi orali. Riportiamo di seguito i fenomeni
ricercabili grazie ai caratteri speciali22:
Tabella 4. Caratteri speciali per la ricerca
Fenomeno
Falsa partenza
Tonia esclamativa
Tonia interrogativa
Tonia conclusiva
Tonia sospensiva
Giuntura sintattica
Domande a coda
Pausa
Tenuta vocalica
22
carattere (o stringa di caratteri) di ricerca
@
!
?
.
…
,
¿*?
[#] breve,
[##] media,
[###] lunga
: breve,
:: media,
::: lunga
Nei testi scritti alcuni di questi caratteri sono usati come segni di interpunzione o come simboli paragrafematici.
17
Sovrapposizione
Autointerruzione
Eterointerruzione
Autocompletamento
Eterocompletamento
Interruzione di parola
[//]
[///]
[/]
[+]
[++]
|
Ricerca avanzata
Altri fenomeni di interesse linguistico sono stati marcati in modo non visibile per l’utente, e sono
recuperabili in modalità ricerca avanzata. Qui di seguito sono riprodotte le maschere di ricerca
avanzata relative al corpus scritto (fig. 11) e orale (fig. 12) dalle quali si può ricavare il set di
fenomeni ricercabili:
Figura 11. Maschera per la ricerca avanzata nel corpus scritto
18
Figura 12. Maschera per la ricerca avanzata nel corpus orale
Selezionando un elemento della lista si ottengono tutti i contesti in cui compare il fenomeno, per es.
tutte le cancellature; in alternativa è possibile restringere la ricerca digitando anche una stringa di
caratteri: per es. nella fig. 13 vediamo i risultati della ricerca dei soli contesti di cancellature
contenenti il testo “ho”.
Figura 13. Risultati della ricerca di “cancellature” contenenti il testo “ho”
Statistiche
Selezionando
la voce “statistiche”, è possibile ottenere le seguenti misurazioni sul corpus
selezionato:
Corpus scritto
Numero di testi
Numero di periodi
Corpus orale
Numero di testi
Numero di enunciati
19
Numero di parole (tokens)
Media periodi per testo
Media parole per periodo
Lunghezza media delle parole
Numero di turni di parola
Numero di parole (tokens)
Media enunciati per testo
Media enunciati per turno di parola
Media parole per enunciato
Lunghezza media delle parole
Nel corpus scritto i confini di periodo sono individuati automaticamente dal programma come
sequenze di parole comprese tra un punto, un punto esclamativo o interrogativo e un altro punto,
punto esclamativo o interrogativo. Poiché per ragioni di attendibilità filologica delle trascrizioni non
si è intervenuti sull’uso di maiuscole, segni di interpunzione ecc. i risultati di questa misurazione
possono in alcuni casi dipendere dall’usus scribendi dell’apprendente. L’unico intervento effettuato
per rendere più attendibile la misura è stato quello di utilizzare un carattere leggermente diverso (un
punto sovrascritto) per gli usi non demarcativi del punto, per es. per serie di punti sospensivi non
corrispondenti a un confine di frase, serie di punti introdotti dallo scrivente per altri scopi, come ad
es. segnalare abbreviazioni, unire dati o creare un elenco puntato. Nel corpus orale i confini di
enunciato sono stati individuati e marcati manualmente sulla base di criteri fondamentalmente
prosodici (profilo intonativo, pause), integrati dove necessario da considerazioni semantiche
(completezza della struttura predicativa, compiutezza semantica)23.
4. Materiali di supporto
Nel DVD è presente una cartella con questo nome contenente i seguenti file:
! guida all’uso di ADIL2 (tratta dalla presente introduzione);
! consegne delle prove scritte;
! immagini delle vignette, foto o altre illustrazioni utilizzate per elicitare la narrazione di
una storia;
! descrizione delle scene di film utilizzate per elicitare la narrazione di una storia;
! database degli informanti, da cui si possono ricavare ulteriori notizie sull’informante
oltre a quelle utili per selezionare il corpus (età, sesso, lingua madre, livello di
competenza). Per es. si possono ricavare notizie sulla professione, il titolo di studio, il
numero di altre lingue straniere conosciute, eventuali origini italiane, le motivazioni che
lo hanno indotto a studiare la nostra lingua, il tipo di contatto prevalente con lingua
italiana in patria ecc.
! elenco delle convenzioni di trascrizione e visualizzazione;
! elenco dei fonosimboli;
23
Sulla complessità connessa alla definizione di enunciato e, conseguentemente, all’individuazione dei confini di
enunciato nel parlato cfr. Cresti 2000: vol. I, 39-63.
20
! elenco delle lingue madri degli informanti e relativi codici ISO.
Riferimenti bibliografici
Ambroso S. - Bonvino E. 2009, Configurazioni di discorso. Un’unità di analisi del parlato L2, in
Andorno - Rastelli 2009: 153-177.
Andorno C. - Rastelli S. (a c. di) 2009, Atti del convegno Corpora di italiano L2: tecnologie,
metodi, spunti tecnici. Pavia 22-23 novembre 2007, Perugia, Guerra.
Barbera M. – Marello C., 2004, VALICO (Varietà di Apprendimento della Lingua Italiana Corpus
Online): una presentazione, «ITALS» 4, Guerra, Perugia.
Barni M. - Gallina F. 2008, Le parole degli stranieri: il LIPS, il primo lessico di frequenza
dell’italiano parlato dagli stranieri, in: M. Barni - D. Troncarelli - C. Bagna (a c. di),
Lessico e apprendimenti. Il ruolo del lessico nella linguistica educativa, Milano, Franco
Angeli: 143-156.
Barni M., Gallina F. 2009, Il corpus LIPS (Lessico dell’italiano parlato da stranieri): problemi di
trattamento delle forme e di lemmatizzazione, in C. Andorno e S. Rastelli (a c. di) 2009: 139151.
Cassandro M, Apprendimento in contesto guidato: l’imperfetto in italiano L2, Tesi di dottorato in
Linguistica e didattica della lingua italiana a stranieri (XII ciclo), Tutor M. Benedetti,
discussa nell’a.a. 200-2001.
Cresti E. 2000, Corpus di italiano parlato. Volume I. Introduzione. Volume II. Campionamenti,
Firenze, Accademia della Crusca.
Ferreiro E. / Pontecorvo C. et alii, 1996, Cappuccetto Rosso impara a scrivere, Firenze, La Nuova
Italia.
Granger S. 2004, Computer learner corpus research: current status and future prospectives, in: U.
Connor - T. Utpon (a c. di) Applied Corpus Linguistics: A Multidimensional Perspective,
Amsterdam – Atlanta, Rodopi: 123-145.
Lo Duca M. G., 1998, Testi narrativi in apprendenti l’italiano come L2: resoconto di una ricerca in
corso, «Études romanes» 42: 281-94.
Palermo M. - Troncarelli D. – Petrocelli E. (in stampa), Le ricadute dell’input sull’output: aspetti
della coesione nei libri di testo e nelle produzioni di apprendenti di Italiano L2 e L1, in: Atti
del convegno-seminario Interazione didattica e apprendimento linguistico, Università degli
studi di Bergamo 17-18 giugno 2008 (in stampa).
Palermo M., 2005, L’ADIL2 (Archivio Digitale di Italiano L2), «Studi Italiani di Linguistica
Teorica e applicata» XXXIV 2005: 357-73.
Palermo M., 2006, Sulla costruzione del periodo ipotetico in italiano L2, «Studi Italiani di
Linguistica Teorica e applicata» XXXV 2006: 389-404.
Rossini Favretti R. (a c. di) 2000 = Linguistica e informatica. Corpora, multimedialità e percorsi di
apprendimento, Roma, Bulzoni.
Vedovelli M. 2006, Il LIPS - Lessico di frequenza dell’Italiano Parlato dagli Stranieri, in C.
Bardel, J. Nystedt (a c. di), Progetto Dizionario Italiano-Svedese. Atti del primo colloquio,
Stoccolma, 10-12 febbraio 2005, Acta Universitatis Stockholmiensis 22, Stockolm,
Romanica Stockholmiensia: 55-78.
21

1 L`ADIL2 come strumento per la ricerca Massimo Palermo 1. Il

Transcript

Documenti analoghi

Esplorare un corpus con CWB

Dispensa n° 1 GLOSSARIO su Analisi dei Dati Testuali e Text mining

Proposte didattiche attorno ad un corpus di testi

Bernardino Telesio e la “Rinascenza Italica”

Hermann Dessau

Abstracts - Universitetet i Bergen

La prof.ssa Giuseppina Campisi intervistata a Elisir su Rai 3

Competenze di Italiano nel Biennio

FONDAMENTI STORICO-EPISTEMOLOGICI DELLA SCIENZA

Metafore ed espressioni idiomatiche. Uno studio semantico

Corpora e rappresentatività