Tesi premiate alla Seconda Edizione di SAS University Challenge

Transcript

Tesi premiate alla Seconda Edizione di SAS University Challenge
SAS University Challenge
Seconda Edizione
Applicazioni innovative degli Analytics SAS
nel pubblico e nel privato
nell’era dei Big Data
Gara relative a tesi discusse dal 1 Gennaio 2012 al 31 Marzo 2013
SAS University Challenge
premia gli studenti più innovativi
Il giorno 16 Maggio 2013 presso la sede di Milano di SAS ha avuto luogo la premiazione della seconda edizione di
SAS University Challenge.
Al concorso, dal titolo “Applicazioni innovative degli Analytics SAS nel Pubblico e nel Privato nell’era dei Big
Data”, hanno partecipato neolaureati, che hanno utilizzato gli Analytics di SAS per lo sviluppo delle proprie tesi
discusse nel periodo 1 gennaio 2012- 31 marzo 2013.
La giuria composta da:
• Prof.ssa Silvia Figini (Università di Pavia)
• Prof. Roberto Fontana (Politecnico di Torino)
• Walter Lanzani (SAS)
• Maurizio Salusti (SAS)
ha valutato 24 progetti di tesi, partecipanti alla gara, considerando la qualità dell’esposizione, la presentazione
dei risultati, la complessità degli aspetti di programmazione e metodologie statistiche implementate e l’innovazione e rilevanza dei temi trattati.
Dato l’elevata qualità delle tesi, la giuria ha deciso di introdurre un ulteriore premio di 2000 euro e due menzioni
speciali di 500 euro in aggiunta ai premi già stabiliti.
Inoltre a tutti i partecipanti è stata of ferta la possibilità di frequentare un corso SAS a titolo gratuito, scelto fra
quelli a Calendario pubblico per l’anno 2013
http://www.sas.com/offices/europe/italy/servizi/formazione/corsi/index.html.
SONO STATI ASSEGNATI I PREMI DA 2000 EURO A:
e
best
ic
t
c
a
pr
• Riccardo Fino – Analisi delle transizioni lavorative nel mercato del lavoro
Italiano. Università degli studi di Milano – Bicocca
• Gianmarco Vacca – Evaluation of Economical Impacts of Human Capital With
Extended Redundancy Analysis. Università degli studi di Milano – Bicocca
• Alessandro Guasconi – Assessment and comparison of two different score
calculators for predicting risk of cardiovascular death. Università degli studi di
Milano – Bicocca
SONO STATE ATTRIBUITE LE MENZIONI SPECIALI DA 500 EURO A:
e
n
o
ld
wel
• Marta Giovannardi – Università degli studi di Milano – Bicocca
• Francesco Tarasconi – Università degli studi di Torino
• Denise Federico – Alma Mater Studiorum Università di Bologna
• Alice Corbella – Università degli studi di Milano – Bicocca
Visto il grande successo e partecipazione a SAS University Challenge e grazie al riconoscimento che
Università e docenti attribuiscono a SAS come competenza che facilita l’inserimento nel mondo del
lavoro, è stata istituita una terza edizione di SAS University Challenge.
Il bando e la descrizione dell'iniziativa sono disponibili al link:
sas.com/italy/academic/university-challenge-3.html
Sul sito sas.com/italy/academic potete trovare tutte le iniziative SAS per il mondo accademico.
SAS Inside
SAS University
challenge: i giovani
al centro della
filosofia di SAS
F
in dalla sua fondazione SAS ha riservato e riserva un’attenzione particolare al mondo accademico e dei giovani con l’obiettivo di contribuire attivamente alla cultura dell’eccellenza e allo sviluppo del Sistema Paese.
Edizione 2012/2013: la parola ai vincitori
Lo scorso 16 maggio presso la sede SAS di Milano, una giuria dedicata,
composta da docenti universitari e esperti SAS, ha premiato i progetti che si
sono distinti per:
• qualità di esposizione
• presentazione dei risultati
• complessità degli aspetti di programmazione
• metodologie statistiche implementate
• innovazione e rilevanza dei temi trattati
Riccardo Fino, Gianmarco Vacca e Alessandro Guasconi hanno ricevuto un premio da 2.000 euro mentre una menzione speciale di 500 euro
è stata attribuita a Marta Giovannardi, Francesco Tarasconi, Denise
Federico e Alice Corbella.
Abbiamo chiesto ai vincitori della “Challenge” alcune impressioni.
Ecco le loro testimonianze.
38
itasascom 3/2013
Riccardo:
ho conosciuto SAS
durante il corso di Laurea in Scienze Statistiche dell’Università degli
studi di Milano-Bicocca dove ho
imparato ad utilizzare il software e
ad applicarlo a diversi ambiti della
statistica. Subito mi sono risultate
chiare le potenzialità del software. Ho inoltre frequentato gratuitamente il corso di certificazione
“Base Programming for SAS®9”
conseguendo la relativa certificazione e avendo così la possibilità
di conoscere meglio SAS grazie
ad Omar (ndr. Omar Villantieri, Senior Technical Training Consultant,
Education - SAS) e Cinzia (ndr. Cinzia Gianfiori, Academic Programm
Manager - S AS). Ho proseguito il
percorso universitario utilizzando SAS p er la mia tesi di Laurea
Triennale.
Attualmente frequento il corso di
Laurea Specialistica in Biostatistica e S tatistica Sperimentale presso la stessa Università e continuo
ad utilizzare SAS.
Gianmarco:
sono laureato magistrale alla facoltà di Scienze Statistiche dell’Università Bicocca. Ho
conosciuto e h o iniziato ad utilizzare SAS durante i corsi curricolari
nei primi tre anni, con un utilizzo
più approfondito durante un progetto parallelo alla stesura della
mia tesi triennale, embrione di ciò
che alla fine ho deciso di far concorrere per la University Challenge.
Alessandro:
nel corso degli anni
la mia crescente passione per l’analisi dei numeri mi ha indotto ad
iscrivermi alla facoltà di Scienze
Statistiche. Dopo aver conseguito la laurea triennale in Scienze
Statistiche e G estione delle Informazioni all’Università degli Studi
di Milano-Bicocca, ho proseguito
la carriera universitaria seguendo
il corso di laurea in Biostatistica e
Statistica Sperimentale, in quanto
fortemente affascinato dalla possibilità di coniugare la scienza dei
numeri alla ricerca in ambito medico. Ed è proprio in università che
ho appreso le caratteristiche principali di SAS, mentre nelle esperienze lavorative ho potuto costatarne le sue enormi potenzialità.
“Con questa iniziativa SAS dimostra
di interessarsi ai giovani laureati e
voler dare loro una occasione in più
di entrare nel mondo del lavoro.
Riccardo Fino,
Università degli Studi Milano Bicocca
„
Cosa ne pensi dell’iniziativa
University Challenge?
Riccardo:
una preziosa occasione per dare un valore aggiunto al
mio lavoro di tesi e di poter essere valutato da una società esterna
oltre a rappresentare un’opportunità di confronto con studenti di
altre università. Con questa iniziativa SAS dimostra di interessarsi
ai giovani laureati e voler dare loro
una occasione in più di entrare nel
mondo del lavoro. Opportunità
molto preziosa soprattutto in questo periodo.
Gianmarco: un concorso assolutamente stimolante, sia per l’entità
stessa della sfida, in cui si deve essere in grado di portare a compimento lavori complessi tramite l’utilizzo del software SAS, sia per le
persone che con me hanno partecipato con altri lavori di notevole interesse. Mi ha colpito l’ammirevole
capacità e l a voglia di indagare la
realtà che porta come risultato soluzioni e idee innovative.
Terza edizione di
SAS University Challenge
L'uso innovativo degli Analytics
nel Pubblico e nel Privato nell'era
dei Big Data.
Call to action
Come sei entrato in contatto
con SAS?
La terza edizione di SAS University Challenge
attualmente in corso ha l’obiettivo di raccogliere
dalle Università ulteriori spunti e stimoli sul valore
degli Analytics SAS applicati sia al business
sia alla ricerca.
A chi si rivolge: studenti di università italiane di
qualsiasi facoltà che, dal 1 Aprile 2013 al 30 Giugno
2014, abbiano svolto o svolgeranno Tesi nelle quali
la componente computazionale è realizzata utilizzando il software SAS.
Premi: verranno selezionate 4 Tesi o rapporti
di ricerca per il conseguimento della laurea triennale, specialistica, magistrale, dottorato di ricerca,
scuola di specializzazione o Master post-laurea. Le
Tesi potranno riguardare qualsiasi argomento e/o
materia attinente al titolo del Challenge.
 nline il bando di concorso disponibile su
sas.com/italy/academic
“SAS si è rivelato un preziosissimo
alleato, che mi ha permesso di
ottenere le analisi desiderate
attraverso la creazione di un codice
elegante e intuitivo.
Alessandro Guasconi,
Università degli Studi Milano Bicocca
„
3/2013 itasascom
39
Da sx a dx: Cinzia Gianfiori - SAS, Marta Giovannardi, Francesco
Tarasconi, Alessandro Guasconi, Alice Corbella, Riccardo Fino,
Gianmarco Vacca, Walter Lanzani - SAS, Prof.ssa Silvia Figini Università di Pavia, Prof. Piergiorgio Lovaglio - Università Milano Bicocca
Alessandro:
un’esperienza estremamente positiva
che, attraverso una splendida organizzazione, ha fornito una forte motivazione a produrre una tesi completa e dettagliata sotto tutti i punti di vista. E poi,
che splendida occasione di farsi conoscere! E quale
opportunità SAS ha offerto agli studenti permettendo
di partecipare alla certificazione “SAS Base Programming”; ho così avuto modo di ampliare le conoscenze
su funzioni e procedure molto utili che, per ragioni di
tempo, non possono essere affrontate durante il percorso di formazione universitaria.
Quali le sfide che hai affrontato nella stesura della tua tesi applicativa ?
Riccardo: pazienza! La statistica in generale richiede pazienza per non fare errori nelle analisi e per non
interpretare erroneamente i risultati. Ci sono tanti software ormai che eseguono in un click anche analisi
molto complesse, difficile è invece “sporcarsi le mani”
e capire cosa succede dietro al programma. SAS offre
“Mi ha colpito l’ammirevole
capacità e la voglia di indagare la
realtà che porta come risultato
soluzioni e idee innovative.
Gianmarco Vacca,
Università degli Studi Milano Bicocca
„
40
itasascom 3/2013
entrambe le possibilità. Puoi quindi decidere di lavorare col codice e personalizzare le analisi. Ovviamente devi conoscere il linguaggio e studiare
come funzionano le diverse procedure. La fatica è p erò ripagata sia in
termini di risultato che di tempo poiché SAS permette di condurre analisi
complesse in maniera più efficiente di tanti altri software.
Gianmarco: la sfida maggiore è s tata la costruzione delle fondamenta
del lavoro, più che gli aspetti meramente tecnici o d i programmazione.
Nella fattispecie, poiché nel mio caso si è trattato di un’analisi tramite un
modello ad equazioni strutturali, il grosso scoglio è stato capire come far
recepire al software la struttura del modello che volevo fargli analizzare.
Una volta superato l’ostacolo, è bastato riportare la struttura algoritmica
del modello su SAS, compito comparativamente più semplice rispetto alla
ricezione in input del modello.
Alessandro: grazie alle grandi doti comunicative dei professori che hanno sviluppato corsi con SAS, non ho avuto grandi difficoltà a livello di
programmazione; più ostico è stato capire come tradurre le richieste del
progetto di ricerca in un contesto matematico. SAS si è rivelato un preziosissimo alleato, che mi ha permesso di ottenere le analisi desiderate
attraverso la creazione di un codice elegante e intuitivo. ●
 tempo di lettura 5 minuti.
sascom/italy/academic leggi gli abstract delle tesi
Indice
Analisi delle transizioni lavorative nel mercato del lavoro Italiano
- Riccardo Fino - Università degli studi di Milano Bicocca
5
Evaluation of Economical Impacts of Human Capital With Extended Redundancy Analysis
- Gianmarco Vacca - Università degli Studi di Milano Bicocca
6
Assessment and comparison of two different score calculators for predicting risk of
cardiovascular death
- Alessandro Guasconi - Università degli Studi di Milano Bicocca
7
In-depth theoretical and applied examination on immeasurable time bias
- Marta Giovannardi - Università degli Studi di Milano Bicocca
8
Singular Value Decomposition, Teorema di Eckart-Young e Text Mining con SAS Teoria
e Applicazioni al Policy Making 2.0
- Francesco Tarasconi - Università degli studi di Torino
9
Post-baseline Prostate Specific Antigen level decline as prognostic factor in a phase
III prostate cancer trial
- Denise Federico - Alma Mater Studiorum Università di Bologna
10
Una meta-analisi sull’ effetto dell’aggiunta di chemioterapia ad un trattamento radioterapico
in pazienti affetti da carcinoma a cellule squamose della testa e del collo
- Alice Corbella - Università degli Studi di Milano Bicocca
11
Modello di retention per una compagnia di assicurazioni
- Luca Urzetta - Università degli studi di Milano Bicocca
12
La precarietà ha effetti negativi sulla salute? Uno studio su una coorte di lavoratori
dipendenti in Italia
- Massimiliano Giraudo - Università degli studi di Torino
13
Una nuova proposta di indicatore composito definito sulla base di misure di distanza
- Licia Maron - Università degli studi di Padova
14
Metodi multivariati sugli esiti del monitoraggio dell’entomofauna dell’area cacuminale
del Gennargentu
- Rita Marras - Università degli studi di Milano Bicocca
15
La Riforma Fornero: un’analisi attraverso i dati dei social media
- Maria Beatrice Simonazzi - Università degli studi di Milano Bicocca
16
Il modello di regressione quantile. Analisi dei sinistri RCA in Italia
- Manuela Melchionno - Università La Sapienza
17
Modello di regressione logistica multipla applicato per l’indagine del fenomeno Serial
Killer in Italia
- Gian Roberto Tognetti - Università La Sapienza
18
Modello di rating per la stima della probabilità di default ad un anno della clientela bancaria
- Sara Di Stasio - Università degli Studi di Milano Bicocca
19
Sentiment Analysis su Twitter
- Claudia Proia - Università La Sapienza
20
Gli algoritmi genetici per la selezione delle variabili
- Michela Marchetti - Università La Sapienza
21
Data mining models for long term churn rates investigation. Marketing and targeting
effect separation. A focus on the mobile telecommunications industry
- Maria Mastrangelo - University of Bologna
22
Realizzazione di un Sistema Informativo Integrato di Supporto alle Decisioni in tecnologia
SAS per l’Agricoltura della Regione Sardegna (SISDA)
- Andrea Lamanna - Università degli Studi Mediterranea
23
Metodi per la valutazione degli effetti dell’esposizione a polveri sottili sulla coagulazione
attraverso modificazioni epigenetiche
- Chiara Pagliuca - Università degli Studi di Milano Bicocca
24
Valutazione di efficacia di un intervento farmacologico in sanità pubblica: trattamento
con clopidrogrel nell’infarto miocardico acuto
- Chiara Carsana - Università degli Studi di Milano Bicocca
25
Il comportamento di acquisto degli early triers di un nuovo prodotto
- Nicholas Fabben - Università degli Studi di Milano Bicocca
26
e Università degli studi di Milano Bicocca
best
ic
t
c
a
pr
- Facoltà di Scienze Statistiche
Riccardo Fino
[email protected]
Relatore: Prof. Pietro Giorgio Lovaglio
Analisi delle transizioni lavorative nel mercato del lavoro Italiano
- settembre 2012
La crisi economica del 2008 ha avuto un forte impatto in Europa e lo scenario lavorativo
I-2007
I-2008
I-2009
I-2010
è stato quello più colpito, anche se in maniera diversa nei vari Paesi. In questo studio si è
Coorte I
Coorte II
analizzata la situazione del mer cato del lavoro italiano e i suoi cambiamenti negli anni, fino
Coorte III
al 2010. La base di partenza sono stati dati sugli italiani in età lavorativa negli anni 2007Struttura dei dati longitudinali
2010, osservazioni su persone le cui caratteristiche occupazionali sono state r egistrate in
due occasioni successive.
Il campione utilizzato è abbastanza ampio e ben strutturato da garantire la validità dei risultati ottenuti e poter giungere a conclusioni sulla
dinamica generale dei lavoratori italiani (dati ISTAT).
Obiettivo
Questo elaborato si è prefisso l’obiettivo di analizzare lo stato occupazionale dei lavoratori nei vari anni, come varia nel tempo
e in base a quali variabili. In questo modo si è valutato l’impatto della crisi sulle diverse categorie lavorative e sulla pr obabilità
di passare ad una condizione più o meno stabile del lavor o. Tramite modelli markoviani sui dati ISTAT si volevano calcolare le
matrici di probabilità transizione tra gli status lavorativi a tempo omogeneo ed eterogeneo, distinte per caratteristiche dei soggetti. In particolare queste dinamiche sono state ricostruite per la componente giovane della forza lavoro (18-34 anni), la fascia
che risulta più incline a cambiamenti e sulla quale stato interessante vedere i risultati di un modello markoviano Mover-Stayer.
Soluzione
Per la preparazione dei dati e le analisi è stato utilizzato il software SAS 9.2 fornito dall’ateneo. La Proc Sort e vari passi di data
hanno permesso di rendere il dataset in forma longitudinale e codificare le variabili in maniera opportuna per l’analisi. Una Proc
Logistic ha permesso di effettuare una stima preliminare degli effetti delle covariate scelte nell’analisi sulle transizioni più significative dei giovani lavoratori, quelle verso contratti a tempo indeterminato e verso la non occupazione. Alcune macro IML sono
state invece utilizzate per calcolare le probabilità di transizione. La Proc Genmod, inizialmente tenuta in considerazione per la
stima di un modello ad effetti marginali, non si è invece potuta utilizzare per la carenza della struttura di correlazione dei dati.
Risultati/Benefici
Le catene di Markov hanno dato come risultato nu merose matrici di transizioni che hanno confermato e
approfondito i risultati evidenziati in tabella, dove sono
rappresentati i contrasti più significativi. Soprattutto è
interessante osservare come le dinamiche nel tem po, seppur connotate da un tr end negativo comune,
variano a seconda delle caratteristiche dei soggetti. I
giovani evidenziano un comportamento dif ferente dal
resto dei lavoratori e spesso più volatile. Soltanto la
componente più dinamica di questi riesce ad affrontare l’incertezza che la crisi pone nel mercato del lavoro
con una maggiore flessibilità
Transizione -->
Indeterminato
Transizione -->
Non lavora
Covariata
Effetto (contrasto)
OR (IC 95%)
OR (IC 95%)
Trend
2008 vs 2007
-
+
2009 vs 2007
-
-
Italiano vs Straniero
-0.80
(0.67-0.94)
-
Fino lic media vs Diploma
-
+1.29
(1.07-1.55)
+1.33
(1.08-1.65)
Genere
Cittadinanza
Titolo di studio
F vs M
Laurea vs Diploma
Area geografica
N° dipendenti
Settore
Centro vs Mezzogiorno
Nord vs Mezzogiorno
<10 vs 11-249
>250 vs 11-249
Privato vs Pubblico
Disoccupazione regionale
Variazione PIL regionale
+
-0.52
(0.33-0.82)
+
+
+2.55
(1.92-3.40)
-
-0.70
(0.53-0.91)
+
+1.49
(1.13-1.97)
+
-
5
best
e Università degli Studi di Milano - Bicocca
c
i
t
- Dipartimento di Scienze Statistiche
rac
p
Gianmarco Vacca
[email protected]
Relatore: Prof. Piergiorgio Lovaglio
Evaluation of Economical Impacts of Human Capital With Extended Redundancy Analysis
- marzo 2013
Nell’ambito dei cosiddetti Modelli ad Equazioni Strutturali, recenti sviluppi hanno dato molta importanza metodologica e
applicativa alla cosiddetta Extended Redundancy Analysis (ERA, sviluppata da Takane e Hwang). Estendendo la c.d.
Redundancy Analysis, già consolidata in letteratura, a più di due blocchi, ERA apre a nuovi orizzonti teorici e applicativi.
X
Y, matrice di q variabili endogene, è espressa tramite un’aggregazione della matrice X di p variabili esogene in k<p
componenti latenti (F) tramite W, matrice di pesi stimati, poi utilizzati per la stima dei loadings di A’ verso Y.
In aggiunta, si considera la matrice T di r variabili c.d. concomitanti, avente duplice e contemporaneo effetto causale
sulla variabile endogena (y), sia diretto (t y) che mediato dal costrutto latente (t f y), modificando il modello in
Obiettivi
X3
X2
W
Y = X W A’ + E = F A’ + E
Y = X W A’ + T WT A’ + T A’ Y + E
X1
F
f1
f2
WT
A’
T
A’Y
Y
• Valutare, attraverso dati simulati da distribuzioni Normali Multivariate, la performance di due versioni dell’algoritmo del modello
con variabili concomitanti. La prima, che utilizza l’algoritmo identico ad ERA classico, sof fre di alcune mancanze dal punto di
vista delle stime, a causa di matrici di coefficienti i cui impatti (verso latent composite e diretto verso variabile endogena) non
possono essere valutati separatamente, e a causa della correlazione tra le matrici X e T. La seconda, con il modello generalizzato GRA, separa questi impatti ed elimina l’effetto della correlazione tra X e T tramite loro ortogonalizzazione.
• Valutare su un campione di circa 2800 studenti, laureati nel 2007, l’effetto di variabili esogene, sia legate al contesto educativo
(Educational Human Capital, f1), sia legate al contesto lavorativo nei primi anni post-laurea (fino al 2010), osservando variabili
di progresso nel mercato del lavoro (Formative Human Capital, f2), su variabili di risultato economico (Income). Tale modello
viene poi arricchito dalla presenza di un indicatore concomitante aggiuntivo, il reddito dichiarato dal nucleo familiare, per valutarne l’impatto sia sul contesto educativo dell’individuo, sia direttamente sul risultato economico.
Soluzione e Risultati
A questo scopo è stata creata una serie di macro, col modulo SAS Macro/IML, per ogni casistica applicativa e ogni
contesto simulativo attuabile.
Nel primo caso gli input sono il dataset di riferimento e il
path diagram, avendo in output stime one-shot, stime bo otstrap e relativi p-values, R2 e stime per ogni replicazione.
Nel secondo caso gli input sono le matrici di dati simulati e
di coefficienti arbitrari, quattro sampling rates in ordine crescente per valutare l’indice di congruenza p e i bias tra stime
e parametri arbitrari.
I risultati dell’applicazione mostrano come pr evalenti, nel
ritorno economico, l’esperienza lavorativa maturata e l’es sere già lavoratori-studenti. Indicativa è anche l’influenza
della variabile concomitante aggiunta in seconda battuta,
ma solo direttamente sul risultato economico.
In ambito simulativo emerge la miglior e efficienza del modello GRA, con coefficienti di congruenza molto più elevati
rispetto alla controparte ERA “classica”.
ρERA(n=50)=.566
ρERA(n=100)=.648
ρERA(n=400)=.724
ρGRA(n=50)=.482
ρGRA(n=100)=.653
ρGRA(n=400)=.874
Parte del path diagram, lo script
contiene anche le parti relative
a FY, TF e TY.
x2: voto di laurea.
x3: status da studente a
lavoratore
studente
in
senso crescente.
s2 s3: ore impiegate al
lavoro su totale ore
impiegabili
e
sua
variazione dopo un anno.
fascia
t1:
famigliare
di
reddito
y1 = reddito annuo lordo.
6
best
e Università degli Studi di Milano - Bicocca
c
i
t
Alessandro Guasconi
rac
p
[email protected]
Relatore: Prof.ssa Antonella Zambon
Correlatore: Dott.ssa Franca Heiman
Assessment and comparison of two different score calculators for predicting risk of
cardiovascular death - marzo 2013
To help general practitioners (GPs) and clinicians to establish the cardiovascular health condition of patients, many CVD risk score calculators have been
developed in the last decades, using different outcomes, such as the probability of developing a CV event or dying for a CVD, within a fixed time interval.
To calculate those risk scores for a patient a GP need to know specific information, such as sex, age, smoking habits, BP and so on, depending on the
calculator used; the result is a probability or a risk class. CVD is the most common causes of death and morbidity in the chr onic kidney disease (CKD)
population. CKD is a worldwide public health problem and include conditions that damage kidney and decrease his ability to keep blood filtered. Worsening
of CKD may lead to terminal r enal impairment that r equires substitute treatment with dialysis or kidney transplant, involving very high costs. CKD does
not necessary get to terminal impairment stage, but it significantly contributes in increasing cardiovascular risk; individuals with CKD die mor e frequently
for CVD rather than develop a kidney failure.
Objective
Despite the evidence that kidney damage is a cardiovascular damage detector, the main cardiovascular risk score nowadays don’t
consider neither renal function nor CKD presence. The only score that used information about r enal status is the INDANA scor e,
which include in his components serum creatinine, a chemical waste molecule that is generated from the muscle metabolism and
eliminated through the kidney.
Due to the evidence in literature that CVD is high related with CKD and vice versa, the objective is to verify if INDANA score has the
best accuracy in identifying patients that really present an elevated cardiovascular risk in comparison to others calculators.
Research strategy
A sample of 40,000 UK hypertensive GP patients, has been analyzed. For each person calculus of the INDANA score and the most
used and recommended score, the Framingham one has been performed.
The evaluation taken in account the calibration (with Hosmer – Lemeshow test) and discrimination (with AUROC statistic) ability of
this two scores; calibration refers to how closely the predicted risk agrees with the observed risk, while discrimination is the ability of
the risk score to differentiate between patients who experienced the event researched and those who do not.
Although predicted risk varies across a continuum, clinical decisions r equire creation of risk categories. An important aspect, the refore, when considering adopting a new risk prediction rule, is the classification of patients who would be reclassified to a different
risk category when compared with the standard means of risk prediction. To do so, the use of the Net Reclassification Improvement
(NRI) and Integrated Discrimination Improvement (IDI) has been implemented.
The whole statistical analysis was performed using SAS© 9.2, cr eating ad hoc macr os for determine Hosmer -Lemeshow tests
and AUROC, NRI and IDI statistics in a Multiple Imputation context; in fact, since information needed to compute the scor es were
missing in some records, PROC MI and PROC MIANALYZE were used.
Results
Calibration:
Discrimination:
Reclassification:
Poor calibration ability was found in both the INDANA and Framingham risk scor es, as shown
in Table 1.
These results may could be due to the low
number of ascertained causes of death asso ciated with the patients.
Good discrimination ability was found in
both the INDANA and Framingham risk scores. The difference in AUROC is statistically
significant, so INDANA has a better discri mination skill respect Framingham. (Table 2)
Using the SCORE project boundaries (Risk < 1%,
Risk between 1% and 5%, Risk between 5% and
10%, and Risk > 10%), the NRI statistic suggest
that INDANA performs a better classification than
Framingham. (Table 3)
Same indication are given by IDI (data not shown).
Table 1. Hosmer-Lemeshow tests
Model
H-L
Chi quare
DF
p-value
Framingham
231.82
8
< 0.0001
273.16
8
< 0.0001
INDANA
Table 2. AUROC statistics
Table 3. NRI statistics
Estimate
0.736
STD
0.018
t
13.43
Pr > |t|
< 0.0001
Parameter Estimate
NRI
0.129
INDANA
0.787
0.016
17.77
< 0.0001
NRI event
0.453
Difference in
AUC
0.050
0.012
4.29
< 0.0001
NRI nonevent
- 0.324
Parameter
Framingham
STD
0.052
t
2.49
Pr > |t|
0.0130
0.052
8.78
< 0.0001
0.003 - 99.91 < 0.0001
7
well
Università degli Studi di Milano Bicocca
e
n
Marta Giovannardi
do
[email protected]
Relatore: Antonella Zambon
Correlatori: Samy Suissa, Russell Steele
In-depth theoretical and applied examination on immeasurable time bias - marzo 2013
Definition of Immeasurable time bias: it is a misclassification bias due to an unidentified presence of hospitalizations when defining drug
exposure with computerized health databases.
Objective
Evaluate the performance of different statistical methods of data analysis to correct for the immeasurable time bias in a cohort
of Chronic Obstructive Pulmonary Disease (COPD) patients Belong to a Canadian health database Named Régie de l’Assu rance Maladie du Québec (RAMQ) (n=32 864 patients).
Methods
It is a nested case contr ol study [PROC SUR VEYSELCT and a macro dealing with
the 1 to 1 matching and the construction of the sample (1000 cases and 1000 controls randomly selected)]:
1. Assumption of four different scenarios :
a. Two scenarios with no information about the pr escriptions in the hospitalization
period (1st ,3rd )
b. Two with the imputation of these prescriptions (2nd ,4th)
2. Implementation of different models refers to the scenarios without the prescription’s
imputation. (PROC LOGISTIC, PROC PHREG)
3. Implementation of multiple imputation technique for the scenario with the prescription’s imputation. (Winbugs and PROC MI e PROC MIANALYZE)
Imputation Procedure:
Results
Weibul Model
Prior Distribution is a Gamma (δ,γ) with random parameters 
Posterior Distribution is a Gamma (δ*,γ*) with δ*= δ+n*mean of x and γ*= γ+n
Discussion
The main problem of this bias was the presence of missing information. Missing data about prescription in the hospital period
We tried to analyze this problem with
a. Different models
b. Multiple imputation technique
This is a preliminary study we need more studies and a simulation study to validate the model and the technique.
Conclusion: Multiple imputation approach seems to be more suitable than the other approaches due to the presence of
smaller standard errors and the possibility to work with complete datasets
8
well
Università degli studi di Torino
e
n
Francesco Tarasconi
do
[email protected]
Relatore: Prof.ssa Laura Sacerdote
Singular Value Decomposition, Teorema di Eckart-Young e Text Mining con SAS
Teoria e Applicazioni al Policy Making 2.0 - ottobre 2012
E’ in forte crescita la domanda di tecniche statistiche efficaci per analizzare dati non strutturati, in particolare testuali. Società e imprese
desiderano estrapolare dal Web cosa il pubblico pensi dei loro prodotti e capire come attrarre nuovi clienti. Le pubbliche amministrazioni hanno, grazie ad Internet, la possibilità di ricevere in maniera tempestiva ed interattiva un continuo feedback dai cittadini. Strumenti
matematici e informatici di Text Mining sono necessari per convertire tali dati testuali in formati numerici adatti ad analisi rigorose. In
questo contesto pochi anni fa l’Unione Europea ha focalizzato risorse nel campo del Policy Making 2.0: un laboratorio all’interno del
quale sviluppare soluzioni alternative inerenti alla formulazione delle scelte politiche e la loro attuazione attraverso modelli di Governance trasparenti e democratici.
Obiettivo
Ci proponiamo in questa tesi di approfondire i legami fra matematica e Text Mining in ambiente SAS, mostrando che alcune nozioni di Algebra Lineare sono essenziali per comprendere appieno le potenzialità della componente Text Miner.
Infatti soluzioni più ingenue per af frontare problemi come la dimensionalità non hanno la stessa ef ficacia di soluzioni
che poggiano su basi matematiche più sofisticate, come la SVD.
Nella prima parte del lavoro intendiamo enunciare e dimostrare due Teoremi che giustificano l’ampio utilizzo nel campo
del Text Mining della pr ocedura di SVD; abbiamo scelto una trattazione costruttiva ed elementar e che richiede solo
risultati basilari di Algebra, Analisi e Geometria.
Successivamente vogliamo mostrare il legame tra matematica e SAS, mostrando come i risultati precedenti siano
implementati in Text Miner per consentire in maniera efficiente la manipolazione, riduzione di dimensione e interpretazione di una vasta collezione di documenti.
Infine presentiamo alcuni casi di Text Mining affrontati durante uno stage presso il CSI Piemonte. Uno degli obiettivi è
stato quello di analizzare l’atteggiamento dei cittadini italiani nei confr onti di alcuni argomenti di attualità. I dati gr ezzi
usati sono tweets di utenti del social network Twitter. Si è cercato di individuare statisticamente quali fossero i filoni di
discussione più popolari all’interno di ogni argomento e come gruppi diversi di cittadini italiani (ad esempio i cittadini
del Piemonte) si rapportassero con gli stessi.
Soluzione
Gli strumenti di analisi privilegiati sono stati Enterprise Guide ed Enterprise Miner della suite di applicativi SAS, in
particolare la componente aggiuntiva Text Miner per Enterprise Miner. Le versioni utilizzate sono SAS 9.1, SAS 9.2,
Enterprise Guide 4, Enterprise Miner 6.2, Text Miner 4.2.
Risultati/Benefici
Abbiamo applicato con successo tecniche di T ext Mining ad oltr e
70,000 documenti contenenti decine di migliaia di termini, ottenendone
una rappresentazione informativa e compatta.
Raggruppamenti di tweets aventi un legame semantico sono stati indi viduati attraverso procedure di Clustering e della maggior parte di essi
si è potuta fornire un’interpretazione come discussione.
Descrizioni quantitative dei singoli clusters sono state inoltr e possibili
attraverso tecniche di Profilazione.
Abbiamo pertanto esplorato alcune possibilità del Text Mining nel mondo nuovo ed in continua crescita del Web 2.0 e di Twitter.
9
well
Alma Mater Studiorum Università di Bologna
e
n
Facoltà di Scienze Statistiche
do
Denise Federico
Relatrice: Prof. Rossella Miglio
Corelatrice: Prof. Catherine Legrand
Post-baseline Prostate Specific Antigen level decline as prognostic factor in a phase III
prostate cancer trial - dicembre 2012
Obiettivo
Una delle attuali sfide dei ricercatori clinici è l’interpretazione del valore del PSA al fine di migliorare il più possibile l’accuratezza nella diagnosi
del tumore alla pr ostata. L’obiettivo principale
di questa analisi è quello di determinare se uno
specifico marcatore, la per centuale di decr escita dell’Antigene Pr ostatico Specifico postbasale (PB-PSA), abbia un ef fetto prognostico
e quali sono le soglie ottimali sull’endpoint pri mario, ovvero la sopravvivenza dei pazienti con
carcinoma della prostata resistente alla castrazione con metastasi ossee (mCRPC ) trattati
con due diversi trattamenti.
Metodo
I dataset utilizzati per le analisi pr ovengono dallo studio TROPIC, uno studio clinico
randomizzato di fase III composto da 755 pazienti mCRPC pr ovenienti da 146 centri
ospedalieri in 26 stati. I pazienti sono stati assegnati casualmente a uno dei due tratta menti: il Cabazitaxel (il nuovo farmaco) o il Mitoxantr one (il farmaco standard). Come è
evidenziato dal grafico, il nuovo farmaco migliora significativamente la sopravvivenza dei
pazienti mCRPC.
Ciascun livello percentuale di decrescita del PB-PSA è stato esaminato a passi del 5% partendo da una decr escita minima del 5% fino a un massimo del 90%
(5%,10%,….,85%,90%). Quindi il livello pr ognostico ottimale è stato identificato in ciascuno dei tre intervalli di tempo considerati: entr o i 2 mesi, entr o i 3 mesi ed entr o i 4
mesi dall’inizio del trattamento. A questo scopo è stato applicato il modello a rischi
proporzionali di Cox nella versione univariata e multivariata aggiungendo alcuni possibili
fattori confondenti.
Le analisi sono state realizzate tramite il software SAS versione 9.3. In particolare, sono
state fondamentali alcune procedure classiche dell’analisi della sopravvivenza contenute
nel modulo SAS/STAT: PROC LIFETEST e la PROC PHREG. La PROC LIFETEST ha
permesso la stima e il confronto delle curve di sopravvivenza tramite il metodo di Kaplan
Meier e il log-rank test. La PROC PHREG è stata utilizzata per la stima dei modelli di
regressione a rischi proporzionali di Cox interpretando i relativi hazard ratio (HR).
Benefici
Lo studio ha dimostrato che quando si vuole studiar e l’associazione del PSA con la
sopravvivenza è consigliato analizzare l’evoluzione delle misure nel tempo. Inoltre, è
stato possibile affermare che la decr escita del PB-PSA ha un effetto prognostico in
tutti e gli intervalli di tempo considerati. In particolar e, i livelli ottimali di decr escita del
PB-PSA per la sopravivenza dei pazienti sono oltr e il 15% a 2 mesi, oltr e il 30% a 3
mesi e oltre il 30% a 4 mesi dall’inizio del trattamento.
10
well
Università degli Studi di Milano - Bicocca
e
n
Dipartimento di Scienze Statistiche
do
e Metodi Quantitativi
Alice Corbella
Relatore: Prof. Vincenzo Bagnardi
Una meta-analisi sull’ effetto dell’aggiunta di chemioterapia ad un trattamento radioterapico
in pazienti affetti da carcinoma a cellule squamose della testa e del collo - giugno 2013
Obiettivo
Il carcinoma a cellule squamose della testa e del collo ha un incidenza del mondo di cir ca 500’000 casi annui, ma tuttora vi
sono pareri differenti riguardo alla terapia da utilizzar e per la cura di questo tipo di cancr o. Attualmente urge far e chiarezza
riguardo all’effetto che ha l’aggiungere un chemioterapico alla sola radioterapia sia in termini di ef ficacia (misurata dall’Hazard
Ratio, indice di confronto tra sopravvivenze) sia in termini di tossicità (misurata tramite l’OR che pone a confronto l’incidenza di
mucositi di grado III e IV).
La difficoltà principale che si affronta nella ricerca della profilassi migliore è l’alta eterogeneità che caratterizza gli studi che fino
ad ora hanno provato ad esaminare l’efficacia e la tossicità dei trattamenti. Tale variabilità all’interno della meta-analisi non può
essere spiegata solamente tramite l’utilizzo di un random effects model, ma ne va indagata la fonte in tutte le possibili variabili
per cui gli studi si differenziano.
Per ciascuno dei due outcomes è necessario ef fettuare un’analisi dei sottogruppi e la caratteristica della terapia più urgente
da chiarire è proprio il tipo ed il dosaggio di chemioterpico da utilizzar e: gli studi che utilizzano Carboplatino portano a risultati
omogenei mentre per gli studi che utilizzano Cisplatino è necessario svolgere una meta-regressione che descriva la relazione,
nel caso in cui esista, tra il dosaggio di cisplatino e l’Hazard Ratio.
Soluzione
Per effettuare le analisi è stata utilizzata la versione9.3 del
software SAS.
In particolare è stata utilizzata la procedura proc mixed per
effettuare il random effects model, il fixed effects model e
per definire e valutare i modelli della regressione pesata.
Tra i risultati della proc mixed è stato necessario alla valutazione del modello l’indice AIC che permette di confrontare modelli diversi e che non necessita di un’alta nume rosità per ottenere approssimazioni asintotiche.
Sono state inoltr e utilizzate le nuove potenzialità della
proc Gplot, in particolare le opzioni grafiche e l’opzione
bubble2 che ha permesso di rappresentare ciascuno studio che utilizza il Cisplatino come una bolla di ampiezza
proporzionale al peso che lo studio ha avuto all’inter no
della meta r egressione. È stato inoltr e possibile plottar e
le bande di confidenza: in questo modo è stato possibile
definire un valore soglia al di sopra o al di sotto del quale il Cisplatino risulta inefficace.
Risultati/Benefici
I risultati ottenuti a partir e da una quantità esimia di dati molto eter ogenei tra loro sono utili ad orientar e le ricerche
future: è stata confermato che, a pr escindere da tutte le variabili ulteriori, l’aggiunta di un chemioterapico comporta
vantaggi in termini di sopravvivenza ma non di efficacia.
Si è inoltre definito un modello che spiega i miglioramenti in termini di sopravvivenza in funzione del dosaggio di Cisplatino: è stato possibile definire che un dosaggio inferiore a 170 mg/m² è inefficacie. In questo modo si è fornita ai clinici
ed ai ricercatori una indicazione su dove indirizzare in futuro le energie.
11
Università degli studi di Milano - Bicocca
Luca Urzetta
[email protected]
Relatore: Prof. Piergiorgio Lovaglio
Modello di retention per una compagnia di assicurazioni - giugno 2012
L’ambito di applicazione del progetto è lo studio del comportamento dei clienti delle compagnie di assicurazioni in fase di rinnovo
del contratto. L’assicurazione sulla Responsabilità Civile Auto (RCA) è obbligatoria nel caso in cui si utilizzi un veicolo; in un periodo
di forte crisi economica le famiglie sono maggiormente orientate al risparmio e per le aziende è più difficile riuscire a trattenere i
clienti che, non potendo rinunciare all’RCA, sono incentivati ad un maggior confronto dei prezzi.
Obiettivo
L’obiettivo del lavoro è quello di stimar e la retention del portafoglio in scadenza al fine di individuare il miglior pr ezzo che
permetta di trattenere i clienti profittevoli. Il risultato verrà stratificato per livelli di Loss Ratio in modo da evitare azioni di retention verso i clienti più rischiosi. La Loss Ratio è il rapporto tra il costo dei sinistri e i premi incassati. Indica quanto i premi
sono in grado di pagare i sinistri; si tratta di un indice di rischiosità del cliente. Uno tra gli obiettivi principali delle compagnie
di assicurazioni è di mantenere un basso livello di Loss Ratio.
Soluzione
Per le analisi è stato utilizzato il software SAS 9.2. In particolare, per l’analisi esplorativa sono stati utilizzati metodi statistici univariati e bivariati. Per la ricerca del modello è stata utilizzata la procedura proc logistic stratificata per classi di Loss Ratio, utilizzando il metodo stepwise per la selezione delle covariate. Per la validazione è stata utilizzata la procedura di holdout validation.
Risultati/Benefici
Il risultato ottenuto è un modello stratificato per classi di Loss Ratio. La scelta di un modello stratificato permette l’individuazione
di una soglia di validazione adeguata alla Loss Ratio e in linea con le diverse strategie aziendali che prevedono comportamenti
diversi a seconda della rischiosità del cluster di clienti.
Nella tabella seguente vediamo che il target pr evisto è molto vicino al target osservato per Loss Ratio LOW e MEDIUM. Per
Loss Ratio HIGH si nota una sovrastima della r etention: il motivo è che per questo cluster si vuole minimizzar e il rischio di
trattenere clienti con un prezzo di polizza che non compensi il costo dei sinistri; il risultato è in linea con le strategie aziendali.
12
Università degli studi di Torino
Massimiliano Giraudo
Relatore: Prof. Roberto Leombruni
Correlatore: Dott.ssa Antonella Bena
La precarietà ha effetti negativi sulla salute?
Uno studio su una coorte di lavoratori dipendenti in Italia - marzo 2012
La flessibilità del lavoro è un fenomeno che sta aumentando in tutto il mondo. Dalla seconda metà degli anni ’90, in seguito all’applicazione del cosiddetto “pacchetto Treu” (legge n. 196/1997), che ha introdotto e regolamentato nuove forme di lavoro (come ad esempio
il lavoro interinale), e con la riforma Biagi (D. Lgs n. 276/2003), i cosiddetti “occupati atipici” hanno conosciuto una notevole diffusione.
L’ISTAT (2006) valuta che l’ammontare dei cosiddetti lavoratori “temporanei” è pari a circa 2 milioni 735 mila unità, ossia all’11,8% del
totale degli occupati. Una delle conseguenze negative prodotte dalla flessibilità è la precarietà.
La letteratura epidemiologica ha ampiamente dimostrato che l’insicurezza del lavoro e la flessibilità hanno effetti negativi sulla salute
(Làszlò, 2010; Joyce,2010; Quinlan, 2009; Virtanen M, 2005).
Obiettivo
L’obiettivo di questo studio è descrivere la frammentazione delle carriere in Italia attraverso un’analisi delle storie lavorative,
in particolare nei giovani, con l’obiettivo di individuar e i profili di carriera più fr equenti e analizzare il legame presente tra le
diverse tipologie di carriera e il rischio infortunistico
Soluzione
Un aspetto rilevante di questo lavoro è l’analisi delle storie lavorative tramite l’utilizzo della tecnica della “Cluster Analysis”. Una
delle caratteristiche fondamentali di questa tipologia di analisi, è che permette di esser e applicata in assenza di ipotesi di ricer ca;
non è cioè necessario avere in mente alcun modello interpretativo. A differenza di altre tecniche statistiche multivariate (come ad
esempio, l’analisi discriminante), non è necessario ipotizzare alcuna distribuzione “a priori” delle proprietà fondamentali che possono caratterizzare la popolazione oggetto di studio. Dopo aver individuato i profili di carriera più frequenti, è stato calcolato il rischio
infortunistico complessivo per ciascuna tipologia di carriera osservata.
È stato utilizzato il software SAS 9.2 per procedure di gestione e analisi del dato.
All’interno del modulo “Base” sono state utilizzate procedure di gestione dei database, composto da oltre una ventina di archivi, e
per i quali sono state applicate, tra le altre, numerose procedure di “merge” tramite “proc merge” e “proc sql”. Sempre all’interno
di questo modulo sono state sviluppate procedure per la creazione delle variabili che descrivono la carriera lavorativa individuale.
All’interno del modulo “STAT” sono state applicate le pr ocedure per l’analisi con il metodo dei Cluster; in particolar e, sono stati
applicati i 5 principali metodi di aggregazione gerarchici, è stato possibile valutare il numero adatto di partizioni, e infine è stato possibile confrontare le partizioni di un medesimo insieme di unità statistiche, per valutare in che misura tali classificazioni differiscono
tra loro. Le procedure utilizzate sono state: “proc cluster”, “proc tree”, “proc sgplot”, “proc princomp”.
L’analisi del rischio infortunistico è stata effettuata attraverso procedure di calcolo, e la procedura “summary”.
Risultati/Benefici
Attraverso la Cluster Analysis sono stati individuati 6 profili di carriera. Un
giovane su tre si colloca in un profilo di carriera “stabile”; oltre il 45% dei
lavoratori osservati può esser e inquadrato in un profilo di carriera pr ecaria. È stato dimostrato empiricamente che il fenomeno del precariato
colpisce fortemente chi si affaccia al mondo del lavoro.
L’analisi del rischio infortunistico indica che i giovani inquadrati come
lavoratori precari presentano tassi di rischio significativamente più alti
rispetto ai soggetti con profili di carriera “stabili”.
Inoltre sono stati comparati i tassi di rischio tra il primo e l’ultimo bien nio osservati, in ciascuna partizione. I risultati hanno dimostrato che nei
lavoratori “stabili” il rischio infortunistico diminuisce nel tempo; tale fenomeno non si verifica nei lavoratori con carriere frammentate. È possibile
ipotizzare che tale riduzione sia da attribuir e all’accumulo da parte dei
lavoratori stabili del cosiddetto “capitale umano”.
ANDAMENTO DEL RISCHIO
INFORTUNISTICO ALL’INTERNO
DEI PROFILI
12
10
8
1998-1999
2002-2003
6
4
2
0
Carriera stabile
1
- 39,7%***
Bassa intensità
lavorativa
2
- 50,1%
Usciti dal
mercato del
lavoro
3
+ 46.7%
Precarietà intensità
lavorativa bassa
4
- 48,6%*
Precarietà intensità
lavorativa media
5
- 44,5%**
Precarietà intensità
lavorativa alta
6
- 12,7%
Legenda: * p<0,.10; ** p<0,.05; *** p<0,01
13
Università degli studi di Padova
Licia Maron
[email protected]
Relatore: Prof.ssa Giovanna Boccuzzo
Una nuova proposta di indicatore composito definito sulla base di misure di distanza
- novembre 2012
Livello
Il lavoro si colloca nell’ambito degli Indicatori Compositi, tradizionalmente utilizzati
per misurare fenomeni sociali complessi a livello macr o (nazioni, istituzioni) e per
produrre graduatorie o assegnare punteggi ai soggetti coinvolti.
I vari aspetti unidimensionali che concorrono nello spiegare il fenomeno complessivo sono misurati tramite indicatori elementari (I) ; gli indicatori elementari sono
inclusi nelle dimensioni (D) che formano l’indicatore composito. La struttura dell’indicatore composito (IC) segue, quindi, una gerar chia che parte a livello superior e
dalla misura di sintesi complessiva, passando per le sue dimensioni, per arrivare al
livello inferiore degli indicatori elementari che compongono ogni dimensione.
IC
complessivo
Livello
dimensioni
Livello
indicatori
elementari
D1
I1
D2
I2
I3
I4
I5
Obiettivo
Proporre una nuova formulazione di Indicatore Composito per misurare fenomeni sociali complessi A LIVELLO INDIVIDUALE,
che consenta di considerare indicatori elementari su scale di misura diverse: dicotomiche, ordinali, quantitative. Questa problematica non si riscontra fr equentemente a livello macro, perché i dati sono considerati in forma aggr egata; a livello micro,
invece, si ha spesso a che fare con questionari e quindi variabili di diversa natura.
tenendo conto della correlazione tra indicatori elementari, per evitare problemi di double counting (e.g. due indicatori elementari fortemente correlati tra loro portano a contare due volte lo stesso effetto).
L’indicatore Composito è definito tra 0 e 1. Ogni indicatore elementare contribuisce all’IC sotto forma di distanza dal suo minimo (standardizzata tra 0 e 1).
Soluzione
La formulazione dell’Indicatore Composito prevede due livelli: al livello più basso, cioè quello degli indicatori elementari, si
considerano pesi che tengano conto della corr elazione tra indicatori elementari; a seconda del tipo di variabili coinvolte, si
usano coefficienti specifici per l’analisi della dipendenza. Al livello più alto, cioè quello delle dimensioni, si considerano pesi che
rappresentino l’importanza relativa attribuita alle dimensioni; questi pesi derivano da attribuzioni di valore espresse per ognuna
delle dimensioni da esperti o dalla popolazione di riferimento. La definizione di “distanza dal minimo” dipende dal tipo di variabile considerata. È stata avanzata la proposta di inserire nella formulazione generale un ulteriore peso, allo scopo di ridurre
l’influenza delle variabili dicotomiche nel valore complessivo dell’Indicatore Composito.
L‘indicatore composito proposto è stato applicato nella costruzione di un indicatore di qualità del lavor o. Le dimensioni che
definiscono la qualità del lavoro sono: economica, professionale, bilanciamento vita-lavoro.
È stato utilizzato per le analisi il software SAS 9.2.
Risultati/Benefici
L’indicatore di qualità del lavor o è stato applicato ai lavoratori laur eati
nell’università di Padova negli anni 2007-2008, a tre anni dalla laurea,
utilizzando i dati dell’indagine Agorà sulle carrier e dei laureati dell’Ateneo di Padova.
L’indicatore di qualità del lavor o si è rivelato uno strumento che of fre
molti spunti sia a livello descrittivo che manageriale. Stratificando l’indicatore complessivo per alcune caratteristiche degli individui o del luogo
di lavoro, emerge che le differenze di genere (a favore dei maschi) sono
evidenti soltanto all’inter no di ex-facoltà dell’ar ea socio-economica o
tecnico-scientifica; la qualità del lavor o è più alta per le laur ee a ciclo
unico rispetto a triennali e magistrali; il settore pubblico si differenzia da
quello privato soltanto per la dimensione di conciliazione vita-lavoro; un
altro fattore discriminante è la dimensione del luogo di lavoro.
INDICATORE QUALITÀ DEL LAVORO
Stabilità
Accuratezza
Capacità discriminante
Semplicità di formulazione
Struttura equilibrata
a livello complessivo
a livello delle dimensioni
14
Università degli studi di Milano Bicocca
Rita Marras - [email protected]
Relatore: Prof. Giorgio Vittadini
Correlatore: Dott.ssa Laura Loru
Metodi multivariati sugli esiti del monitoraggio dell’entomofauna dell’area cacuminale del
Gennargentu - novembre 2012
Un lavoro interdisciplinare
Questo lavoro prende spunto da un’indagine precedente, relativa a un monitoraggio dell’entomofauna nella fascia cacuminale del Gennargentu,
in cui ha svolto ruolo attivo l’ISE-CNR, con lo scopo di completarlo e caratterizzarlo più specificatamente dal punto di vista statistico, cercando di
rispondere in maniera chiara e puntuale agli interrogativi che nel precedente lavoro erano stati posti, eventualmente confermando le evidenze già
emerse. La problematica riscontrata in questo lavoro è stata conciliare le esigenze degli entomologi, i quali hanno interesse a provare le evidenze
a livello ecologico e dunque di specie, e quelle degli statistici, i quali hanno difficoltà a confermarle se le numerosità sono esigue o se vengono
estratti dalla popolazione sottocampioni in maniera arbitraria: le stime risulterebbero alquanto distorte.
Obiettivo
Valutare se vi è differenza tra i metodi di campionamento (fasce trappola o trappole a caduta) nel discriminare la presenza di
alcune specie rispetto ad altre.
Analisi similare per verificare se gli ontaneti si differenziano in maniera sostanziale (a prescindere dal tipo di trappola) da corileti,
ceraseti e noceti.
Ruolo dell’esposizione (solo per gli ontaneti) e della stagione (per corileti, ciliegeti e noceti) nella distribuzione delle specie: conferma o meno di alcune specie indicatrici determinate con il precedente lavoro.
Quali fattori tra esposizione, stagione, altitudine e numerosità degli individui influiscono sulla ricchezza in specie
Soluzione
Sono state effettuate due analisi statistiche con il SAS: MANOVA e ANALISI DISCIMINANTE CANONICA, elaborata attraverso
la PROC CANDISC, e l’analisi di REGRESSIONE LOGISTICA, elaborata con la PROC LOGISTIC. Andando più nello specifico,
per i primi tre punti di cui sopra (obiettivi) è stata utilizzata la prima analisi, mentre per l’ultimo punto è stata utilizzata la seconda.
Sono quindi stati elaborati numerosi output e diversi grafici per l’analisi discriminante con più di due livelli per fattore. Le analisi
di regressione logistica sono state integrate con quelle di correlazione lineare e regressione (per le variabili quantitative continue),
mentre per ciascuna di quelle discriminanti si è preventivamente proceduto al calcolo delle variabili descrittive stratificate e della
correlazione fra i taxa (variabile-risposta
Risultati/Benefici
Il fattore esposizione risulta discriminare la distribuzione dei taxa nel caso dell’utilizzo di trappole a caduta;
Sono state individuate alcune specie indicatrici (per quanto concer ne la stagione) in corileti, noceti e ciliegeti e negli
ontaneti (r elativamente
all’esposizione);
La correlazione tra numero totale di individui e ricchezza in specie è sempre significativa;
E’ stato possibile ottenere in alcuni casi modelli logistici adeguati con la variabile esplicativa stagione.
Una delle conclusioni più rilevanti è che le trappole a caduta danno modelli più af fidabili e deterministici rispetto alle fasce trappola un po’ per tutti
gli habitat, ma solo per le fasce trappola è possibile risalir e direttamente alle specie; se l’intento è quello descrittivo per una mera classificazione
tassonomica conviene servirsi della prima metodologia di campionamento, mentr e se si vogliono creare modelli statistico-inferenziali con un buon
fitting e con diversi fattori, la seconda metodologia è quella più adatta (nonostante il numero di individui catturato sia simile).
ANALISI DI REGRESSIONE LOGISTICA PER
GLI ONTANETI, FASCE TRAPPOLA
ANALISI DISCRIMINANTE GENERALE PER GLI ONTANETI, TRAPPOLE A CADUTA:
Informazioni sul livello di classificazione
Nome
Esposizione variabile Frequenza
Peso
Proporzione
1
Sud-ovest
28
28.00
0.47
2
Nord-est
32
32.00
0.53
Statistiche multivariate e statistiche F esatte
S=1 M=1.5 N=26
Statistica
Valore
Val.F Num DF Den DF Pr > F
Lambda di Wilks
0.32 23.19
5
54
<.0001
Trace di Pillai
0.68
23.19
5
54
<.0001
Trace di Hotelling-Lawley 2.15 23.19
5
54
<.0001
Radice maggiore di Roy
2.15
23.19
5
54
<.0001
Correlazione
Errore
Correlazione
canonica
standard
canonica
corretta
approssimato
quadratica
0.82
0.04
0.68
Autovalori di Inv(E)*H = CanRsq/(1-CanRsq)
Autovalore Differenza
Proporzione
Cumulata
1
2.15
1.00
1.00
Test di H0: Le correlazioni canoniche nella riga corrente e in tutte le successive sono uguali a zero
Rapporto di
Valore F
verosimiglianza approssimato Num DF Den DF Pr > F
1
0.32
23.19
5
54
<.0001
Correlazione
canonica
1
0.83
C
an2
5
ANALISI DISCRIMINANTE (VARIABILE STAGIONE) PER CORILETI, CILIEGETI E NOCETI
4
3
2
1
0
-1
-2
-3
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
C
an1
S
tagi one
P
E
A
I
4
5
6
Profilo di risposta
Valore
Frequenza
ordinato
N__taxa
totale
1
0
86
2
1
15
La probabilità del modello è N__taxa=0.
Stato di convergenza del modello. Criterio di convergenza (GCONV=1E )soddisfatto.
Statistiche di adattamento del modello
Criterio Solo intercetta
Intercetta e covariate
AIC
86.86
82.79
SC
89.48
93.25
-2 LOG L
84.86
74.79
Test dell'ipotesi globale nulla: BETA=0
Test
Chi-quadrato
DF Pr > ChiQuadr
Rapp. verosim.
2.11
1
0.15
Score
2.08
1
0.15
Wald
2.00
1
0.16
7
Analisi delle stime di massima verosimiglianza
Errore
Wald
Parametro
DF
Stima standard Chi-quadrato Pr > ChiQuadr
Intercept
1
2.33
0.68
11.83
0.00
Esposizione 1
0.80
0.63
1.63
0.20
Stagione
1
-0.23
0.64
0.13
0.72
N_individui
1
-0.06
0.02
6.84
0.01
Stime dei rapporti di quote
Stima
95% Limiti di confidenza
Effetto
puntuale
di Wald
Esposizione
2.24
0.65
7.69
Stagione
0.79
0.23
2.79
N__individui
0.94
0.90
0.98
15
Università degli studi di Milano Bicocca - Facoltà di Scienze Statistiche
Maria Beatrice Simonazzi
Relatore: Prof. Mario Mezzanzanica
Correlatore: Dott.ssa Roberto Boselli
La Riforma Fornero: un’analisi attraverso i dati dei social media
- febbraio 2013
Metodologia ed Obiettivi
L’impatto che i Social Network hanno nella vita di ogni individuo, oggigiorno, è sempre più argomento di discussione e di
studio. Il presente lavoro si propone di analizzare i dati (tweet)
del social media Twitter, piattaforma detentrice della più nota
forma di microblogging attualmente in uso.
L’obiettivo primario è lo studio di tecniche di analisi testua le mediante lo strumento del Text Mining, al fine di ottenere
contenuti strutturati a partire da testi non strutturati e con lo
scopo di estrarr e nuova e valida conoscenza dispersa nei
documenti. Il secondo obiettivo che ci si pone è, invece, lo
studio di strumenti per descrivere l’opinione degli utenti mediante il modus operandi tipico della Sentiment Analysis, che
si focalizza sulla soggettività ed effettiva opinione degli users.
In particolar modo, di un dato testuale contente un’opinione, si desidera analizzare la polarità dei tweet.
L’ iter seguito è suddiviso in tre fasi sostanziali:
Clustering ed analisi users sulla Riforma Mercato del Lavoro con storico 22 Novembre – 6 Dicembre 2012;
Costruzione Tassonomia gerarchica e studio Sentiment;
Analisi forze politiche nel dopo Monti con clustering dei partiti candidati nello storico 8 – 22 Gennaio 2013.
Soluzione
Gli strumenti adottati per effettuare le analisi sono stati SAS Enterprise Miner e SAS Sentiment Analysis. In merito allo studio
Sentiment, è stata adottata una categorizzazione Rule Based Model, preposta ad indicare l’appartenenza di un documento
alla sottocategoria connessa; dopo di ciò SAS riconosce i documenti positivi, negativi e neutrali. E’ stata altresì attuata un’analisi prettamente semantica, volta alla modifica delle Intermediate Entities, intese come sostantivi, avverbi, verbi ed aggettivi,
in modo tale da ottenere una restituzione, il più possibile veritiera, dei tweet positivi, negativi e neutrali. Un’ulteriore tipologia
di studio è stata infine attuata con SAS Enterprise Miner, ovvero si propone una clusterizzazione mediante le espressioni di
ricerca ed i visualizzatori interattivi di filtro più attinenti al tema Riforma del Mercato del Lavoro.
Conclusione
I risultati permettono di concluder e che il Text Mining ha consentito di ef fettuare l’analisi di dati testuali per estrarr e conoscenza dispersa nei documenti di testo e per dedurre informazioni da dati non strutturati. Mediante la creazione di cluster si
è giunti all’individuazione dei temi più discussi sulla Riforma del Mer cato del Lavoro, quali il precariato, la disoccupazione e
gli ammortizzatori sociali.
La Sentiment Analysis ha, poi, permesso di esprimere l’opinione degli utenti e di catalogare la Riforma Fornero come negativa per il 72%, seguita dal 27% di posts positivi e da un 1% di tweet neutrali.
Infine, l’analisi dei partiti candidati alle elezioni politiche del 24 e 25 Febbraio 2013, ha individuato i punti da cambiare in merito alla riforma, oltre alle principali tematiche argomento di discussione quali disoccupazione e precariato.
16
Università La Sapienza
Manuela Melchionno
[email protected]
Il modello di regressione quantile. Analisi dei sinistri RCA in Italia - ottobre 2012
La Responsabilità Civile Autoveicoli è un complesso di norme e procedure collegate all’esistenza di una polizza assicurativa obbligatoria
per veicoli a motore in circolazione nel territorio italiano, al fine di risarcire eventuali danni cagionati a terzi.
Obiettivo
L’obiettivo di quest’analisi è vedere come il modello di regressione quantile si adatta meglio al campione di dati considerato,
rispetto a quello di regressione lineare classica. Si è cercato di spiegare prima l’indice di sinistrosità in funzione dell’età e del
genere degli assicurati, poi il premio puro, cioè quel premio che copre il rischio assunto dalla compagnia assicuratrice al
netto dei caricamenti, in funzione dell’età e del genere degli assicurati. Inizialmente, le stime dei coefficienti delle covariate,
ottenute con il modello di regressione lineare classica sono state confrontate con quelle ottenute con il modello di regressione quantile al livello 0.5 (mediana). In seguito, sono state calcolate le stime delle covariate con il modello di regressione
quantile per tutti i livelli dei quantili.
Soluzione
Il software usato è SAS 9.2, tramite il pacchetto SAS/STAT. In primo luogo, sono stati stimati i coefficienti delle covariate
per spiegare l’indice di sinistrosità prima e il premio puro poi, con il modello di regressione lineare classica mediante la
PROC REG. Queste stime sono state confr ontate con quelle calcolate con il modello di r egressione quantile al livello
della mediana. Infine, sono stati stimati i coefficienti dell’età e del gener e, per spiegare l’indice di sinistrosità prima e il
premio puro poi, per l’intero processo quantile. La procedura utilizzata è la PROC QUANTREG.
Risultati/Benefici
Dal confronto con i due modelli di r egressione, lineare classica e quantile, si è notato che quest’ultimo modellizza
oltre il corpo centrale della distribuzione, anche le code, a dif ferenza della r egressione lineare classica. Inoltr e, la
regressione quantile ha mostrato un miglior adattamento ai dati: ogni quantile identifica un gruppo ben definito di
assicurati, distinti per età e genere. Livelli dei quantili bassi identificano gli assicurati di età avanzata, mentre, livelli dei
quantili alti identificano i giovani assicurati. Dalle figure si nota che l’indice di sinistr osità, così come il pr emio puro,
risulta maggiore per i giovani e minore per gli assicurati di età avanzata, con la prevalenza degli uomini sulle donne. In
generale, la stima dei valori ottenuti utilizzando il modello di regressione quantile risulta più robusta di quella ottenuta
con il modello di regressione lineare classica.
17
Università La Sapienza
- Dipartimento di Scienze Statistiche
Gian Roberto Tognetti
[email protected]
Relatore: Prof.ssa Luisa Beghin
Modello di regressione logistica multipla applicato per l’indagine del fenomeno Serial
Killer in Italia - febbraio 2012
Il modello di regressione logistica, ha lo scopo di descrivere la relazione tra una variabile dipendente dicotomica e un insieme di regressori. La variabile dipendente nel nostro caso individua l’essere o non essere un Serial Killer.
Obiettivo
• Fornire un nuovo supporto decisionale in ambito investigativo scientifico-criminologico in condizioni d’incertezza.
•Comprendere quali siano le variabili che caratterizzano maggiormente il profilo del Serial Killer mettendo in risalto
quanto singolarmente incidono nel verificarsi dell’evento “essere Serial Killer ”.
• Calcolare la probabilità dell’evento “essere un Serial Killer “ una volta selezionate le variabili indipendenti risultate
significative nell’analisi di regressione logistica multipla effettuata.
Soluzione
1) ANALISI PRELIMINARE sono state calcolate le principali tabelle di contingenza (2 x 2) relative alle possibili coppie
di variabili che risultano significative rispetto al test CHI-QUADRATO.
2) ANALISI DI 3 DIVERSI MODELLI LOGISTICI tramite procedura PROC LOGISTIC.
3) STIMA DEGLI ODDS RATIO PER CIASCUNO DEI 3 MODELLI con rispettivo commento dei risultati.
4) ANALISI DELL’ ASSOCIAZIONE DI PROBABILITÀ PREVISTE E RISPOSTE OSSERVATE calcolate in ciascuno dei 3
modelli. Un’ alta “percentuale concordante” indica una buona adattabilità del modello e nel nostro caso si evince che la
percentuale più alta è raggiunta nel 1° Modello Logistico.
5) CONFRONTO DEI MODELLI LOGISTICI tramite le statistiche AIC e SC utili per confrontare modelli diversi (valori bassi
identificano il modello migliore).
Risultati/Benefici
Dall’analisi svolta abbiamo ricavato che:
l’asocialità, essere di sesso maschile, aver e parenti stretti affetti da problemi psichici, essere stati in orfanotrofio e/o
collegio, il non avere conseguito il diploma di maturità, aver subito abusi sessuali nell’infanzia e/o adolescenza, aver
perso un familiare stretto prima dei 19 anni, sono caratteristiche che influiscono significativamente nell’innalzare la
probabilità di divenire un Serial Killer;
gravi disagi vissuti nell’infanzia hanno il potere di creare i presupposti di condotta criminale-seriale nell’adulto;
tramite il modello, si può calcolare la probabilità di essere un Serial Killer, quindi, nel caso ci siano più sospettati, può
essere usato come ulteriore supporto decisionale nelle scelte che devono essere intraprese dal Criminologo.
18
Università degli Studi di Milano - Bicocca
Sara Di Stasio
[email protected]
Relatore: Prof.ssa Simona Caterina Minotti
Modello di rating per la stima della probabilità di default ad un anno della clientela bancaria
- settembre 2012
Il contesto in cui si colloca il progetto è la valutazione del merito creditizio della clientela bancaria, attraverso lo sviluppo di un sistema
di rating interno (IRB) base per la misurazione del rischio di credito, coerentemente con quanto previsto dalle Istruzioni di Vigilanza della
Banca d’Italia.
Obiettivo
L’obiettivo del lavoro è sviluppare una metodologia statistica per la stima della probabilità di default ad un anno, a livello di
controparte, sulla clientela esclusiva del segmento di portafoglio Small Business di UniCredit Leasing S.p.A. In particolare,
lo strumento adottato è il modello logistico multivariato, stimato sul campione di tutti color o che hanno richiesto un finanziamento nel periodo compreso tra l’ 1/1/2008 ed il 31/12/2009.
Soluzione
Per effettuare le analisi statistiche, sia a livello univariato che multivariato, è stato utilizzato unicamente il software SAS
versione 9.1.3.
In fase preliminare, SAS è stato adoperato per la gestione e pulizia del dato, per creare variabili e calcolare indici, quindi
nelle analisi descrittive.
Successivamente, sono stati testati modelli di regressione logistica, sia a livello univariato che multivariato, al fine di selezionare le variabili da inserire nel modello definitivo per spiegare al meglio la probabilità di default.
Il confronto tra modelli è stato realizzato osservando gli output SAS
(significatività delle variabili, indici di performance, la capacità
discriminante del modello, distribuzione e concentrazione dello score).
Le procedure SAS, inoltre, sono state fondamentali nello sviluppo delle
seguenti tecniche :
- la “discretizzazione delle variabili continue in variabili dummy” , che
consiste nella suddivisione delle distribuzioni continue in intervalli, per
ciascuno dei quali è stata costruita una dummy;
- la tecnica di “Par celling”, finalizzata all’inserimento nel campione di
stima delle controparti rifiutate in fase di erogazione del finanziamento, affinché il modello costruito sia utilizzabile correttamente non solo sulla clientela ma anche sui potenziali clienti.
Risultati/Benefici
È stato realizzato un modello logistico multivariato con 18 r egressori della tipologia dummy, caratterizzato da buona
performance ed in grado di stimare correttamente la probabilità di default ad un anno, non solo sulla clientela bancaria,
ma anche sui potenziali clienti.
Il modello è utilizzato in fase di erogazione di un finanziamento, al fine di decidere l’accettazione od il rifiuto di un
potenziale cliente, ed è un tassello fondamentale del complesso sistema di rating IRB Base utilizzato da UniCr edit
Leasing S.p.A al fine di valutare l’affidabilità della clientela.
19
Università La Sapienza
- Dipartimento di Scienze Statistiche
Claudia Proia
[email protected]
Relatore: Prof.Agostino Di Ciaccio
Sentiment Analysis su Twitter - marzo 2013
Negli ultimi anni Internet ha modificato radicalmente il modo di rapportarsi con l’informazione e la politica. La recente nascita dei Social
Network ha dato una spinta propulsiva alla comunicazione e modificato i metodi di indagine e valutazione tradizionali. Per poter sfruttare
appieno questa grande fonte di opinioni e rispondere velocemente a questi input si sono sviluppati, negli ultimi anni, strumenti automatici
di monitoraggio, come la Sentiment Analysis, capaci di filtrare, ordinare, analizzare e classificare grandi volumi di dati testuali provenienti
da Social Network e blog. La differenza sostanziale con i metodi convenzionali sta proprio nelle informazioni di cui si dispone: esternazioni
spontanee e aggiornabili in tempo reale.
Obiettivo
Il fenomeno Beppe Grillo è un esempio di come e quanto Inter
net sia diventato sempre più uno strumento indispensabile per
la creazione del consenso e la costruzione di comunicazione dal basso o di come il marketing virale stia pr endendo piede
nella rete. Per analizzare questo fenomeno si è scelto di andare ad osservare quello che gli internauti dicono sul suo conto su
Twitter. L’obiettivo di questo lavoro è quello di creare un modello capace di classificare un qualsiasi insieme di tweet riguardante il fenomeno Beppe Grillo in tre classi definite da polarità positiva, negativa, neutrale, rispetto all’argomento di interesse.
Soluzione
Per le analisi statistiche si è utilizzato il software SAS 9.3 e il modulo SAS Sentiment Analysis. I dati di cui si dispone sono i
tweet che hanno per argomento Beppe Grillo, estratti dal Social Network Twitter attraverso il programma Archivist, e collezionati per diversi giorni. Una parte di questi tweet estratti è stata utilizzata come training set del modello. Questi tweet sono
stati classificati manualmente in positivi(1), negativi(-1), e neutrali(0) e poi sottoposti alla Sentiment Analysis, un metodo automatico basato su un sistema di Elaborazione del Linguaggio Naturale (NPL), un processo di trattamento delle informazioni
scritte, capace di interpretare anche modi di dir e e in grado di classificare opinioni e sentimenti. Sono state eseguite una
serie di operazioni sul testo riguardanti l’eliminazione di alcune parole di disturbo, l’individuazione di una serie di termini con
significato negativo, positivo o neutrale, la creazione di regole lessicali rispetto alle quali una frase può considerarsi positiva,
negativa o neutrale. E’ stato cr eato quindi il modello di classificazione in modo tale che ogni nuovo documento di testo
venga assegnato ad una delle tre categorie definite in termini di polarità negativa positiva o neutra.
Risultati/Benefici
Il grafico riporta la percentuale di tweet positivi e negativi che i
tre modelli riescono a coglier e rispettivamente sull’insieme dei
tweet classificati positivi e sull’insieme dei tweet classificati negativi (nell’insieme di training). Si nota che fra tutti il modello sta
tistico da solo è quello che riesce a classificare meglio i tweet.
Statistical model
96,76% 92,38%
87,20%
Rule Based model
99,29% 93,32% 94,74%
Il secondo grafico riporta l’andamento dei giudizi positivi dei
tweet allo scorrere dei giorni, per i tre modelli. Si può osservare
che il sentiment positivo medio è pari al 32,52% e che il campo di variazione dei valori non si discosta molto dalla media,
con un picco in coincidenza al 9 Novembre.
Hybrid model
Sentiment positivo medio
50%
45%
40%
35%
30%
25%
20%
% di tweet ben classificati
sull'insieme dei positivi
% di tweet ben classificati
sull'insieme dei negativi
20
Università La Sapienza
- Dipartimento di Scienze Statistiche
Michela Marchetti
[email protected]
Relatore: Prof.Agostino Di Ciaccio
Gli algoritmi genetici per la selezione delle variabili - marzo 2013
La selezione delle variabili in un modello regressivo, quando sono presenti un gran numero di variabili esplicative, è un problema molto complesso. Al tempo stesso è importante affrontarlo per poter analizzare efficacemente i dati in esame.
Gli algoritmi genetici (indicati br evemente con AG) sono una famiglia di algoritmi di ricer ca locale la cui funzione è quella di cer care soluzioni
ottimali ai problemi, mediante l’applicazione dei principi della selezione naturale e dell’evoluzione.
Uno dei punti di forza di tali algoritmi, è la capacità di auto-modificazione in base al mutamento del problema; inoltre, anche se non garantiscono di trovare sempre una soluzione ottima per un problema, generalmente ottengono una soluzione buona e in tempi sufficientemente rapidi.
Obiettivo
Utilizzando gli AG si vogliono selezionare le variabili per identificare il “vero” modello.
Come funzione obiettivo dei diversi modelli, utilizziamo il criterio BIC (Bayesian Information Criterion). Questo ci permette di considerare un compromesso tra la performance del modello e il numero di variabili indipendenti che vengono selezionate. Il modello migliore sarà ovviamente quello che minimizzerà il valore del BIC.
Per avere un termine di paragone, confronteremo gli AG con la selezione stepwise.
Soluzione
Per testare le prestazioni degli algoritmi genetici e per tr ovare la soluzione al pr oblema con il metodo di selezione
stepwise è stato utilizzato il softwar e SAS/IML Studio 3.4. Per entrambi i metodi abbiamo fissato diverse ampiezze
campionarie e posto il numero di iterazioni pari a 100. Inoltre, per gli AG sono state effettuate diverse prove per determinare i valori dei parametri, presenti nel programma fornito dal software IML per l’implementazione degli stessi
(algoritmi genetici), con il fine di trovare la combinazione che fornisse la soluzione migliore.
Risultati/Benefici
Le prove effettuate sono state valutate con l’utilizzo di un indice
di Accuratezza (RT, il quale varia tra 0 e 1), che rappr esenta la
capacità di identificazione del “vero” modello. In questo caso, si
è considerato il valore medio di RT ottenuto nelle 100 iterazioni.
Tali risultati si hanno, ovviamente, a fr onte di un maggior
tempo di calcolo impiegato dagli AG (dai quasi 85 secondi
con una numerosità campionaria pari a 100, fino a circa 8
minuti con un campione di 500 unità), contro i 5-6 secondi utilizzati dal software per la stepwise.
0,99
0,98
0,97
RT
Il risultato è che la soluzione più performante ottenuta con
gli AG (al variar e dei lor o parametri), è miglior e di quella
conseguita con la stepwise, proprio ciò che si ipotizzava.
Inoltre, come si può osservare dal grafico, questo vale per
ogni numerosità campionaria esaminata.
Accuratezza (RT)
AG
0,96
Stepw ise
0,95
0,94
0,93
100
200
500
Num erosità cam pionaria
Infine, possiamo constatare che la differenza tra gli AG e la stepwise è pressoché costante al variare dell’ampiezza
campionaria.
21
University of Bologna
Maria Mastrangelo
[email protected]
Relatore: Prof.Furio Camillo
Data mining models for long term churn rates investigation. Marketing and targeting effect
separation. A focus on the mobile telecommunications industry - marzo 2013
The world we live in today has pressured marketing departments into narrowing the size of reachable consumer targets. Indeed, since customers are literally
overwhelmed by the amount of advertising they face in their daily outines,
r
marketers’ efforts are more and more focused on advertising “customisation”. Thus,
mass marketing campaigns have lost ef ficacy and appeal, while direct marketing is in development. The objective of this final dissertation is to demonstrate
why direct marketing campaigns cannot be evaluated in the same way as traditional mass marketing activities fr om a statistical perspective. A special focus
is provided on the mobile telecommunications industry, characterised by maturity, demand saturation and strong competition; in such environments, margins
tend to become increasingly narrow, so that it is advisable for companies to strengthen the relationship with existing customers, as it is believed that retaining
existing customers is less costly than acquiring new ones. Chur ners are defined as subscribers that are still customers, but they are willing to soon interrupt
the contractual relationship with their network provider. Thus, the main aim of direct marketing actions is to prevent churners from abandoning a company. The
activities involved in the development of a direct marketing campaign are defined as “marketing execution effect” (Breur, 2007).
separation of direct marketing campaigns and data mining
Objective: overlapping influence on
As a matter of fact, not every subscriber deserves this special type of treatment, but only the most valuable ones and, among them, it is
fundamental to correctly select those that are willing to churn: evidence shows that misclassifying churners is more costly for companies
than misclassifying non-churners. Churn analysis aims at acknowledging probable churners thanks to the use of firms’ databases. In this
way, companies are provided with very targeted categories that are the most likely to positively react to a marketing stimulus. The activities
concerned with segmentation and targeting are termed as “targeting effect” (Breur, 2007).
When the direct marketing campaign is terminated, its return on investment has to be evaluated, in order to spread organisational learning.
However, at this stage of the analysis, an important bias becomes apparent because both the marketing execution and the targeting effect have an overlapping influence on the outcome. It is true that, without carrying out proper segmentation and targeting steps, the direct
marketing campaign would never achieve the expected outcomes. Nevertheless, companies must r ealise as well that, after introducing
bias in the selection process, the reaction after the campaign of treated and non-treated customers cannot be compared because those
who are treated, and those who are not, do not share similar characteristics.
Solution
Ideally, the best process to implement is randomisation. This is the only approach that grants that individuals are grouped in different
categories experiencing different treatments by chance. However, this method is not always feasible and it is often not supported by
ethical judgments. Moreover, building a randomised experiment would be costly and would cause extensive delays before answers
can be provided.
In truth, analysts have to handle data that have been collected befor e the direct marketing evaluation intention, thus for other admini strative reasons. This type of data is defined observational. In this situation a possible way to correctly assess a cause-effect relationship
between a marketing treatment and the outcome, is by estimating a balancing score from observed data. The propensity score is the coarsest balancing score and while its value is always known in randomised experiments, it has to be necessarily estimated in observational
studies. If the propensity score is acknowledged, researchers can easily identify the assignment to treatment mechanism, so that causal
inference can be acquired. This is the exercise provided in this thesis, due to the nature of the available data.
There are various methodologies that can be employed to compute the pr opensity score. The utilised approach is a stepwise algorithm
suggested by Dehejia and W ahba (2002). Several SAS pr ocedures are run to prepare the data set to the analysis; among others, the
CORRESP, the DISCRIM, the UNIVARIATE, and the ANOVA.
Results
When treated and non-treated customers exhibit similar levels of propensity score, they can be inserted in different bins accordingly with these values. Inside each bin, tr eated and non- tr eated customers’ reaction after the campaign can be finally compared because selection bias has been successfully removed.
In order to achieve this objective, survival analysis has been implemented by running PROC LIFETEST.
This procedure grants a graphical representation of the survival probabilities of both treated and nontreated customers within each bin. In this real example, these curves tend to overlap inside each and
every bin under investigation, meaning that the dir ect marketing campaign had a positive impact on
treated, by moving their curve up to the same height and slope of the curve depicting non-treated.
22
Università degli Studi Mediterranea
Andrea Lamanna
[email protected]
Relatore: Prof. Domenico Ursino
Realizzazione di un Sistema Informativo Integrato di Supporto alle Decisioni in tecnologia
SAS per l’Agricoltura della Regione Sardegna (SISDA) - maggio 2012
Motore fondamentale di un’economia globalizzata, al giorno d’oggi, è la competitività. Per un ente, come le Pubbliche Amministrazioni, l’attenzione
deve essere, quindi, costantemente rivolta a ricer care processi, metodi e soluzioni che contr ollino la variabilità ed eliminino l’incertezza, al fine di
incrementare la capacità di reagire ai cambiamenti esterni in uno scenario inevitabilmente caratterizzato dalla competizione globale.
In questo contesto si colloca tale progetto sviluppato in tecnologia SAS, strumento utile ad aiutare l’azienda a vincere le sfide emergenti del business
e ad offrire funzionalità che permettono di gestire e processare moli di dati virtualmente illimitate spingendo ancora più in profondità i livelli di analisi.
Obiettivo
Il progetto SISDA è finalizzato all’elaborazione ed alla diffusione on-line delle informazioni di sintesi
sull’attuazione della politica agricola regionale per il monitoraggio e il supporto alla valutazione del
Programma di Sviluppo Rurale della Regione Sardegna.
L’obiettivo generale è di soddisfare la necessità della Direzione Agricoltura di dotarsi di uno strumento di raccolta, codifica e produzione di dati statistici e di monitoraggio in campo agricolo
e zootecnico, il tutto in un unico cruscotto di monitoraggio a livello r egionale che superi le
incongruenze derivanti da fonti dati eterogenee. Questo conterrà l’intera gamma di indicatori, rilevanti in ambito decisionale, desumibili dall’integrazione delle fonti statistiche e amministrative nel Data Warehouse di progetto.
Soluzione
Si costruisce il Data Warehouse adottando un approccio bottom-up di tipo incrementale che
assembla iterativamente più Data Mart ciascuno incentrato su specifiche esigenze.
Attraverso l’utilizzo del modulo SAS/Base è stata condotta un’analisi delle fonti informative
di partenza con lo scopo di avere una visione preliminare omogenea di supporto al processo
di ETL. Con SAS Data Integration Studio 4.2 sono stati costruiti interattivamente processi di
ETL con i quali si è in grado di gestire i consistenti volumi di dati rendendoli affidabili e fruibili,
procedendo con la sostituzione di operazioni manuali per lo sviluppo e la manutenzione con
attività operative automatizzate ed assistite.
Per lo sviluppo dei Data Mart di progetto si è utilizzato il SAS OLAP Server e con il software SAS Olap Cube Studio 4.2
per la realizzazione e il mantenimento dei Cubi OLAP , è stato possibile cr eare, modificare e gestire dimensioni, livelli,
gerarchie e misure durante la fase di creazione o modifica dei cubi. Il dato viene interrogato tramite il linguaggio MDX e
con l’apporto di SAS Information Map4.2 è stata sviluppata una solida base dalla quale, con il SAS Report Studio4.2,
effettuare query e reporting sia web che client-server.
Risultati/Benefici
Il risultato è un’infrastruttura flessibile affidabile e rapida per rispondere alle esigenze
di business della Regione Sardegna. La logica SAS su cui si basa la reportistica è
capace di fornire report di supporto al processo decisionale e che rispecchiano le
richieste provenienti dagli uffici competenti.
Le soluzioni analitiche automatizzate a servizio della Business Intelligence (BI) r endono efficace la logica progettuale di SAS adottata
nella realizzazione del SISDA e utilizzabile in molti altri progetti per la BI.
Il progetto sviluppato come processo iterativo ed incrementale includerà facilmente su di una base solida nuovi domini
di informazione rispecchiando la proiezione di SAS verso i ‘Big Analytics’.
23
Università degli Studi di Milano Bicocca
Biostatistica e Statistica Sperimentale
Chiara Pagliuca
Relatore: Prof. Giorgio Vittadini, Prof.ssa Antonella Zambon
Correlatore: Dott.sa Laura Angelici
Metodi per la valutazione degli effetti dell’esposizione a polveri sottili sulla coagulazione
attraverso modificazioni epigenetiche - marzo 2013
Negli ultimi vent’anni numerosi studi epidemiologici hanno mostrato come l’esposizione a polveri sottili (PM) e alle sue componenti metalliche,
frequentemente presenti nelle aree metropolitane dell’Europa e degli Stati Uniti, possano produrre effetti dannosi a breve termine e contribuire
allo sviluppo di nuove patologie.
Obiettivo
L’obiettivo dello studio è valutare gli effetti dell’esposizione occupazionale
a polveri sottili e identificare i meccanismi biologici che mediano e deter minano il rischio di eventi cardiovascolari associati agli inquinanti dell’aria.
Il lavoro è stato svolto sviluppando tre diversi approcci:
1. Verificare se l’esposizione ad alte concentrazioni di PM e alle sue componenti metalliche può comportare dei cambiamenti nei livelli di espressione del gruppo enzimatico delle metil-tranferasi DNMT’s
2. Verificare se esiste un associazione tra la modificazione dell’espressione
genica enzimatica e la metilazione del DNA
3. Verificare se esiste un associazione tra variazioni della metilazione del
DNA e l’alterazione nel processo di coagulazione potenzialmente in grado
di aumentare il rischio cardiovascolare
Soluzione
Per effettuare tutte le analisi descritte è stato utilizzato il softwar e SAS. In particolare sono state utilizzate la PROC REG
e la PROC MIXED. Per implementare i numerosi modelli prima descritti si è scelto di procedere con l’utilizzo di MACRO.
Sono state create principalmente tre macro corrispondenti ai tre obiettivi dello studio. Le tre macro hanno gli stessi obiettivi: calcolare le stime, gli intervalli di confidenza e i rispettivi p-value delle regressioni lineari multiple e dei modelli a effetti
misti per ottenere un output in formato excel.
È stato scelto di procedere con l’utilizzo delle macro per l’elevata numerosità delle variabili e quindi anche dei modelli da
implementare e rendere automatica ed efficiente l’implementazione dei modelli utilizzati.
Risultati/Benefici
Dalle analisi effettuate possiamo concludere che:
•Per diversi metalli, tra cui l’arsenico, è stata ipotizzata un’azione
cancerogena che potrebbe alterare l’equilibrio dei gruppi metili
•RASSF1A è un gene oncosoppressore la cui inattivazione (quindi una
sua ipermetilazione) è implicata nello sviluppo di più di 40 tipi di tumor
e
•I geni IL-6 e RASSF1A modificano significativamente i parametri
di coagulazione ipotizzando un potenziale aumento del rischio di
patologie cardiovascolari
24
Università degli Studi di Milano Bicocca
Chiara Carsana
Valutazione di efficacia di un intervento farmacologico in sanità pubblica : trattamento con
clopidrogrel nell’infarto miocardico acuto - febbraio 2013
Le malattie cardiovascolari sono uno dei principali motivi di morte in Italia. Per questo motivo la egione
r
Lombardia nel 2007 ha promosso il piano
cardiocerebrovascolare, il cui obiettivo è quello di modificare gli stili di vita a rischio in modo di prevenire le malattie Cardiocerebrovascolari, e
migliorare la loro cura e riabilitazione. Il presente lavoro è uno dei progetti approvati all’interno del piano terapeutico lombardo.
Obiettivo
L’obiettivo dello studio è stato quello di valutar e i benefici apportati da una nuova modalità di erogazione del farmaco Clopidogrel nei pazienti sottoposti ad un impianto di stent medicato. Nella pratica usuale il farmaco viene prescritto dal medico
di medicina generale e acquistato dal paziente stesso. La nuova modalità di er ogazione prevede invece che esso venga
dispensato dalla stessa unità cardiologica in cui è stato effettuato l’intervento sia per tutta la durata della terapia antiaggr egante. In questo modo si avrà un maggior controllo sia sull’aderenza al farmaco, sia sulla situazione clinica del paziente: ci si
attende quindi una diminuzione di eventi avversi nel periodo post-operatorio.
Soluzione
E’ stata effettuata una’analisi stratificata nelle 4 classi (STEMI, NSTEMI, Angina stabile, Angina
instabile) con cui è stata classificata la gravità della malattia coronarica al momento dell’impianto dello stent (tale variabile è risultata esser e un confondente d’effetto). L’outcome scelto è un outcome multiplo, composto da 2 endpoint:eventi coronarici e interventi coronarici.
Sono state innanzitutto confrontate le curve di incidenza cumulativa dei due endpoint grazie
alla PROC LIFETEST. Successivamente si è costruito una Regressione di Cox ad hazard proporzionali attraverso la PROC PHREG aggiustata per sesso e classe d’età, per i due outco me. Sono stati costruiti inoltre degli intervalli di confidenza bootstrap per rendere più robusta
l’analisi attraverso passi di data per il ricampionamento e l’utilizzo della macro %boot e la
PROC IML. Infine attraverso sempre la PROC PHREG è stato costruito un modello multistato
illness-death per descrivere al meglio la storia clinica degli individui post-impianto.
Modello illness-death model
2. Evento
coronarico
1. Impianto di
stent medicato
3. Intervento
coronarico
Risultati
Confrontando sia le curve di incidenza cumulativa ottenute
con il metodo Kaplan-Meier, sia le stime dell’HR del modelEVENTO CORONARICO
INTERVENTO CORONARICO
lo di Cox, si nota che per l’outcome intervento cor onarico
HR per
I.C. BCa
HR per
I.C. BCa
in nessuna delle quattr o classi vi è una dif ferenza tra i due
CLASSI
trattamento
Trattamento
gruppi sottoposti a confr onto. Per quanto riguar da invece
0.9
0.6-1.3
STEMI
3.7
2.4-4.1
l’endpoint evento coronarico, si nota che per i pazienti con
0.8
0.4-1.2
NSTEMI
2.7
1.8-4.2
una situazione più grave (STEMI e NSTEMI) la nuova mo1.1
0.5-1.4
Angina instabile
1.3
0.9-2.5
dalità di erogazione apporta dei miglioramenti nel periodo
1.5
0.6-2.8
post-impianto (infatti gli individui con erogazione tradizionale
Angina stabile
1.5
0.3-1.7
rischiano quasi 4 e 3 volte in più nelle due classi rispetto a
quelli ad erogazione innovativa). Gli intervalli di confidenza
HR per Trattamento (IC al 95%)
Transizione 13
Transizione 23
bootstrap Bca confermano la significatività delle stime otte1.2( 0.3-4.8)
0.3( 0.11-0.72)
STEMI
nute per i due gruppi.
0.6( 0.12-2.66)
0.2( 0.07-0.81)
NSTEMI
I risultati del modello multistato (stratificato) hanno uno sco0.8( 0.26-2.28)
0.8( 0.19-3.4)
Angina
instabile
po esplorativo. Gli HR per la transizione 1 2 sono uguali a
0.9(
0.14-6.08)
0.4( 0.1-1.32)
Angina
stabile
quelli ottenuti dal modello di Cox. Per la transizione 1 3 le
stime HR non risultano significative. Per le transizione 2 3
invece risulta che chi appartiene al gruppo a somministrazione tradizionale ha un rischio minor
e di essere sottoposto ad un intervento
coronarico. Questo aspetto andrebbe approfondito considerando le scelte dei centri ospedalieri reclutati.
Concludendo quindi la nuova modalità di erogazione sembrerebbe apportare un miglioramento post-impianto nei pazienti più gravi.
25
Università degli Studi di Milano Bicocca
Facoltà di Scienze Statistiche
Nicholas Fabben
[email protected]
Relatore: Prof.ssa Susi Tondini
Il comportamento di acquisto degli early triers di un nuovo prodotto - febbraio 2013
Obiettivo
Questo studio si propone di provare la relazione tra gli early trier, ovvero coloro che provano un nuovo prodotto “prima degli
altri”, e gli heavy user, grandi consumatori della categoria di appartenenza. A questo scopo sono stati appr ofonditi i temi
della divisione in categorie e del comportamento dei consumatori alle prime prove dei prodotti, in particolare in presenza di
incentivi o di trial di dimensioni differenti.
Dopo aver mostrato la relazione tra early trier e heavy buyer, in studi condotti precedentemente, per i quali i dati sono stati
ottenuti da interviste telefoniche e diary panel, è stata svolta un’analisi su due categorie di prodotto, yogurt e cereali, servendosi di dati provenienti da carte fedeltà.
Soluzione
L’intera analisi è stata svolta utilizzando il software SAS nella versione 9.2.
È stato descritto tutto il percorso che porta dalla pulizia del dataset, alla costruzione delle variabili oggetto di studio.
Sono stati realizzati test sulle variabili attraverso la PROC TTEST in modo da valutare la significatività delle differenze delle
caratteristiche tra gli early trier e gli altri.
In seguito sono stati costruiti e testati modelli di regressione logistica, utilizzando la procedura PROC LOGISTIC, ponendo come dipendente la variabile dicotomica “early”, rispetto alle variabili ottenute in precedenza. Di seguito i risultati del
test relativo al brand 3 della categoria yogurt:
Risultati/Benefici
I risultati permettono di trarre informazioni importanti per i produttori nelle scelte compiute in fase di lancio del prodotto per
massimizzare la diffusione tra i buyer, per quanto riguarda l’utilizzo di incentivi e la scelta delle dimensioni dei prodotti di prova, in accordo con la teoria di percezione del rischio.
Inoltre, la verifica di una relazione tra early trier e heavy buyer ha conseguenze molto importanti per la ricerca: decisioni di
adozione o meno di un nuovo pr odotto possono essere sfruttate per conoscere in modo precoce i comportamenti della
maggioranza dei trier nei confronti del nuovo prodotto.
26