вбгб деажб диз £ © вб ¤ £ ¤ гбг dimensione con ad esempio

Transcript

вбгб деажб диз £ © вб ¤ £ ¤ гбг dimensione con ad esempio
 Corso di laurea in matematica
Anno accademico 2004/05
( ) ' +* , '.- ,21 3 0( /
Difficoltà in alta dimensione
L’obiettivo della statistica multidimensionale geometrica è di scoprire relazioni tra dati
rappresentati da punti in spazi
ad alta
dimensione con ad esempio
.
Una delle maggiori difficoltà in questo intento è la cosiddetta maledizione dell’alta dimensione (che nella letteratura inglese è nota sotto il termine di curse of dimensionality), dovuta soprattutto al fatto che i concetti
metrici in spazi a cosı̀ alte dimensioni perdono gran parte del loro significato perché il
volume
"! $# &%
' della palla di raggio 1 in
converge rapidamente a zero; per il volume
della palla
Sfere in
:=<>
4.5
7698
A ?CB
EDF :
:;69
Situazione 1.1. Siano
ed
con
. Useremo in tutto il corso
per indicare la dimensione dello spazio in cui si trovano i nostri dati.
Per
denotiamo con
la parte intera di .
? ?$6@
Definizione 1.2. Per
sia
lume di una palla di raggio in
mo l’abbreviazione
' ! :%
il vo. Usere-
'' HG *>' ! ( %
!' / : % G *I ! , ' / *I
' ( :%J* :
' ( *I
è quindi il volume di una palla iscritta a
un cubo di lato in
. Il volume del cubo è
naturalmente uguale a .
Poniamo
e perciò anche
.
Osservazione 1.3.
.
e quindi
Nota 1.4. Denotiamo con la funzione gamma che, come è noto dall’analisi, è in primo luogo un’interpolazione del fattoriale,
che però appare in molti altri campi della
matematica e deve essere considerata come
la più importante funzione non elementare.
Essa è definita e olomorfa su tutto il piano complesso tranne nei punti della forma
con
e soddisfa l’equazione funzionale
LK *MN N;6=8
"! K # O%"*>! K "! KP%
"! O%UKQ*6SRU T MV8W%
"!YX # X&%"* XJZ
"! ( %"*I[ 6= 8
X\Z
K
per
. Vale la condizione iniziale
, da cui per induzione si ha come
conseguenza immediata che
per ogni
. Si dimostra inoltre che
X
Purtroppo, per pure ragioni storiche, la funzione è definita in modo tale che al fattoriale
non corrisponde l’argomento in .
Una trattazione molto dettagliata della
funzione si trova nel testo di analisi complessa di Remmert.
Teorema 1.5. Il volume della palla unitaria
in
è dato da
In questo numero
di raggio
in
, cioè della palla iscritta
a un cubo unitario, si ha ad esempio, come
vedremo, la formula di ricorsione
"! $# &%
Z
che è corretta per
pari e può essere considerata come abbreviazione simbolica nel caso che sia dispari.
,
' ! O%"* , ' .- ! O%
' ! :%"* : ' .- ! :%
' * , ' .]< ,
C .- ' ! O%"* "! $C # &% * "! %
* "! . .^- - # O% * , "! ._-. - # O% * , '.- ! &%
:
.`-a cQb d ' ! : %"*e
: E
f
<
:
' ! :%W* , : '.- ! :%V , '.- ! :%
Proposizione 1.6. Valgono le formule di ricorsione
per ogni
.
Dimostrazione. (1) Abbiamo
Ciò mostra la prima formula da cui si ottengono facilmente le altre due perché è chiaro
che aumentando la dimensione di due il volume deve essere moltiplicato con .
Corollario 1.7.
per ogni .
Dimostrazione. Per
3
4
5
gh i h
jkh
lOh
l h imhSni hUoVp
iq h
Difficoltà in alta dimensione
Sfere in
Calcolo di
Quale vicinanza?
e i quozienti
I prodotti
Il prodotto di Wallis
Stime per
Il quoziente
Il volume angolare
Istogrammi multidimensionali
La diagonale
La statistica del futuro
Basi di dati
Il problema del guscio
Il paradosso delle pareti
Il paradosso della sfera centrale
Proiezioni ottimali
Bibliografia
r5
'
sC‡ ƒ„tvu~>w&xz…vy&{{Pˆ&}|S‰&}†~‰ yO€Pz‚ƒw„€>…v{m†
|&xŠ|;sCt‹uw&xzy&{|Œ…v{&Ž†&‘Pƒ’“…Y{”„{m†„•
' – , Calcolo di
Dimostrazione. Corsi di analisi. La formula è facile da ricordare nella forma
' ! O%"*
1
2
e ciò comporta che già nel
la palla iscritta occupa solo il
per mille del volume del
cubo. In un cubo ad alta dimensione perciò
il volume è concentrato vicino al bordo e ciò
crea notevoli problemi per l’interpretazione
statistica di considerazioni metriche e gli algoritmi che le utilizzano. Il primo numero
del corso è dedicato alla discussione di queste difficoltà che proprio nella statistica medica, uno dei campi in cui attualmente sono
prodotte grandi quantità di dati ad alta dimensione, vengono spesso trascurate.
' ! O%"*
Numero 1
si ha
Possiamo cosı̀ scrivere una funzione in R
che ci permette di calcolare
.
Con essa possiamo stampare sullo schermo
i valori di
per
con poche istruzioni. Siccome R calcola con una precisione
di circa 15 cifre significative (tra cui non
contano però gli zeri iniziali) i valori sono
rappresentati con 14 cifre dietro il punto decimale. L’ultima cifra è arrotondata, le altre
cifre sono corrette come abbiamo verificato usando il sofisticato pacchetto aritmetico
pari, disponibile gratuitamente.
~‡œw—>}Š‘O…v{˜—ƒz€Oƒz€™‚&~‰“…&ž šYŽ&ŸO›Ž¡¢† ŸCt ‰z£~žO¤v{¥¤YsCtvuw&xzy&{P|“…v{m†&†
O—Pƒ‘€O‚… œ †„•
1 '
,¨ 11 ¦3§,3¨¨3©©§§¦&¦ª 3¨ 3¨ ©© §¦ ¨ 3
3 111 ¨OªO§ § ¦ ,©3¨33 P¨¦ª, 3ª ¨§§§§,,§
ª¦§ 11 ¨ ª3©§3 ,,¨ ¨ m,& ¨¨,§,
© 11 « ª, © , ¨ © ,3¦ mª ª©
,¨ 111 ©¨, 3©©©©¦, 3§¦©§¨ ¦ª ¨©ª¨¦
3 11 «¨ª3&ª¦ ª ,¦, mª3 ª §,
&ª¦ 11 m¨OªO3©¦3 § ª 3©
§© 11 «&¨ § ¨§¨©ª,ªm¨&ª ©3
, 1 , ªm ª¨¦
¬*–&
Vediamo che per
la palla occupa
solo il 2.49 per mille del volume del cubo a
cui è iscritta!
STATISTICA MULTIVARIATA
Quale vicinanza?
Dalla tabella a pagina 1 si vede che
. Se abbiamo quindi raccolto le concentrazioni nel
sangue di 20 molecole rappresentate da numeri in di un milione di pazienti (un
numero difficilmente raggiungibile nella realtà) e se volessimo considerare i dati e
di due pazienti simili se ! #"$! %& ' nella
metrica euclidea di ( ) , la probabilità che
per un punto ce ne sia uno distinto e vicino (in questo senso) è solo circa 0.1 e quindi
spesso questo concetto di vicinanza risulta
poco utilizzabile.
I prodotti *,+
Numero 1
a.a. 2004/05
e i quozienti -.+
Per ogni /H0
relazioni
/I"
/
D35
/
D3 Sia /y0
9
97: : ' :9<: : : = : ' :97: ; : : : >7: = : ' :97: : ; : : : ?
'
=
;
>
'
;
>
9
'
=
;
>
È chiaro che
Definizione 2.2. Per /C0
6
2E3
2 3
A
mentre poniamo D 6 F .
/
/ D 3
D 3
D 3
A
D3 A
9
>
;
=
'
97: : : ' :9
' :9G: : : : : = : ' :9
= : ' :9<: ; : : : ; : : : >7: = : ' :9
=
;
>
D
3
/
A
/ D 3
/ D 3
/ D3 A
D /
D
3
A
3
/
/
A
3
~ 2 3‚ƒ …„
€ &

3 A
2&3 ‚ ƒ „
[ 6
ƒ
' ƒ } : ƒ : } ;
ƒ ' : ;
9 ; ƒu‹ : > ' ƒu‹ : ƒ9 Corollario 2.7. 3
2 3
ƒ } ƒ > }
;ƒ Rƒu
‹ 'Rƒu‹ 3
‚ ƒ „Œ
Ž
Proposizione 2.8 (prodotto di Wallis).
‘
’ “•”
: :::– —R˜
: 9 : ::– — " ˜ —<™%
ƒ
Dimostrazione. Corsi di analisi.
ƒ
Dimostrazione. I fattori del prodotto nella
proposizione 2.8 possono essere scritti nella
forma
2 ’
2 ’ A —G™%
– —<™%˜qD ’
da cui segue il primo enunciato, osservando
che
per /
pari
per /
dispari
Dimostrazione. Induzione su / .
/
ƒ
‘
‘
–
—,™š˜qD ’ —ED ’ ’ “•”
’ “#”
ƒ
‘
‘
–
—,™š˜qD ’ @BA —ED ’ @BA ’ “•”
’ “#”
Proposizione 2.5. Abbiamo
3
9Gƒ : Corollario 2.9.
vale
Dimostrazione. Per l’osservazione 2.3
D3
;ƒ : '
Dimostrazione. Per /
8,FD A , per /10 invece
D 2&3 A
2&3 A
D 3 2 3
/ 2 3 / D 3 A
9
ƒ: Il prodotto di Wallis
9
8 abbiamo
D 3
.
per /y0
3
/
D3 Dalle relazioni (*) è chiaro che D 3yz
A
per ogni /y0 e } che quindi D 3|{ per /
9
pari 0 e D3 {
per / dispari 0
.
Osservazione 2.3. D 3 / D 3 A
Osservazione 2.4. Per /y0
ƒ / 2&3 ‚ ƒ „
3 A
3 A
2
2
3
ƒ
3
ƒ
‚
„
‚
„
/
Nota 2.6. Otteniamo la seguente tabella:
R '
=
9 = '
' 9999
9 '
' = = 9 9 '
>
9 > R
'' >
9 >>
> =
9 ;
> 9 ;
>> '
;' =
; 9 ==
= 9
;
'
'
9 ;
> '
9 ;
definiamo
}
3 ‰
3 G†ˆ‡$
ƒ/
D 3
/
9
pari
il numero dei fattori
3
è quindi uguale a (se come al solito consideriamo 1 come prodotto
di 0 fattori), per
3<@BA
fattori di cui però
/ dispari abbiamo possiamo tralasciare l’ finale senza cambiare il valore del prodotto che quindi per
/ dispari 3 puòA essere anche rappresentato
mediante fattori della forma indicata.
dispari: Abbiamo
otteniamo adesso i valori
=
2 3 / &
/ 0 . Per /
per 1
3
MUg[VXWhT)Ph]
ijckY
Zl K `)m gT)PSMnVoqpcrsputavMEoRwXWuwxJ
VaWRYY
m gT)PSnV l Yf
2&35
9
Sia /y0
Con
pari: In questo caso abbiamo
3 ‰
3 7†ˆ‡$
ƒ/
ƒ / 2&3 ‚ ƒ „
3
3
ƒ
ƒ
&
2
3
‚
Š
„
&
2
3
‚
…
„
/
3
JLKNMOPRQSTUPFVXWRY
Z TM[VXW\K]YL]
^_`^ J
VaWbcYd
VXWb]YeWf
2 3
/
(*)
8,[ A .
2 A ‚ ƒ „
8 6
che possiamo usare per definire la funzione
Definizione 2.1. Per /10 denotiamo con
2&3 il prodotto che si ottiene con i fattori
/ /4" & /5" , andando avanti finché
i fattori rimangono tutti positivi. Poniamo
2&76 8 . Quindi
D 3
abbiamo evidentemente le
2
8,[ .
2& ‚ ƒ „
‘
’ “•”
—
8
—<™%
Ponendo /
abbiamo
›—#™5 nell’osservazione 2.4
– —<™%˜qD ’ @.A – —,™š˜qD ’
e il secondo enunciato segue dal primo.
STATISTICA MULTIVARIATA
Stime per Corollario 3.1.
Lemma 3.2. Per ogni .
zioni degli integrali
abbiamo
" $#
'
con
%
!
! &
( !
Il quoziente
E
6
MN J
J 3 LK #
e
,
- /. e
,
- 0 .213 sono strettamente decrescenti, mentre le successioni
,
- /. e
,
- 0.413 sono strettamente crescenti.
Proposizione 3.4. Valgono le inclusioni
25 6 # 6
dispari 25 mq # pari
Dimostrazione. Usiamo il corollario 2.9 e
il corollario 3.3.
Le successioni
,
- /. , e
- /. convergono a 7 ; la prima è strettamente
crescente, la seconda strettamente decrescente. Ciò implica il primo enunciato.
Le successioni
,
- / .4183 e
7
,
!- / .91:3 convergono a ; la prima è strettamente
crescente, la seconda strettamente decrescente. Ciò implica il secondo enunciato.
Corollario 3.5. Sia
pari
25
dispari
#
<;
6 6
25
# si ha
per
pari
per
dispari
J3
J
J
J‘
J“
J”
J•
J–
sione strettamente decrescente che converge
a zero.
J
6
M N˜K # J 3
J
3 #
J
˜ 6 . Allora
per
pari
per
dispari
J
6
J 3 # e
J
O 3 6
6
J 3 O # # Per dispari abbiamo
3
J O 6
P # R
e
6 3
J 3 O 3 P #TR
J 3
J 3
Il quoziente è quindi uguale a
6
6 # 3
# usando l’osservazione 2.4.
dispari. In questo caso abbiamo
J
J 3 (2) Sia
perciò
J
O 3
J 3 O J
Corollario 3.8. J
3 per ogni I;# .
Dimostrazione. Sia pari e perciò
U;V# . Come osservato alla fine della
defi3
nizione 2.2 abbiamo allora W , per cui
J
6
6Y
J 3 # XW
dispari. Allora I;Z
J
#
J 3 W Z J
Calcoliamo i rapporti J
3
<;#
Osservazione 3.9. Sia
Dimostrazione. (1) Sia pari. Per la proposizione 3.7 abbiamo allora
e
e
J 3
6
J # 3
Il quoziente è perciò uguale a
6 # 3
#
6
Corollario 3.10. La successione
\+]_^`bacedfhgji
k
l m n [ `baok
c_\p`ba
qqr n n s k m n_t c u mv r
w n_t wxzy+{ ` |~}
€| ba4 | n |  x t +^ ced y \4` |jq4‚~ƒ„\9|  m k…
|H}
 l | ba+†
f… |ˆ‡ ‰ ‰€|  x„{ t+n | |/k
t ^+ced y ` w k_‡
Abbiamo dovuto chiamare in aiuto la funt
zione wxzy
{ di R a causa di qualche piccot ^+ced y \ . Entrambe le funzioni
lo difetto in x
verranno spiegate nel corso di Fondamenti
di informatica.
J
J ! 3
Dimostrazione. Siano <;# e
dalla proposi-
zione 3.7 (invece che dalla proposizione 1.6)
usando la funzione [ della definizione 2.2.
Le istruzioni che seguono prducono un output che può essere facilmente inserito in un
file Latex con cui otteniamo poi la tabella.
,
è strettamente decrescente e converge a zero.
™ š ›
. Allora:
# 6 6 # >
J
‹ Š +
Š Œ
+Ž
Š 
+Œ
Š Ž
+’
Š YŽ
Z+Z
Š Y ’‹
Š Y Ž+Œ
Š Y Z Š 
I;
6 J 3 O 3 P #TR
Sia
3
Vogliamo
adesso dimostrare che i fattori
J
in
questa
tabella formano una succesJ
3
quindi
#+ " ( *
*#+
$
#
FHG
J O 6 QP #SR
Corollario 3.3. Le successioni
che vengo-
Dimostrazione. Usiamo la proposizione
2.5. Per pari abbiamo
%
(
& ( ( *#+ *#+
E
Proposizione 3.7. Per
Similmente
? =>@
B9CDB
A
no calcolati con integrazione per parti, ottenendo poi da essa la formula di Wallis
(proposizione 2.8) che noi abbiamo invece
assunto come nota.
( )
con
J 3
J
J+
J
‘
J+“
J+”
JD•
J+–
J+—
Nota 3.6. Nei corsi di Analisi spesso si deduce la proposizione7 3.4 da rappresenta-
Dimostrazione. Per la relazione (*) nella
definizione 2.2 abbiamo
Numero 1
a.a. 2004/05
Se
J
J 3
J 3
J è pari, allora
6
6 #
™ # # 6
se è dispari, allora
#
# 6
™ 6 6 #
Ciò mostra che la successione è strettamente
decrescente.
Dalla proposizione 3.7 sappiamo che
6
MN J
#
L
K
J 3
per
pari
dispari
e quindi
Per il corollario + œ
J anche + .
J 3
per
STATISTICA MULTIVARIATA
Il volume angolare Definizione 4.1. Il cubo -dimensionale
possiede vertici. Se togliamo la palla iscritta dal cubo, rimangono regioni
che chiamiamo le regioni angolari del cubo,
ciascuna delle quali ha un volume uguale a
il volume angolare
Chiamiamo -dimensionale.
Proposizione 4.2. e, più sorprendentemente,
Dimostrazione. Siccome
è chiaro che
converge a zero. Invece
!
,
, è sufficiente dimoSiccome " .
strare che % ' & #
$
Ma e % sappiamo
'& . dal corollario 1.7 che $
Creiamo
un
programma
in R per calcolare
e per )(' .
*#+-,.0/2143257698-:;
<>=#?-@BAC= +'D4EF/G7.9/H;
I ? .J5>K = ;-LFMNO/
P ?QSR ,1S3#TF*U.FVXW#M-YZW A9[ *\W5>M A 8-*UVF]0/^] I ] I L = ;
R ,1S3'TU. P ;>_
Otteniamo la tabella
(
d
b
c
g
e
f
# (
d
b
c
Fg
e
f
#
(
d
b
cg
e
f
('
7a ###
7a b(#cb##dc
7a bf#bb# b
7a #d( ('d(
7a c f#be
7a d(c(#(b
7a # g b d 7a #(#e#dd( 7a # f#db#d
7a #f g d (
7a ##de g e(
7a # dd#c
7a # c
7a ##c (
7a ##(#b 7a ## b c
7a ## g c(
7a ##(#e 7a ## f 7a ##fb
7a ###de
7a ## d
7a ## 7a ###c
7a ###(
7a ### 7a ### 7a ###
7a ###
7a ###
` 7a #
7a ce
7a # d
7a d
7a bf
7a Fg e
7a d
7a d 7a (' 7a (#f 7a b#(#
7a g df
a fe
a c#cf
a c d7a df
g a f(
a Fg (
a d#g df
(#eha df
g a c#ef
(#bha c gg
c a d b eha df
d#d7a dd
d#d7a b f
dde#cha e g e
fbb#cha g de
g fha #bb
dbc('7a
Numero 1
a.a. 2004/05
che mostra che per la palla iscritta al cubo ha ancora un volume superiore a
quello di ciascuna regione angolare, ma che
( il volume angolare supera il voper ji
lume della palla iscritta. Per questa ragione
spesso si paragona il cubo -dimensionale
a un riccio con aculei, ciascuno dei quali
( ha un volume maggiore
a partire da di quello del corpo centrale del riccio. Come
la tabella mostra, per ciascuno dei
kSl aculei (circa un milione) ha un volume
più di 38 volte maggiore di quello del corpo centrale (la palla iscritta) e per m(#
ciascuno dei n4l aculei (più di un miliardo)
ha un volume più di 45000 volte maggiore
di quello del corpo centrale.
Questa geometria complicata rende molto
difficile la statistica in alte dimensioni. Anche se molti algoritmi forniscono risultati in
ogni dimensione, l’interpretazione di quanto il software ha calcolato deve essere fatta
con molta prudenza e spesso l’unica strada
veramente proponibile è la riduzione della
dimensione tramite una ragionata proiezio7p oq con ad esempio r sb .
ne o
Istogrammi multidimensionali
Assumiamo di nuovo che i nostri dati siano punti nel cubo unitario di o
. Data una
decomposizione
t 7u -v
xwzy|} { aFaFa~} { w
possiamo definire, per 2€) , il numero
‚^ƒ come il numero di quei punti tra i punti dati che% si trovano in wƒ . La successio&
ne finita ‚ yuFa'a'aFu ‚~ può essere considerata come un istogramma -dimensionale.
Ma anche qui in alta dimensione incontriamo delle difficoltà: Assumiamo che gli inw ƒ
siemi
ottenuti dividendo ogni lato
t -v siano
in 10 intervalli uguali e formandi 7u
do i sottocubi (semiaperti affinché siano disgiunti, ma non è importante) corrisponden
ti. Allora per avremo sottocubi
), per invece abbiamo
(cioè  y
s l sottocubi. Da ciò segue però che
„ punti casuali in t hu -v y saranno moll t >v . Infatti
to meno densi che d punti in hu
k
nel piano ogni sottocubo conterr
à in media
d… †k ‡7y a #d punti, in t 7u -v y invece in
Bˆ ‰ha l . In altre
media „ l t -v sono d volte più
parole i 4 punti in hu
t -v
k
densi del milione di punti in hu y benché,
l
come già osservato, ad esempio nella statistica medica, è molto difficile raccogliere i
dati di un milione di pazienti che però, invece, contengono anche 20 o 40 parametri accentuando ancora di molto la difficoltà che
abbiamo illustrato.
A ciò si aggiunge il problema di memo y
rizzare un istogramma che consiste di l ,
k4l o ˆ4l numeri ‚^ƒ .
Anche in questo caso si cercherà di ridurre la dimensione. Un altro approccio, matematicamente molto difficile e interessante, è quello di trovare decomposizioni con
un numero  relativamente basso di insiemi wŠƒ t in qualche modo ben distribuiti nel
>v .
cubo 7u
La diagonale
Mentre il raggio della palla iscritta aly cubo unitario in o
è sempre uguale a della
k , il
diametro del cubo, cioè la lunghezza
%
F
u
F
a
'
a
F
a
u '& ,
diagonale tra l’origine e il punto
è uguale a ‹ .
4
Ciò implica che la palla, pur toccando il
bordo del cubo (nei centri dei sottocubi di
‡ ), dista invece dai verdimensione Œ
tici di
‹ ; siccome questa distanza
diventa sempre più grande, ciò conferma
l’impressione che il cubo -dimensionale al
crescere di assomiglia sempre di più a un
riccio con corpo sferico sempre più piccolo e
aculei sempre più lunghi.
La statistica del futuro
The coming century is surely the century of
”
data. A combination of blind faith and serious purpose makes our society invest massively in the collection and processing of data of all kinds, on scales unimaginable until
recently. Hyperspectral imagery, Internet portals, financial tick-by-tick data, and DNA microarrays are just a few of the better-known
sources, feeding data in torrential streams
into scientific and business databases ...
Classical methods are simply not designed
to cope with this kind of explosive growth of
dimensionality of the observation vector. We
can say with complete confidence that in the
coming century high-dimensional data analysis will be a very significant activity, and
completely new methods of high-dimensional
data analysis will be developed; we just don’t
know what they are.“ (David Donoho)
È un momento particolarmente felice per la
”
biostatistica in generale e per la statistica clinica in particolare. Gli sviluppi della biologia molecolare e della medicina stanno producendo enormi quantità di dati che devono essere ordinati e interpretati, creando cosı̀
una domanda di competenze statistiche mai
vista in precedenza.
Gli statistici clinici, cioè gli statistici che
lavorano nella ricerca medica su umani, partecipano al clima di euforia grazie anche alla
crescente disponibilità di risorse della ricerca medica, alla sua crescente matematizzazione e, con riferimento all’industria farmaceutica, grazie ad un ventennio di impressionante sviluppo. Per doveri legali e per tradizione culturale, l’industria farmaceutica è
uno dei pochi settori produttivi che offre agli statistici la possibilità di una carriera non
accademica di alto profilo scientifico. Insieme ai centri di cura e ricerca medica pubblici
e privati, l’industria farmaceutica partecipa
cosı̀ attivamente alla richiesta e alla produzione di metodologia statistica.“ (Mauro Gasparini)
Basi di dati
La struttura complessa e sorprendente degli
spazi ad alta dimensione crea difficoltà non
solo in statistica, ma ad esempio anche negli
algoritmi di ricerca in grandi insiemi di dati (basi di dati in medicina, nell’industria, in
geografia, in biologia molecolare) che spesso vengono rappresentati (mediante tecniche sofisticate di trasformazione) come punti di qualche o
ad alta e talvolta altissima
dimensione. Gli algoritmi di ricerca classici
spesso utilizzano concetti di somiglianza basati ad esempio sulla vicinanza nella metrica euclidea che però in questi spazi ad alta
dimensione perde gran parte del suo significato. Superare questa difficiltà è uno dei
compiti più attuali e più interessanti studiati dalla teoria delle basi di dati.
STATISTICA MULTIVARIATA
Numero 1
a.a. 2004/05
4 =
Il problema del guscio
sia un sottoinsieme misurabile di misu
in e . Allora
stellato rispetto
. sia
. Per il volume
all’origine e quindi del guscio
si ha allora
cioè
ra
e quindi
=
Ma
E 4
3 V
X (
' ' 5
:/ ; >
4 =
4 F
4
Ma
=
Già in dimensione 5 si verifica un fenomeno molto sorprendente impossibile in dimensioni #" e probabilmente anche in dimensione 4. Troviamo infatti adesso una
sfera in $ che interseca tutti i lati 4dimensionali del cubo unitario, ma non contiene il centro del cubo! Procediamo in questo modo:
Il centro del cubo è
4 4 4
:/ 1@?X;2> 0/ > '
5
:/ 1@?X;2> 0 / 1<;2?X;
0/ 1
e quindi bisogna avere
3 3 V
5
0/ 1
F
per cui possiamo porre
5 T
0/ 1
:/ ' ?< /O/X/
ZK
Anche F\H]J ( .
V
F
% & )
' ( '*( '+( '*( '
Modificato da Böhm/, pag. 6, in cui si dà
un esempio per !
? . Abbiamo chiamato questo esempio il paradosso delle pareti, perché per convincersi della stranezza
dell’enunciato è sufficiente immaginare che
una sfera possa intersecare tutte le pareti
di una stanza cubica senza contenere il punto centrale della stanza.
Questi fenomeni creano molti problemi
nell’interpretazione statistica e nello sviluppo degli algoritmi in alte dimensioni.
Il punto
,-& . ( ( ( ( 0/ 21 appartiene anch’esso al cubo.
con Inoltre
3 , % 3 4 6587 4 9
587 ' 4 :/ ;
:/ 1<1 '
'
4 :/ ><" , allora =
Se scegliamo il raggio =
0/ 1@?<;@> , per cui il centro % non appartiene
alla palla di raggio = attorno a , . Facciamo
adesso vedere che la sfera di raggio = interseca ogni lato 4-dimensionale del cubo.
Un tale lato è dato dall’intersezione del
cubo con un iperpiano dato da un’equazione
C
della forma A:B
. Per sim oppure A:B
.
metria possiamo assumere che D
dimostrare che esistono
E È suffciente
LK
(GFIHIJ ( tali che i punti
Il paradosso della sfera centrale
Consideriamo un cubo stavolta con centro
' punnell’origine di e di lato ; . Nei
T
O
in cui i segni
ti della forma ^ ( /</O/ ( ^
o vengono scelti in tutte i modi possibili,
poniamo una sfera di raggio 1 con centro in
quel punto. Consideriamo poi la sfera con
centro nell’origine tangente a tutte quelle
altre sfere. Il suo raggio sia = . La situazione
'
dalla figura in alto
è illustrata per !
nella colonna accanto.
diametro delT cubo è uguale a
' V Il! mezzo
'
' , abbiamo quine anche uguale a =
di
MONP& Q ( E ( E ( ( M 4 & (RFS( ( ( = da , . Abbiamo
3 M N , 3 4 4+T ' E 4
hanno distanza
T
e
3 M 4 , 3 4 4UT
4
F
(1) Per M dobbiamo soddisfare l’equazione
=
per cui
b
=
V
!
V
!
O
(
=
E V
' ' 5 T
0 / ; >
T
@5 52XW
W 52XW
0/ ?
/OX/ / : / @1
0/ "
/O/O/
E
Z K
Abbiamo quindi HYJ ( .
(2) Per M 4 dobbiamo avere
4 [ 4UT
T 4
=
F
cioè
=
' ' 5
:/ ; >
per cui possiamo porre
Il paradosso delle pareti
Corso di laurea in matematica
4
'
3E Siccome questo rapporto tende a ;
ciò significa che il guscio occupa, con il crescere di ! , un volume relativo sempre maggiore.
Questo fenomeno è importante in statistica perché implica che in alta dimensione la
maggior parte di una popolazione casuale si
troverà in posizioni marginali dello spazio
dei dati venendo cosı̀ meno quanto si osserva nella stastica univariata in cui i valori
di una popolazione normale si concentrano
nella vicinanza del valore medio.
e
4
'
> la sfera interCiò significa che per !
na tocca il bordo del cubo e per !a`
esce
addirittura da esse, benché le altre sfere rimangano naturalmente tutte contenute nel
cubo. Da Gentle, pag. 297.
quindi bisogna avere
4 4 =
T ' E 4
5
_
Statistica multivariata
O
(
;
X
(
Proiezioni ottimali
La teoria delle proiezioni ottimali (che nella letteratura inglese appare sotto il nome di
projection pursuit) è stata iniziata da Friedman e Tukey. Si cercano proiezioni ottimali rispetto a una funzione (indice) di rilevanza che può essere scelta in vari modi.
Questo metodo interessante, piuttosto impegnativo nel calcolo, che, almeno nelle intenzioni, permette di superare le difficoltà delle alte dimensioni e che contiene come casi
speciali e in un certo senso migliora molti
metodi classici della statistica multivariata
(come l’analisi delle componenti principali e
l’analisi delle discriminanti) è esposto in un
famoso articolo di Peter Huber e nella tesi di
Guy Nason. Il pacchetto XGobi di R contiene
funzioni per questa tecnica.
www.stats.bris.ac.uk/ guy/Research/PP/PP.html
www.ggobi.org
Bibliografia
15561 C. Böhm/S. Berchtold/D. Keim: Sear-
ching in high-dimensional spaces - index
structures for improving the performance of
multimedia databases.
Internet ca. 2001, 74p.
D. Donoho: High-dimensional data
analysis - the curses and blessings of dimensionality. Internet 2000, 32p.
16486
M. Gasparini: La statistica nelle prove cliniche. Boll. UMI Mat. Soc. Cult. 6/A
(2003), 119-140.
15981
J. Gentle: Elements of computational
statistics. Springer 2002.
16041
17077 P. Huber: Projection pursuit. Ann. Statistics 13 (1985), 435-475.
17081 G. Nason: Design and choice of projection indices. PhD thesis Bath Univ. 1992.
Remmert: Classical topics in complex function theory. Springer 1998.
(1300/2) R.
cdfe
Docente: Josef Eschgfäller