вбгб деажб диз £ © вб ¤ £ ¤ гбг dimensione con ad esempio
Transcript
вбгб деажб диз £ © вб ¤ £ ¤ гбг dimensione con ad esempio
Corso di laurea in matematica Anno accademico 2004/05 ( ) ' +* , '.- ,21 3 0( / Difficoltà in alta dimensione L’obiettivo della statistica multidimensionale geometrica è di scoprire relazioni tra dati rappresentati da punti in spazi ad alta dimensione con ad esempio . Una delle maggiori difficoltà in questo intento è la cosiddetta maledizione dell’alta dimensione (che nella letteratura inglese è nota sotto il termine di curse of dimensionality), dovuta soprattutto al fatto che i concetti metrici in spazi a cosı̀ alte dimensioni perdono gran parte del loro significato perché il volume "! $# &% ' della palla di raggio 1 in converge rapidamente a zero; per il volume della palla Sfere in :=<> 4.5 7698 A ?CB EDF : :;69 Situazione 1.1. Siano ed con . Useremo in tutto il corso per indicare la dimensione dello spazio in cui si trovano i nostri dati. Per denotiamo con la parte intera di . ? ?$6@ Definizione 1.2. Per sia lume di una palla di raggio in mo l’abbreviazione ' ! :% il vo. Usere- '' HG *>' ! ( % !' / : % G *I ! , ' / *I ' ( :%J* : ' ( *I è quindi il volume di una palla iscritta a un cubo di lato in . Il volume del cubo è naturalmente uguale a . Poniamo e perciò anche . Osservazione 1.3. . e quindi Nota 1.4. Denotiamo con la funzione gamma che, come è noto dall’analisi, è in primo luogo un’interpolazione del fattoriale, che però appare in molti altri campi della matematica e deve essere considerata come la più importante funzione non elementare. Essa è definita e olomorfa su tutto il piano complesso tranne nei punti della forma con e soddisfa l’equazione funzionale LK *MN N;6=8 "! K # O%"*>! K "! KP% "! O%UKQ*6SRU T MV8W% "!YX # X&%"* XJZ "! ( %"*I[ 6= 8 X\Z K per . Vale la condizione iniziale , da cui per induzione si ha come conseguenza immediata che per ogni . Si dimostra inoltre che X Purtroppo, per pure ragioni storiche, la funzione è definita in modo tale che al fattoriale non corrisponde l’argomento in . Una trattazione molto dettagliata della funzione si trova nel testo di analisi complessa di Remmert. Teorema 1.5. Il volume della palla unitaria in è dato da In questo numero di raggio in , cioè della palla iscritta a un cubo unitario, si ha ad esempio, come vedremo, la formula di ricorsione "! $# &% Z che è corretta per pari e può essere considerata come abbreviazione simbolica nel caso che sia dispari. , ' ! O%"* , ' .- ! O% ' ! :%"* : ' .- ! :% ' * , ' .]< , C .- ' ! O%"* "! $C # &% * "! % * "! . .^- - # O% * , "! ._-. - # O% * , '.- ! &% : .`-a cQb d ' ! : %"*e : E f < : ' ! :%W* , : '.- ! :%V , '.- ! :% Proposizione 1.6. Valgono le formule di ricorsione per ogni . Dimostrazione. (1) Abbiamo Ciò mostra la prima formula da cui si ottengono facilmente le altre due perché è chiaro che aumentando la dimensione di due il volume deve essere moltiplicato con . Corollario 1.7. per ogni . Dimostrazione. Per 3 4 5 gh i h jkh lOh l h imhSni hUoVp iq h Difficoltà in alta dimensione Sfere in Calcolo di Quale vicinanza? e i quozienti I prodotti Il prodotto di Wallis Stime per Il quoziente Il volume angolare Istogrammi multidimensionali La diagonale La statistica del futuro Basi di dati Il problema del guscio Il paradosso delle pareti Il paradosso della sfera centrale Proiezioni ottimali Bibliografia r5 ' sC tvu~>w&xz vy&{{P&}|S&}~ yOPzw> v{m |&x|;sCtuw&xzy&{| v{&&P Y{{m ' , Calcolo di Dimostrazione. Corsi di analisi. La formula è facile da ricordare nella forma ' ! O%"* 1 2 e ciò comporta che già nel la palla iscritta occupa solo il per mille del volume del cubo. In un cubo ad alta dimensione perciò il volume è concentrato vicino al bordo e ciò crea notevoli problemi per l’interpretazione statistica di considerazioni metriche e gli algoritmi che le utilizzano. Il primo numero del corso è dedicato alla discussione di queste difficoltà che proprio nella statistica medica, uno dei campi in cui attualmente sono prodotte grandi quantità di dati ad alta dimensione, vengono spesso trascurate. ' ! O%"* Numero 1 si ha Possiamo cosı̀ scrivere una funzione in R che ci permette di calcolare . Con essa possiamo stampare sullo schermo i valori di per con poche istruzioni. Siccome R calcola con una precisione di circa 15 cifre significative (tra cui non contano però gli zeri iniziali) i valori sono rappresentati con 14 cifre dietro il punto decimale. L’ultima cifra è arrotondata, le altre cifre sono corrette come abbiamo verificato usando il sofisticato pacchetto aritmetico pari, disponibile gratuitamente. ~w>}O v{zOz&~ & Y&O¡¢ Ct z£~O¤v{¥¤YsCtvuw&xzy&{P| v{m& OPO 1 ' ,¨ 11 ¦3§,3¨¨3©©§§¦&¦ª 3¨ 3¨ ©© §¦ ¨ 3 3 111 ¨OªO§ § ¦ ,©3¨33 P¨¦ª, 3ª ¨§§§§,,§ ª¦§ 11 ¨ ª3©§3 ,,¨ ¨ m,& ¨¨,§, © 11 « ª, © , ¨ © ,3¦ mª ª© ,¨ 111 ©¨, 3©©©©¦, 3§¦©§¨ ¦ª ¨©ª¨¦ 3 11 «¨ª3&ª¦ ª ,¦, mª3 ª §, &ª¦ 11 m¨OªO3©¦3 § ª 3© §© 11 «&¨ § ¨§¨©ª,ªm¨&ª ©3 , 1 , ªm ª¨¦ ¬*& Vediamo che per la palla occupa solo il 2.49 per mille del volume del cubo a cui è iscritta! STATISTICA MULTIVARIATA Quale vicinanza? Dalla tabella a pagina 1 si vede che . Se abbiamo quindi raccolto le concentrazioni nel sangue di 20 molecole rappresentate da numeri in di un milione di pazienti (un numero difficilmente raggiungibile nella realtà) e se volessimo considerare i dati e di due pazienti simili se ! #"$! %& ' nella metrica euclidea di ( ) , la probabilità che per un punto ce ne sia uno distinto e vicino (in questo senso) è solo circa 0.1 e quindi spesso questo concetto di vicinanza risulta poco utilizzabile. I prodotti *,+ Numero 1 a.a. 2004/05 e i quozienti -.+ Per ogni /H0 relazioni /I" / D35 / D3 Sia /y0 9 97: : ' :9<: : : = : ' :97: ; : : : >7: = : ' :97: : ; : : : ? ' = ; > ' ; > 9 ' = ; > È chiaro che Definizione 2.2. Per /C0 6 2E3 2 3 A mentre poniamo D 6 F . / / D 3 D 3 D 3 A D3 A 9 > ; = ' 97: : : ' :9 ' :9G: : : : : = : ' :9 = : ' :9<: ; : : : ; : : : >7: = : ' :9 = ; > D 3 / A / D 3 / D 3 / D3 A D / D 3 A 3 / / A 3 ~ 2 3 & 3 A 2&3 [ 6 ' } : : } ; ' : ; 9 ; u : > ' u : 9 Corollario 2.7. 3 2 3 } > } ; Ru 'Ru 3 Proposizione 2.8 (prodotto di Wallis). : ::: R : 9 : :: " <% Dimostrazione. Corsi di analisi. Dimostrazione. I fattori del prodotto nella proposizione 2.8 possono essere scritti nella forma 2 2 A G% <%qD da cui segue il primo enunciato, osservando che per / pari per / dispari Dimostrazione. Induzione su / . / ,qD ED # ,qD @BA ED @BA # Proposizione 2.5. Abbiamo 3 9G : Corollario 2.9. vale Dimostrazione. Per l’osservazione 2.3 D3 ; : ' Dimostrazione. Per / 8,FD A , per /10 invece D 2&3 A 2&3 A D 3 2 3 / 2 3 / D 3 A 9 : Il prodotto di Wallis 9 8 abbiamo D 3 . per /y0 3 / D3 Dalle relazioni (*) è chiaro che D 3yz A per ogni /y0 e } che quindi D 3|{ per / 9 pari 0 e D3 { per / dispari 0 . Osservazione 2.3. D 3 / D 3 A Osservazione 2.4. Per /y0 / 2&3 3 A 3 A 2 2 3 3 / Nota 2.6. Otteniamo la seguente tabella: R ' = 9 = ' ' 9999 9 ' ' = = 9 9 ' > 9 > R '' > 9 >> > = 9 ; > 9 ; >> ' ;' = ; 9 == = 9 ; ' ' 9 ; > ' 9 ; definiamo } 3 3 G$ / D 3 / 9 pari il numero dei fattori 3 è quindi uguale a (se come al solito consideriamo 1 come prodotto di 0 fattori), per 3<@BA fattori di cui però / dispari abbiamo possiamo tralasciare l’ finale senza cambiare il valore del prodotto che quindi per / dispari 3 puòA essere anche rappresentato mediante fattori della forma indicata. dispari: Abbiamo otteniamo adesso i valori = 2 3 / & / 0 . Per / per 1 3 MUg[VXWhT)Ph] ijckY Zl K `)m gT)PSMnVoqpcrsputavMEoRwXWuwxJ VaWRYY m gT)PSnV l Yf 2&35 9 Sia /y0 Con pari: In questo caso abbiamo 3 3 7$ / / 2&3 3 3 & 2 3 & 2 3 / 3 JLKNMOPRQSTUPFVXWRY Z TM[VXW\K]YL] ^_`^ J VaWbcYd VXWb]YeWf 2 3 / (*) 8,[ A . 2 A 8 6 che possiamo usare per definire la funzione Definizione 2.1. Per /10 denotiamo con 2&3 il prodotto che si ottiene con i fattori / /4" & /5" , andando avanti finché i fattori rimangono tutti positivi. Poniamo 2&76 8 . Quindi D 3 abbiamo evidentemente le 2 8,[ . 2& 8 <% Ponendo / abbiamo #5 nell’osservazione 2.4 <%qD @.A ,qD e il secondo enunciato segue dal primo. STATISTICA MULTIVARIATA Stime per Corollario 3.1. Lemma 3.2. Per ogni . zioni degli integrali abbiamo " $# ' con % ! ! & ( ! Il quoziente E 6 MN J J 3 LK # e , - /. e , - 0 .213 sono strettamente decrescenti, mentre le successioni , - /. e , - 0.413 sono strettamente crescenti. Proposizione 3.4. Valgono le inclusioni 25 6 # 6 dispari 25 mq # pari Dimostrazione. Usiamo il corollario 2.9 e il corollario 3.3. Le successioni , - /. , e - /. convergono a 7 ; la prima è strettamente crescente, la seconda strettamente decrescente. Ciò implica il primo enunciato. Le successioni , - / .4183 e 7 , !- / .91:3 convergono a ; la prima è strettamente crescente, la seconda strettamente decrescente. Ciò implica il secondo enunciato. Corollario 3.5. Sia pari 25 dispari # <; 6 6 25 # si ha per pari per dispari J3 J J J J J J J sione strettamente decrescente che converge a zero. J 6 M NK # J 3 J 3 # J 6 . Allora per pari per dispari J 6 J 3 # e J O 3 6 6 J 3 O # # Per dispari abbiamo 3 J O 6 P # R e 6 3 J 3 O 3 P #TR J 3 J 3 Il quoziente è quindi uguale a 6 6 # 3 # usando l’osservazione 2.4. dispari. In questo caso abbiamo J J 3 (2) Sia perciò J O 3 J 3 O J Corollario 3.8. J 3 per ogni I;# . Dimostrazione. Sia pari e perciò U;V# . Come osservato alla fine della defi3 nizione 2.2 abbiamo allora W , per cui J 6 6Y J 3 # XW dispari. Allora I;Z J # J 3 W Z J Calcoliamo i rapporti J 3 <;# Osservazione 3.9. Sia Dimostrazione. (1) Sia pari. Per la proposizione 3.7 abbiamo allora e e J 3 6 J # 3 Il quoziente è perciò uguale a 6 # 3 # 6 Corollario 3.10. La successione \+]_^`bacedfhgji k l m n [ `baok c_\p`ba qqr n n s k m n_t c u mv r w n_t wxzy+{ ` |~} | ba4 | n | x t +^ ced y \4` |jq4~\9| m k |H} l | ba+ f | | x{ t+n | |/k t ^+ced y ` w k_ Abbiamo dovuto chiamare in aiuto la funt zione wxzy { di R a causa di qualche piccot ^+ced y \ . Entrambe le funzioni lo difetto in x verranno spiegate nel corso di Fondamenti di informatica. J J ! 3 Dimostrazione. Siano <;# e dalla proposi- zione 3.7 (invece che dalla proposizione 1.6) usando la funzione [ della definizione 2.2. Le istruzioni che seguono prducono un output che può essere facilmente inserito in un file Latex con cui otteniamo poi la tabella. , è strettamente decrescente e converge a zero. . Allora: # 6 6 # > J + + + + Y Z+Z Y Y + Y Z I; 6 J 3 O 3 P #TR Sia 3 Vogliamo adesso dimostrare che i fattori J in questa tabella formano una succesJ 3 quindi #+ " ( * *#+ $ # FHG J O 6 QP #SR Corollario 3.3. Le successioni che vengo- Dimostrazione. Usiamo la proposizione 2.5. Per pari abbiamo % ( & ( ( *#+ *#+ E Proposizione 3.7. Per Similmente ? =>@ B9CDB A no calcolati con integrazione per parti, ottenendo poi da essa la formula di Wallis (proposizione 2.8) che noi abbiamo invece assunto come nota. ( ) con J 3 J J+ J J+ J+ JD J+ J+ Nota 3.6. Nei corsi di Analisi spesso si deduce la proposizione7 3.4 da rappresenta- Dimostrazione. Per la relazione (*) nella definizione 2.2 abbiamo Numero 1 a.a. 2004/05 Se J J 3 J 3 J è pari, allora 6 6 # # # 6 se è dispari, allora # # 6 6 6 # Ciò mostra che la successione è strettamente decrescente. Dalla proposizione 3.7 sappiamo che 6 MN J # L K J 3 per pari dispari e quindi Per il corollario + J anche + . J 3 per STATISTICA MULTIVARIATA Il volume angolare Definizione 4.1. Il cubo -dimensionale possiede vertici. Se togliamo la palla iscritta dal cubo, rimangono regioni che chiamiamo le regioni angolari del cubo, ciascuna delle quali ha un volume uguale a il volume angolare Chiamiamo -dimensionale. Proposizione 4.2. e, più sorprendentemente, Dimostrazione. Siccome è chiaro che converge a zero. Invece ! , , è sufficiente dimoSiccome " . strare che % ' & # $ Ma e % sappiamo '& . dal corollario 1.7 che $ Creiamo un programma in R per calcolare e per )(' . *#+-,.0/2143257698-:; <>=#?-@BAC= +'D4EF/G7.9/H; I ? .J5>K = ;-LFMNO/ P ?QSR ,1S3#TF*U.FVXW#M-YZW A9[ *\W5>M A 8-*UVF]0/^] I ] I L = ; R ,1S3'TU. P ;>_ Otteniamo la tabella ( d b c g e f # ( d b c Fg e f # ( d b cg e f (' 7a ### 7a b(#cb##dc 7a bf#bb# b 7a #d( ('d( 7a c f#be 7a d(c(#(b 7a # g b d 7a #(#e#dd( 7a # f#db#d 7a #f g d ( 7a ##de g e( 7a # dd#c 7a # c 7a ##c ( 7a ##(#b 7a ## b c 7a ## g c( 7a ##(#e 7a ## f 7a ##fb 7a ###de 7a ## d 7a ## 7a ###c 7a ###( 7a ### 7a ### 7a ### 7a ### 7a ### ` 7a # 7a ce 7a # d 7a d 7a bf 7a Fg e 7a d 7a d 7a (' 7a (#f 7a b#(# 7a g df a fe a c#cf a c d7a df g a f( a Fg ( a d#g df (#eha df g a c#ef (#bha c gg c a d b eha df d#d7a dd d#d7a b f dde#cha e g e fbb#cha g de g fha #bb dbc('7a Numero 1 a.a. 2004/05 che mostra che per la palla iscritta al cubo ha ancora un volume superiore a quello di ciascuna regione angolare, ma che ( il volume angolare supera il voper ji lume della palla iscritta. Per questa ragione spesso si paragona il cubo -dimensionale a un riccio con aculei, ciascuno dei quali ( ha un volume maggiore a partire da di quello del corpo centrale del riccio. Come la tabella mostra, per ciascuno dei kSl aculei (circa un milione) ha un volume più di 38 volte maggiore di quello del corpo centrale (la palla iscritta) e per m(# ciascuno dei n4l aculei (più di un miliardo) ha un volume più di 45000 volte maggiore di quello del corpo centrale. Questa geometria complicata rende molto difficile la statistica in alte dimensioni. Anche se molti algoritmi forniscono risultati in ogni dimensione, l’interpretazione di quanto il software ha calcolato deve essere fatta con molta prudenza e spesso l’unica strada veramente proponibile è la riduzione della dimensione tramite una ragionata proiezio7p oq con ad esempio r sb . ne o Istogrammi multidimensionali Assumiamo di nuovo che i nostri dati siano punti nel cubo unitario di o . Data una decomposizione t 7u -v xwzy|} { aFaFa~} { w possiamo definire, per 2) , il numero ^ come il numero di quei punti tra i punti dati che% si trovano in w . La successio& ne finita yuFa'a'aFu ~ può essere considerata come un istogramma -dimensionale. Ma anche qui in alta dimensione incontriamo delle difficoltà: Assumiamo che gli inw siemi ottenuti dividendo ogni lato t -v siano in 10 intervalli uguali e formandi 7u do i sottocubi (semiaperti affinché siano disgiunti, ma non è importante) corrisponden ti. Allora per avremo sottocubi ), per invece abbiamo (cioè y s l sottocubi. Da ciò segue però che punti casuali in t hu -v y saranno moll t >v . Infatti to meno densi che d punti in hu k nel piano ogni sottocubo conterr à in media d k 7y a #d punti, in t 7u -v y invece in B ha l . In altre media l t -v sono d volte più parole i 4 punti in hu t -v k densi del milione di punti in hu y benché, l come già osservato, ad esempio nella statistica medica, è molto difficile raccogliere i dati di un milione di pazienti che però, invece, contengono anche 20 o 40 parametri accentuando ancora di molto la difficoltà che abbiamo illustrato. A ciò si aggiunge il problema di memo y rizzare un istogramma che consiste di l , k4l o 4l numeri ^ . Anche in questo caso si cercherà di ridurre la dimensione. Un altro approccio, matematicamente molto difficile e interessante, è quello di trovare decomposizioni con un numero relativamente basso di insiemi w t in qualche modo ben distribuiti nel >v . cubo 7u La diagonale Mentre il raggio della palla iscritta aly cubo unitario in o è sempre uguale a della k , il diametro del cubo, cioè la lunghezza % F u F a ' a F a u '& , diagonale tra l’origine e il punto è uguale a . 4 Ciò implica che la palla, pur toccando il bordo del cubo (nei centri dei sottocubi di ), dista invece dai verdimensione tici di ; siccome questa distanza diventa sempre più grande, ciò conferma l’impressione che il cubo -dimensionale al crescere di assomiglia sempre di più a un riccio con corpo sferico sempre più piccolo e aculei sempre più lunghi. La statistica del futuro The coming century is surely the century of ” data. A combination of blind faith and serious purpose makes our society invest massively in the collection and processing of data of all kinds, on scales unimaginable until recently. Hyperspectral imagery, Internet portals, financial tick-by-tick data, and DNA microarrays are just a few of the better-known sources, feeding data in torrential streams into scientific and business databases ... Classical methods are simply not designed to cope with this kind of explosive growth of dimensionality of the observation vector. We can say with complete confidence that in the coming century high-dimensional data analysis will be a very significant activity, and completely new methods of high-dimensional data analysis will be developed; we just don’t know what they are.“ (David Donoho) È un momento particolarmente felice per la ” biostatistica in generale e per la statistica clinica in particolare. Gli sviluppi della biologia molecolare e della medicina stanno producendo enormi quantità di dati che devono essere ordinati e interpretati, creando cosı̀ una domanda di competenze statistiche mai vista in precedenza. Gli statistici clinici, cioè gli statistici che lavorano nella ricerca medica su umani, partecipano al clima di euforia grazie anche alla crescente disponibilità di risorse della ricerca medica, alla sua crescente matematizzazione e, con riferimento all’industria farmaceutica, grazie ad un ventennio di impressionante sviluppo. Per doveri legali e per tradizione culturale, l’industria farmaceutica è uno dei pochi settori produttivi che offre agli statistici la possibilità di una carriera non accademica di alto profilo scientifico. Insieme ai centri di cura e ricerca medica pubblici e privati, l’industria farmaceutica partecipa cosı̀ attivamente alla richiesta e alla produzione di metodologia statistica.“ (Mauro Gasparini) Basi di dati La struttura complessa e sorprendente degli spazi ad alta dimensione crea difficoltà non solo in statistica, ma ad esempio anche negli algoritmi di ricerca in grandi insiemi di dati (basi di dati in medicina, nell’industria, in geografia, in biologia molecolare) che spesso vengono rappresentati (mediante tecniche sofisticate di trasformazione) come punti di qualche o ad alta e talvolta altissima dimensione. Gli algoritmi di ricerca classici spesso utilizzano concetti di somiglianza basati ad esempio sulla vicinanza nella metrica euclidea che però in questi spazi ad alta dimensione perde gran parte del suo significato. Superare questa difficiltà è uno dei compiti più attuali e più interessanti studiati dalla teoria delle basi di dati. STATISTICA MULTIVARIATA Numero 1 a.a. 2004/05 4 = Il problema del guscio sia un sottoinsieme misurabile di misu in e . Allora stellato rispetto . sia . Per il volume all’origine e quindi del guscio si ha allora cioè ra e quindi = Ma E 4 3 V X ( ' ' 5 :/ ; > 4 = 4 F 4 Ma = Già in dimensione 5 si verifica un fenomeno molto sorprendente impossibile in dimensioni #" e probabilmente anche in dimensione 4. Troviamo infatti adesso una sfera in $ che interseca tutti i lati 4dimensionali del cubo unitario, ma non contiene il centro del cubo! Procediamo in questo modo: Il centro del cubo è 4 4 4 :/ 1@?X;2> 0/ > ' 5 :/ 1@?X;2> 0 / 1<;2?X; 0/ 1 e quindi bisogna avere 3 3 V 5 0/ 1 F per cui possiamo porre 5 T 0/ 1 :/ ' ?< /O/X/ ZK Anche F\H]J ( . V F % & ) ' ( '*( '+( '*( ' Modificato da Böhm/, pag. 6, in cui si dà un esempio per ! ? . Abbiamo chiamato questo esempio il paradosso delle pareti, perché per convincersi della stranezza dell’enunciato è sufficiente immaginare che una sfera possa intersecare tutte le pareti di una stanza cubica senza contenere il punto centrale della stanza. Questi fenomeni creano molti problemi nell’interpretazione statistica e nello sviluppo degli algoritmi in alte dimensioni. Il punto ,-& . ( ( ( ( 0/ 21 appartiene anch’esso al cubo. con Inoltre 3 , % 3 4 6587 4 9 587 ' 4 :/ ; :/ 1<1 ' ' 4 :/ ><" , allora = Se scegliamo il raggio = 0/ 1@?<;@> , per cui il centro % non appartiene alla palla di raggio = attorno a , . Facciamo adesso vedere che la sfera di raggio = interseca ogni lato 4-dimensionale del cubo. Un tale lato è dato dall’intersezione del cubo con un iperpiano dato da un’equazione C della forma A:B . Per sim oppure A:B . metria possiamo assumere che D dimostrare che esistono E È suffciente LK (GFIHIJ ( tali che i punti Il paradosso della sfera centrale Consideriamo un cubo stavolta con centro ' punnell’origine di e di lato ; . Nei T O in cui i segni ti della forma ^ ( /</O/ ( ^ o vengono scelti in tutte i modi possibili, poniamo una sfera di raggio 1 con centro in quel punto. Consideriamo poi la sfera con centro nell’origine tangente a tutte quelle altre sfere. Il suo raggio sia = . La situazione ' dalla figura in alto è illustrata per ! nella colonna accanto. diametro delT cubo è uguale a ' V Il! mezzo ' ' , abbiamo quine anche uguale a = di MONP& Q ( E ( E ( ( M 4 & (RFS( ( ( = da , . Abbiamo 3 M N , 3 4 4+T ' E 4 hanno distanza T e 3 M 4 , 3 4 4UT 4 F (1) Per M dobbiamo soddisfare l’equazione = per cui b = V ! V ! O ( = E V ' ' 5 T 0 / ; > T @5 52XW W 52XW 0/ ? /OX/ / : / @1 0/ " /O/O/ E Z K Abbiamo quindi HYJ ( . (2) Per M 4 dobbiamo avere 4 [ 4UT T 4 = F cioè = ' ' 5 :/ ; > per cui possiamo porre Il paradosso delle pareti Corso di laurea in matematica 4 ' 3E Siccome questo rapporto tende a ; ciò significa che il guscio occupa, con il crescere di ! , un volume relativo sempre maggiore. Questo fenomeno è importante in statistica perché implica che in alta dimensione la maggior parte di una popolazione casuale si troverà in posizioni marginali dello spazio dei dati venendo cosı̀ meno quanto si osserva nella stastica univariata in cui i valori di una popolazione normale si concentrano nella vicinanza del valore medio. e 4 ' > la sfera interCiò significa che per ! na tocca il bordo del cubo e per !a` esce addirittura da esse, benché le altre sfere rimangano naturalmente tutte contenute nel cubo. Da Gentle, pag. 297. quindi bisogna avere 4 4 = T ' E 4 5 _ Statistica multivariata O ( ; X ( Proiezioni ottimali La teoria delle proiezioni ottimali (che nella letteratura inglese appare sotto il nome di projection pursuit) è stata iniziata da Friedman e Tukey. Si cercano proiezioni ottimali rispetto a una funzione (indice) di rilevanza che può essere scelta in vari modi. Questo metodo interessante, piuttosto impegnativo nel calcolo, che, almeno nelle intenzioni, permette di superare le difficoltà delle alte dimensioni e che contiene come casi speciali e in un certo senso migliora molti metodi classici della statistica multivariata (come l’analisi delle componenti principali e l’analisi delle discriminanti) è esposto in un famoso articolo di Peter Huber e nella tesi di Guy Nason. Il pacchetto XGobi di R contiene funzioni per questa tecnica. www.stats.bris.ac.uk/ guy/Research/PP/PP.html www.ggobi.org Bibliografia 15561 C. Böhm/S. Berchtold/D. Keim: Sear- ching in high-dimensional spaces - index structures for improving the performance of multimedia databases. Internet ca. 2001, 74p. D. Donoho: High-dimensional data analysis - the curses and blessings of dimensionality. Internet 2000, 32p. 16486 M. Gasparini: La statistica nelle prove cliniche. Boll. UMI Mat. Soc. Cult. 6/A (2003), 119-140. 15981 J. Gentle: Elements of computational statistics. Springer 2002. 16041 17077 P. Huber: Projection pursuit. Ann. Statistics 13 (1985), 435-475. 17081 G. Nason: Design and choice of projection indices. PhD thesis Bath Univ. 1992. Remmert: Classical topics in complex function theory. Springer 1998. (1300/2) R. cdfe Docente: Josef Eschgfäller