Memorizzazione di una

Transcript

• Heap file
• File ordinati
• Indici
o Hash
o B+-tree
• Costo delle operazioni algebriche
Simboli:
•
•
•
•
NP: numero di pagine
NR: numero record
LP: lunghezza pagina
LR: lunghezza record
Memorizzazione di una relazione
Heap: file non ordinati.
•
•
•
•
Occupazione memoria: NP = (NR*LR)/LP
Costo ricerca per chiave = NP/2 oppure NP (se la chiave è presente o no)
Costo ricerca per intervallo: σ( k1 <= k <= k2) (R) = NP
Ricerca con selezione di uguaglianza: σ( A=a) (R) = NP
Esempio: Si consideri una relazione di NR=30.000 tuple, ognuna di lunghezza LR=100 byte,
memorizzate su pagine di lunghezza LP=1024 byte. Le tuple sono indivisibili. Pertanto, il numero
di pagine necessario è pari a NP=30000*100/1024 = 3000.
Una qualsiasi ricerca quindi costa C= 3000 (1500 in media nel caso di ricerca per chiave).
File ordinato
•
•
•
•
•
Occupazione memoria: NP = (NR*LR)/LP
Costo ricerca sequenziale (per chiave) = NP/2 (caso medio)
Costo ricerca binaria (per chiave) = log(NP) (caso peggiore)1
Costo ricerca per intervallo (k1 <= k <= k2), dove K è la chiave di ordinamento: σ( k1 <= k
<= k2) (R) = log(NP) + f * NP - 1, dove f = (k1-k2)/(kmax-kmin)
Ricerca con selezione di uguaglianza: σ( A=a) = log(NP) + f * NP - 1, dove f è la
frazione di record che soddisfano il predicato di selezione
Esempio:
Una ricerca binaria costa log2(3000) = 12 accessi a pagine.
Siano Kmax=10.000, Kmin=1000, K1=300, K2=500. Il costo della ricerca per intervallo è
12+0,02*3000= 72 pagine
1
Deve essere supportato l’accesso diretto alle pagine; ciò richiede che siano memorizzate sequenzialmente
1
INDICI
Definizioni:
Un indice è una struttura dati (ausiliaria) che velocizza le ricerche per chiave (di ricerca). Esso può
essere calcolato (funzioni hash) o tabellato. In quest’ultimo caso, esso è un insieme di coppie (k,p),
dove k è un valore della chiave e p è il puntatore alla pagina che contiene il record (o i record) con
chiave k.
Un indice può essere:
• primario: l’attributo di indicizzazione è chiave (o superchiave)
• secondario: l’attributo di indicizzazione non contiene una chiave (quindi, in generale, ammette
duplicati)
• clustered: la relazione è ordinata rispetto all’attributo di indicizzazione.
Indice calcolato - FUNZIONE HASH (statico)
È una tecnica di ricerca e/o memorizzazione
L’indice può essere primario o secondario
Se usato anche per memorizzare allora è clustered
h(k) = k mod n, dove
•
•
k: codifica numerica della chiave
n: numero di pagine del file
h(k) = k mod n = ultimi logn bit di k (se n è una potenza di 2)
Problema sinonimi: più chiavi vengono assegnate alla stessa pagina – gestione dell’overflow
Indice Tabellato – B+-tree
Un B+-tree di ordine m ≥3 è un albero (ad m vie)
1.
2.
3.
4.
5.
6.
bilanciato (le foglie sono tutte allo stesso livello)
L’ordine m è il numero max di figli (puntatori) di ogni nodo non foglia;
ogni nodo non foglia, tranne la radice, ha almeno m/2 figli
se un nodo non foglia ha j valori della chiave, ha j+1 figli
i valori all’interno di un nodo sono ordinati
ogni foglia ha almeno  m/2  coppie (valore, puntatore al record), un puntatore alla foglia
successiva ed uno a quella precedente; tali coppie sono ordinate
7. Ogni chiave appare in una foglia
8. Ogni nodo è memorizzato in una pagina
ESEMPIO. Si supponga che l’attributo di indicizzazione sia lungo 9 byte e che il puntatore alle
pagine sia lungo 6 byte. Se m è l’ordine dell’albero, ogni nodo interno può contenere al massimo
(m-1)*9 chiavi e m*6 puntatori. Nell’ipotesi che una pagina sia lunga 512 byte
(m-1)*9 + m*6 <= 512
15 m <= 521
m= 34
Se ogni nodo non foglia ha m figli e l’altezza è h, allora ci sono mh-1 nodi foglia. Nella pratica, il
valore medio di figli è F minore di m (70%). Se F=100, allora un albero di altezza 4 ha più di un
milione di puntatori alle tuple. La ricerca di una tupla richiede quindi 4+1 accessi.
2
L’altezza di un albero è di norma 3-4.
ESEMPIO. Assumendo m=34 e che ogni nodo sia completo al 100%, avremo la seguente
situazione:
o LIVELLO 1: 1 nodo (radice), 33 chiavi, 34 puntatori
o LIVELLO 2: 34 nodi, 33*34=1112 chiavi, 34*34=1146 puntatori
o LIVELLO 3: 1112 nodi, 1112*33=37.026 chiavi, 1112*34 = 38.148 puntatori
o LIVELLO 4: 38.148 nodi, 1.258.884 chiavi, 1.297.032 puntatori
Una ricerca in una relazione 1.300.000 tuple costa dunque 4 accessi. Se si facesse una ricerca
binaria, nell’ipotesi di LR=100 e LP=1024, il costo sarebbe pari a circa 17 pagine.
Se l’attributo di indicizzazione della relazione R (di 30.000 tuple) dell’esempio precedente ha valori
univoci (non ammette duplicati) sono quindi necessari 3 livelli (per memorizzare 30.000 chiavi). Se
invece l’attributo ammette duplicati, potrebbero bastare meno di 3 livelli.
Se il B+-tree è un indice primario, in genere le foglie memorizzano le tuple (indice clustered).
Si noti che in tal caso, essendo le foglie riempite parzialmente, l’occupazione di memoria è
maggiore di quella che si avrebbe con una memorizzazione heap o ordinata.
Se l’indice è secondario:
o clustered: la relazione è ordinata sull’attributo di indicizzazione; ogni chiave in un nodo foglia
punta alla pagina che contiene la prima tupla con un dato valore dell’attributo
o non clustered: la relazione non è ordinata sull’attributo di indicizzazione. Siccome esistono i
duplicati, ogni puntatore delle foglie punta ad un blocco di indici che contiene i puntatori a tutte
le tuple con un dato valore della chiave.
Implementazione Operatori Relazionali con gli indici
Gli operatori dell’algebra relazionale possono essere implementati in modi diversi, a seconda del
tipo di organizzazione fisica delle relazioni coinvolte.
Selezione - Esempio: σ(A=a and B=b) (R)
1. in presenza di indici su A e/o B: si sceglie quello più selettivo per la selezione primaria; il costo
dipende da vari fattori: A è chiave primaria? Il file è ordinato rispetto ad A? Come è
implementato l’indice?.
• A è chiave (o comunque non ammette duplicati), l’indice è un B+-tree. Allora il costo è dato
dalla seguente: C=h+1
• A non è chiave (ammette duplicati), R è ordinata su A, l’indice secondario è un B+-tree
(indice di cluster) di altezza h. Allora il costo è dato dalla seguente formula: C = h+1+
sel(A=a) * pages(R)
• A è chiave (o comunque non ammette duplicati), R non è ordinata su A, l’indice secondario
è un B+-tree di altezza h. Allora il costo è dato dalla seguente formula: C = h+1
• A ammette duplicati, R non è ordinata su A, l’indice secondario è un B+-tree di altezza h.
Allora il costo è dato dalla seguente formula:C = h+1+1 + Sel(A=a)*Card(R) 
2. uso di funzione hash se definita su A o B
3
Join: R ⊗ S.
•
Nested loop con R esterna: C = Pages(R)+Pages(R)*Pages(S)
for each page r of R
transfer r in main memory
for each page s of S
transfer s in main memory
join each tuple in r with each tuple in s
•
Index nested loop: assumiamo che la condizione di join sia R.A = S.B; se esiste un indice
(ad es., B+-tree) sull’attributo di giunzione B di S, questo può essere usato per implementare
la suddetta condizione; se l’indice è di ordinamento (clustered) allora il costo è: C=
Pages(R) + n * (h+ 1+sel(B=a) * pages(R) ), dove n è la cardinalità di R ed a è un
generico valore dell’attributo A di R (per semplicità, si assume una distribuzione uniforme
dei valori di A)
for each page r of R
transfer r in main memory
for each tuple of r
let r.a be the value of the join attribute
search the first s.a through the B+-tree
scan the pages of S
for each tuple s of S with s.a
join r and s
•
SortMerge: R e S sono ordinate rispetto agli attributi di giunzione A e B. Se A è chiave
primaria di R, l’algoritmo è il seguente:
r = prima tupla di R
s = prima tupla di S
while (r != null and s !=null)
if r[A] = s[B]
{aggiungi <r, s> al risultato
s+;}
else if r[A] < s[B] r++
else s++
Il costo è C= Pages(R)+ Pages(S)
ESEMPIO. La relazione IMP ha un indice secondario B+-tree sull’attributo Dip. La relazione DIP
ha un indice primario hash sull’attributo codice.
IMP ha 10.000 tuple memorizzate su 2.000 pagine.
DIP ha 125 tuple memorizzate su 13 pagine.
Il B+-tree ha 3 livelli.
Ogni DIP ha in media 10.000/125=80 IMP.
IMP non è ordinato su Dip. Quindi il B+-tree ha un ulteriore livello che contiene i blocchi di
puntatori
Costi del join:
4
1)
2)
3)
4)
nested loop, IMP X DIP C = 2000+(13*2000) = 28.000 pagine
nested loop, DIP X IMO, C = 13+(13*2000) = 26.013
Uso hash su DIP con IMP esterno C = 2.000 + 10.000 = 12.000
Uso B+tree su IMP con DIP esterno C = 13 + 125(3+1 + 80) = 10.500
5

Memorizzazione di una

Transcript

Documenti analoghi

AGCM: attenzione a The Yellow Pages

Leggi il Prologo

ICMS - Istruzioni per aggiungere un link interno (File pdf

la piccola compagnia del libro incantato

Quanto costa il mantenimento di un sito Internet?

IBM Infoprint 1412

Programma python Scrivere un programma python che: • prenda in

Questionario per la creazione di un sito internet Il

AA… come Agende Agricole

Il master in "Scienza e Tecnologia Spaziale" dell`Universita` di Roma