NetApp: deduplikacija – Osnove

NetApp storage sistemi nude raznorazne korisne i napredne opcije, ovim tekstom ćemo zaviriti u NetApp deduplikaciju.
Deduplikacija je proces u kome se uklanjaju duplikarni data blokovi u okviru jednog volumena (samim tim i LUN-a) čime se dobija ušteda u prostoru. Snapshoti se takođe dedupliciraju i dokle god je neki blok alociran nekim snapshotom, neće biti označen kao slobodan. NetApp deduplikacija je ključna tehnologija u podizanju nivoa efikasnosti storage sistema.

NetApp storage sistemi razlikuju tri osnovna entiteta:

  • 1 – Data ONTAP – operativni sistem
  • 2 – Write Anywhere File Layout – WAFL – fajl sistem
  • 3 – fizički blokovi za smeštanje podataka – DATA blocks

netapp-deduplication

Podaci koji su došli do NetApp storage sistem, preko bilo kog od protokola (NFS/FC/iSCSI/CIFS), WAFL ih smešta unutar svoje strukture. WALF kao i svaki moderni fajlsistem sastoji se od grupe superblokova, inodeova, metadate i samih 4k data blokova. Samo nad DATA blokovima se vrši deduplikacija dok superblokovi i inodeovi ostaju u originalnom stanju.

Prilikom upisa, DOT prihvata podatke i stavlja ih u NVRAM. prilikom ovog procesa vrši se hashovanje podataka tj. uzimanje ‘otiska prsta’ – fingerprint. Ovaj proces se radi u svakom slučaju, imali ili ne uključenu deduplikaciju na sistemu, radi provere konzistentnosti podataka. Ovaj fingerprint deduplikacija koristi radi određivanja unikatnosti određenog data bloka i na osnostu toga donosi zaključak da li je to novi ili već postojeći blok sa podacima. Proces deduplikacije ažurira svoju tabelu fingerprint-a (FP).

netapp-deduplication2

Prilikom svakog upisa, proces deduplikacije dobija kopiju fingerprinta koji smešta u svoju tabelu. Teoretski ovaj proces mora da unosi nekakav overhead, u laboratoriskim uslovima je ustanovljeno da on iznosi oko 7% na sve write operacije i NetApp insistira da taj procenat nije nikada veći, pri čemu mi to nismo uspeli da uočimo, odnostno na volumenima na kojima je uključena deduplikacija ne vidimo pad u performansama u osnosu na volumene na kojima nije uključena.

Prilikom inicijalnog pokretanja deduplikacije nad nekim volumenom, ukoliko u volumenu ima podataka, deduplikacija će skenirati sve podatke i napraviti svoju tabelu (katalog, bazu) fingerprintova koju će naknadno samo ažurirati. Konkretno, tokom ovog procesa na manjim sistemima (FAS 2020, FAS 22xx) smo uvideli pad performansi ukoliko je storage pod većim opterećenjem (preko 60% CPU, preko 75% disk utilization), dok na nešto većim sistemima (FAS 3240, FAS 3250) ovu degradaciju nismo uočili. Sam sistemski proces koji izvršava deduplikaciju ima najniži mogući prioritet, odnosno, izvršava se unutar CPU vremana koje bi bilo neiskorišćeno.
Deduplikacija ima pozitivne efekte na brzinu čitanja određenih blokova kada se koristi u kombinaciji sa FlashCache-om, naime blok koji se češće čita biće duže u kešu, samim tim pristup tom bloku će biti brži.

netapp-deduplication3

U svakom slučaju, penal za READ i WRITE operacije, može značajno da varira u zavisnosti od šeme i tipa podataka (random vs. sekvencijalno čitanje/pisanje, kako klijentska aplikacija radi sa podacima, da li prethodno alocira prazne blokove ili ne i sl.). NetApp vam daje alate uz pomoć kojih možete da dobijete procenu koliki će biti efekti deduplikacije.

Da bi sistem otpočeo deduplikaciju, potrebno je da se izvrši inicijalno skeniranje koje može da se podesi u određeno vreme, pokrene ručno iz komandne linije ili će biti pokrenutno automatski u zavisnosti od rasta podataka i podešene margine (na pr. ukoliko ima više od 20% novih ili promenjenih podataka). Sistem izvršava proces deduplikacije uvek isto, bez razlike u odnosu na to kako je iniciran.

Finalno pitanje – koliko zapravo deduplikacija štedi prostora?
Ušteda zavisi od tipa podataka, da li aplikacija koja skladišti podatke ima internu deduplikaciju (na pr. Oracle) i slično. Neki tipični primeri su:

Tip aplikacije ušteda u prostoru
Email od 3-15%
Baze podataka od 20%
Fajl server do 30%
Backup do 95%
Virtuelni serveri do 30%

Ušteda može ZNAČAJNO da varira, da bude mnogo bolja ili da je uopšte nema ali su to ekstremni slučajevi, najčešće će ušteda biti 10% i više.

Primer iz realnosti:

Filesystem used saved %saved
/vol/vol10/ 1382GB 366GB 21%
/vol/vol11/ 1081GB 483GB 31%
/vol/vol12/ 3909GB 1732GB 31%
/vol/vol13/ 274GB 20GB 7%

Ukoliko želite da počnete da koristite – tu je NetApp deduplikacija How To

Izvori + grafika:
NetApp DrDedupe
NetApp TR-3505
NetApp Back to basics: Deduplication

Ako vam se vest učinila zanimljivom razmislite o tome da napišete komentar ili je podelite sa svojim prijateljima na društvenim mrežama.

No comments yet.

Imaš komentar?