Deduplicazione, 10 domande e 10 risposte definitive

Data storageWorkspace

Breve vademecum alle tecniche di deduplicazione dei dati

Cosa è la deduplicazione dei dati ?
La deduplicazione cerca le ridondanze nelle sequenze di byte attraverso finestre di confronto molto vaste

Perché deduplicare i datì?
Eliminare i dati ridondanti può ridurre in modo significativo i requisiti di storage, migliorare l’efficienza di banda per le repliche in applicazioni di disaster recovery, abbreviare i tempi di backup/ripristino

Come funziona le deduplicazione dei dati?
Le operazioni di deduplicazione segmentano il flusso dei dati in arrivo, identificano in modo unico i segmenti di dati e li confrontano con i segmenti di dati già memorizzati. Se un segmento di dati in ingresso è un duplicato di quanto già memorizzato, non viene più immagazzinato una seconda volta , ma si crea solamente un riferimento ad esso.

Single Instance Store è una forma di deduplicazione?
Con il SIS ( Single Instance Store) si eliminano i duplicati salvando un’unica istanza di dati o di file. Ad esempio se si cambia il titolo di un documento di Word, con una procedura SIS si manterrà la prima copia e si memorizzerà l’intera copia del documento modificato. Ogni cambiamento al file richiede che sia memorizzato l’intero file modificato. Se i file cambiano in modo frequente non si ottiene alcun beneficio dal SIS. La deduplicazione dai dati, che riduce i dati a livello di sotto -file, inferiore a quello di file, in questo caso è in grado di riconoscere che è stato modificato solo il titolo e di mettere in memoria solo il nuovo titolo.

Quali livelli di riduzione di dati ridondanti bisogna aspettarsi?
La ridondanza varia in funzione dell’applicazione, della frequenza di acquisizione delle nuove versioni e delle policy di conservazione dei dati. Le variabili chiave da considerare sono: periodicità di modifica dei dati, frequenza dei backup, periodo di mantenimento, dimensioni del set dei dati. Quando si vogliono confrontare approcci diversi bisogna farlo da una base comune.

Qual è la differenza tra deduplicazione in-line e post-processo ?
Nella deduplicazione in-line i dati sono deduplicati prima ancora di essere scritti su disco. La deduplicazione post-processo analizza e riduce i dati dopo che sono stati memorizzati su disco, aggiungendo in pratica un passo in più da compiere prima di eseguire la replica dei dati.

Come la deduplicazione migliora la replica dei dati e il disaster recovery?
Con la deduplicazione molto meno dati devono essere trasmessi per tenere aggiornato un sito di disaster recovery: la replica è più veloce e si possono utilizzare collegamenti WAN più economici.

E i rapporti tra deduplicazione e prestazioni di backup e restore?
I tempi di accesso per il ripristino saranno più veloci che con il nastro perché l’accesso è online e di tipo casuale, ma il throughput è variabile in funzione del venditore.

Quali costi ‘upfront’ richiede la deduplicazione?
Solo se avviene in modalità post –processo la deduplicazione richiede la disponibilità di capacità di storage addizionali per immagazzinare temporaneamente i dati di backup duplicati. Questa capacità in più dipende dalle dimensioni del data set da proteggere, dal numero dei job quotidiani di backup e da quanto tempo la tecnologia di deduplicazione sequestra questa capacità di storage prima di rilasciarla al sistema.

Quali sono le best practice da seguire nella scelta di una soluzione di deduplicazione?
• Assicurare un’agevole integrazione negli ambienti esistenti
. • Procurarsi referenze del fornitore nel vostro ramo di industria
. • Eseguire progetti pilota del prodotto o della tecnologia nel vostro ambiente
• Comprendere la roadmap del prodotto del fornitore scelto.

Intervento di Philip Turner, Regional Director (UK & Ireland) di Data Domain

Read also :
Autore: Silicon
Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore