Categorie
Guide News

Gestione di dati non strutturati, l’era degli archivi ad oggetti

Un esempio chiarificatore è dato da ciò che Picasa fa per noi: fino ad un po’ di tempo fa avremmo archiviato le immagini organizzandole al meglio in un file system (possibilmente con un buon backup). Una cartella all’anno, una al mese, o una per vacanza ed una per ogni festa. Oggi semplicemente scarichiamo tutte le immagini in una cartella e Picasa le riordina basandosi sulla data, la località, il riconoscimento del volto o altri metadati. Con una query intelligente, possiamo visualizzare le immagini che stiamo cercando molto velocemente, molto più velocemente che servendoci dei file system. E non dobbiamo più preoccuparci di avere un backup di quei dati perché possiamo archiviare le copie nel cloud automaticamente.

Il nuovo paradigma che ci aiuterà ad archiviare grandi quantità di dati non strutturati è l’Object Storage (potremmo chiamarlo in italiano Archiviazione ad oggetti). Tali sistemi sono riserve uniformemente scalabili di archivi accessibili attraverso un’interfaccia REST. All’interno di queste riserve un identificatore ha il compito di localizzare un oggetto quando richiesto. Applicazioni modellate per funzionare su questi archivi a oggetti useranno questi identificatori attraverso il protocollo REST.

Di cosa abbiamo bisogno quindi per costruire un sistema Object Storage? Fondamentalmente servono “solo” molti dischi, una API REST ed un modo per assicurare la durabilità. Questo potrebbe essere realizzato con sistemi tradizionali come RAID ma il problema è che il RAID richiede una grande quantità di overhead per fornire una disponibilità sufficiente. Più dati salviamo più diventa arduo tirar su una cifra pari al 200 per cento di overhead come fanno alcuni sistemi. Un modo più intelligente per assicurare la durevolezza per archivi ad oggetti è l’erasure encoding.

Lascia un commento