Big data, Microsoft presenta Azure Data Lake

In occasione del Build 2015, Microsoft ha presentato Azure Data Lake, un Hadoop file system compatibile con HDFS che permette analisi su tutti i tipi di dati

Big data, Microsoft presenta Azure Data Lake

Il concetto di data lake è relativamente nuovo nel mondo dei big data. Il data lake, letteralmente tradotto in lago di dati, è una sorta di immenso archivio dove vengono raccolti tutti i dati grezzi nel loro formato nativo, fino a quanto non devono essere processati.  Con i data lake ogni tipo di dato può essere conservato indipendentemente dalle sue dimensioni, dalla struttura, dalla velocità con cui viene processato e così via.

A differenza di un data warehouse gerarchico che organizza i dati in file e cartelle, un data lake utilizza un’architetture piatta. Ad ogni dato viene assegnato un identificativo univoco e viene etichettato con dei meta tag. Quando si attiva un processo, il data lake viene interrogato e piccole quantità di dati vengono analizzate per rispondere alla richiesta.

In linea di massima il termine data lake viene attualmente associato con lo storage ad oggetti Hadoop-oriented, ma questa nuova tecnologia per i big data può essere anche sfruttata come deposito dei dati prima che questi vengano processati e spostati verso un data warehouse.

Il reale potenziale dei data lake deve ancora essere svelato. Fino ad oggi i possibili clienti sono stati frenati nell’utilizzo dei data lake a causa di alcuni limiti che riguardano la capacità di memorizzazione, la scalabilità, le prestazioni e il costo.

Nel corso del Build 2015, Microsoft ha presentato Azure Data Lake, un repository hyperscale per big data nel cloud. Si tratta di una soluzione compatibile con HDFS, che dispone di capacità di throughput elevate e di grado enterprise. Ma vediamo le caratteristiche nel dettaglio.

Le caratteristiche di Microsoft Azure Data Lake

Azure Data Lake è un Hadoop File System compatibile con HDFS che consente alle offerte Microsoft, come Azure HDInsight, Revolution-R Enterprise, e alle distribuzioni Hadoop, come Hortonworks e Cloudera, di connettersi ad esso.

L’obiettivo di Azure Data Lake è quello di far eseguire Hadoop e analisi avanzate su tutti i tipi di dati. Per far ciò è necessario che il data lake sia in grado di supportare query parallele massicce, in modo che le richieste possano essere processate in maniera tempestiva. Azure Data Like, soddisfa questo requisito e non pone limiti alla quantità di dati che possono essere registrati in un unico account. Non è fissato alcun limite neppure alle dimensioni e al formato del singolo file. Inoltre Azure Data Lake è stato progettato per gestire elevati volumi di piccoli dati compilati con una bassa latenza, il che fa si risulti ideale per scenari in tempo reale, come ad esempio analisi di siti web, Internet of Things, analisi di sensori e così via.

Microsoft che da tempo è attenda alla problematica dei big data e che è stata in grado di fornire soluzioni come Azure HDInsight, Azure Data Factory, Revolution-R Enterprise e Azure Machine Learning, si dice soddisfatta di questo nuovo progetto ed è certa che Azure Data Lake porterà grandi miglioramenti a questo ecosistema. I clienti saranno soddisfatti di poter eseguire le loro analisi su Exabyte di dati.кредитные карты всех банков без справоккупить зденек вагнер африканское сафари ценаобразец заявления на получение кредита в сбербанкетурци¤ в мае туры ценыэкскурси¤ на килиманджаро стоимостьтур с посещением килиманджарорепутация в интернетемальдивы горящие путевки 2015серебряная посуда москвацена полотенцесушителярадиаторы отопления в спбканадский дом отзывылечение гепатита с в харьковестилус эпл ценапроверка позиций сайта онлайнготовим жульен видео3x осевой стабилизатор для гопроindex