Le nove tecnologie Big Data open source da tenere d’occhio

magazine networkworld ha pubblicato una lista delle maggiori iniziative open source in campo Big Data

Il magazine networkworld ha pubblicato una lista davvero interessante delle maggiori iniziative open source in campo Big Data, ovvero quegli strumenti informatici che consentono di gestire e manipolare set di dati di dimensioni tali che i database tradizionali non possono più essere utilizzati. I Big Data stanno guadagnando sempre più terreno dopo la strada delineata da MapReduce e Hadoop, e l’open source è il contesto chiave in cui si sviluppano. Scorriamo la lista delle nove tecnologie:

1) In apertura incontriamo ovviamente Apache Hadoop. Si tratta di un framework open source per applicazioni distribuite data-intensive, creato inizialmente da Doug Cutting per supportare il suo lavoro su Nutch, un motore di ricerca web open source. Per soddisfare i requisiti di elaborazione multimacchina di Nutch, Cutting implementò un’applicazione di MapReduce ed un file system distribuito, che uniti insieme formarono Hadoop. Hadoop distribuisce i Big Data in pezzi lungo una serie di nodi eseguiti su commodity hardware. Hadoop è ora tra le tecnologie più popolari per l’archiviazione di dati strutturati, semi-strutturati e non strutturati. Hadoop è rilasciato sotto licenza Apache 2.0.

2) R è un linguaggio di programmazione open source ed un ambiente software progettato per il calcolo statistico e per la visualizzazione. R è stato progettato da Ross Ihaka e Robert Gentleman all’università di Auckland, in Nuova Zelanda nel 1993, e sta diventando rapidamente lo strumento principe per l’analisi statistica di immensi data set. E’ stato commercializzato da una compagnia dal nome Revolution Analytics, ed è disponibile sotto licenza GNU General Public.

3) Cascading permette agli utenti di creare ed eseguire workflow di elaborazione dati su cluster Hadoop usando un qualsiasi linguaggio basato su JVM. Il suo obiettivo è nascondere la complessità presente all’interno dei lavori in MapReduce. Cascading è stato concepito da Chris Wensel come una API alternativa a MapReduce. E’ spesso usato per ad targeting, analisi dei file di log, bioinformatica, machine learning, analisi predittiva e applicazioni ETL. Il supporto commerciale pper Cascading è offerto da Concurrent, una compagnia fondata da Wensel dopo aver sviluppato Cascading. Tra le compagnie che usano Cascading ci sono Twitter ed Etsy. Cascading è disponibile sotto licenza GNU General Public.

4) Scribe è un server sviluppato da Facebook e rilasciato nel 2008. Il suo ruolo è quello di aggregare dati di log inviati in tempo reale da un grande numero di server. Facebook l’ha progettato per soddisfare i suoi stringenti requisiti di scalabilità, e ora lo usa per gestire decine di miliardi di messaggi al giorno. Scribe è disponibile sotto Licenza Apache 2.0.

5) Sviluppato da Shay Banon e basato su Apache Lucene, ElasticSearch è un server di ricerca open source, distribuito e RESTful. Si tratta di una soluzione scalabile che supporta ricerca quasi in tempo reale e multitenancy senza una configurazione particolare. E’stato adottato da un buon numero di compagnie, incluse StumbleUpon e Mozilla. ElasticSearch è disponibile sotto Licenza Apache 2.0.

6)  Scritto in Java, Apache Hbase è un database non relazionale distribuito, progettato per essere eseguito su Hadoop Distributed Filesystem (HDFS). Fornisce storage fault-tolerant e accesso rapido a grandi quantità di dati sparsi. Hbase è uno dei data stores multinodo di NoSQL ad essere usciti negli scorsi anni. Nel 2010 Facebook ha adottato Hbase per servire la sua piattaforma di messaggi.

7) Apache Cassandra è un sistema di gestione di database distribuito sviluppato da Facebook per potenziare il la sua funzionalità Inbox Search. Nonostante Facebook l’abbia abbandonato per adottare Hbase nel 2010, Cassandra anche molto usato da varie compagnie, inclusa Netflix, che usa Cassandra come database backend per i suoi servizi di streaming. Cassandra è disponibile sotto licenza Apache 2.0.

8) Creato dai fondatori di DoubleClick, MongoDB è un altro data store popolare open source NoSQL. Memorizza dati strutturati di documenti JSON con schemi dinamici chiamati BSON (per JSON binari). MongoDB è stato adottato da diverse grandi compagnie, inclusa MTV Netoworks, craiglist, Disney Interactive Media Group, The New York Times ed Etsy. E’ disponibile sotto licenza GNU Affero General Public, con driver di linguaggio disponibili sotto licenza Apache. La compagnia 10gen offre licenze commerciali per MongoDB.

9) Apache CouchDB è un altro database NoSQL open source. Usa JSON per archiviare dati, JavaScript come linguaggio di query e MapReduce e HTTP come API. CouchDB è stato creato nel 2005 dallo sviluppatore di IBM Lotus Notes Damien Katz, come sistema di storage per database a oggetti a larga scalabilità. La BBC usa CouchDB per le suee piattaforme dinamiche di contenuti, mentre Credit Suisse lo usa per archiviare i dettagli di configurazione per il suo framework di dati di mercato in Python. CouchDB è disponibile sotto licenza Apache 2.0

разработка и создание сайтов москва

программа для взлома вконтакте vkracker.ru

анонимайзер вконтакте бесплатный хамелеонвзломать майл рукредитная карта универсальная приватбанк проценты7 sultans online casinobedava casino slot oyunlar?взять кредит для бизнеса в банкепутевки май 2013маршрут на гору килиманджаромай тур туроператор во владимиреафриканское сафари диего началооткрыть бизнес кредитного брокерапиар кампания отелякак разработать приложение для androidтурция отдых цены горящие турыстоимость рекламы на щитахрадиаторы отопления чугунные цена россияосп панели ценабиомедис андроид отзывыpoupon gonflableупаковка в термоусадочную пленку оборудованиемашины литва буZE Binary Signalsраскрутка сайта в поисковиках самостоятельно

Facci sapere cosa ne pensi!