Categoria: News
Tag: Big Data, eBay, Hadoop, Hbase, MapReduce, NoSQL

Le tecnologie dietro il flusso di dati di eBay

Author Photo
postato il 1 Febbraio 2012
(5 commenti)

Per eBay il Big Data costituisce una linfa vitale. La compagnia ha 100 milioni di utenti attivi globalmente, 300 milioni di liste da archiviare in ogni momento, riceve due miliardi di viste ogni giorno, e gestisce 250 milioni di query e 75 miliardi di chiamate al database ogni giorno.

Come fa dunque eBay a tenere strette le redini di tutte queste attività? la chiave è Hadoop.

Il Team di experience, search and platforms di eBay si occupa di scegliere la migliore user experience e svolge ricerche in quest'ambito tentando di comprendere al meglio ciò di cui il consumatore ha bisogno e le azioni che compie dentro il sito. Per assicurarsi che questo obiettivo venga raggiunto eBay ha bisogno di dotare i suoi ingegneri dei migliori strumenti adatti per analizzare le moli di dati immense che colleziona il servizio web della compagnia. Per questo motivo gli strumenti usati sono Teradata per il data warehouse e un ambiente in continua crescita basato su Hadoop.

Hugh Williams, vice presidente del team experience, search and platforms dice che la scelta di Teradata aiuta a venire incontro agli analisti finanziari che prediligono strumenti quali SQL e hanno esperienze in WYSIWYG. Per quanto riguarda Hadoop invece questo è amato da gran parte degli ingegneri della compagnia ed ha la grande capacità di archiviare e processare dati non strutturati come ad esempio log dei server, query di ricerca e clickthrough, per questo all'interno del team è usato ormai come il pane.

Le esigenze di eBay sono quelle di un'organizzazione che archivia dati per un totale di 10 petabyte circa, come riferito da Williams, e con un volume sempre crescente. In appena un anno l'ambiente Hadoop ha raddoppiato le sue dimensioni, in parte per via del maggiore streaming di dati realizzato dagli utenti, e in parte a causa del lavoro degli analisti che hanno eseguito parecchie operazioni in Hadoop creando nuovi dataset di considerevoli dimensioni, usati e archiviati in sistema.

Il motivo per cui usiamo Hadoop è che abbiamo bisogno di comprendere il comportamento dei consumatori ed i loro bisogni, ha detto Williams. Questo può essere realizzato sia in larga scala, migliorando l'accuratezza del motore di ricerca, ma anche più finemente costruendo specifiche funzionalità che le analisi dei dati suggeriscono gli utenti desidererebbero. Per esempio, come spiegato da Williams, Hadoop si è dimostrato utile nel decifrare pattern di parole errate, ed ora il motore di ricerca di eBay sa come guardare ad una parola usata o ad un prodotto reale quando gli utenti eseguono certe query in maniera errata.

Indice
  1. Le tecnologie dietro il flusso di dati di eBay
  2. 2
Author Image Bio

Chi è Lorenzo Monni

Aiutaci a migliorare facendoci sapere se hai apprezzato questo articolo.