proyecto venus

Visit The Venus Project

martes, 1 de septiembre de 2009

DE TERABYTES A PETABYTES: CIENTIFICOS DE YALE DESARROLLAN UN NUEVO SISTEMA DE BASES DE DATOS HIBRIDO

Como las cantidades de datos que se almacenan por bases de datos de todo el mundo entra en el ámbito de la petabyte (la cantidad de datos almacenados en una pila de milla de altura de discos de CD-ROM), gestión de datos eficaz es cada vez más importante. Ahora informáticos en la Universidad de Yale han desarrollado un sistema nuevo de base de datos al combinar las mejores características de varios métodos para crear un sistema híbrido de código abierto llamado HadoopDB.

Los enfoques tradicionales de administración de datos en esta escala normalmente se dividen en dos categorías. El primero incluye sistemas de gestión de paralelo de base de datos (DBMS), que son buenos para trabajar con datos estructurados que contienen, por ejemplo, tablas con billones de filas de datos. El segundo incluye el tipo de enfoque adoptado por MapReduce, el marco de software utilizado por Google para buscar datos contenidos en la Web, lo que le da al usuario más control sobre cómo se recuperan los datos.

“ En esencia, HadoopDB es un híbrido de MapReduce y tecnologías de DBMS paralelos, ” dijo Daniel Abadi, profesor auxiliar de informática en Yale y uno de los diseñadores de sistemas. "Se ha diseñado para tomar las mejores características de ambos mundos. Obtenemos el rendimiento de sistemas de base de datos paralelo con la escalabilidad y facilidad de uso de MapReduce."

HadoopDB fue anunciado en el blog del Abadi el mes pasado. Estudiantes graduados de Yale y co-creators Abouzeid de Azza y Kamil Bajda-Pawlikowski presentará más profundidad detalles del nuevo sistema en la Conferencia VLDB en Lyon, Francia el 27 de agosto. También estarán presentes los resultados de un análisis de rendimiento detallada que realizaron con Abadi, AVI Silberschatz, Presidente de la informática en Yale y Alexander Rasin de Brown University. El equipo demostrara el rendimiento del sistema en una serie de consultas representativos en la Conferencia, tanto en los datos estructurados y se describen las características del HadoopDB a lo largo del rendimiento de tiempo de ejecución, tiempo de carga, dimensiones de la tolerancia y la escalabilidad a errores.

HadoopDB reduce el tiempo necesario para realizar algunas tareas típicas desde los días a horas, haciendo más complicados análisis posible – el tipo que podría utilizarse para encontrar patrones en el mercado de valores, los terremotos, comportamiento del consumidor y incluso brotes, dijo Abadi. “ Personas tienen todos estos datos, pero no está usando en la forma más eficiente o útil ”.

Con las enormes cantidades de datos que se recopila y utiliza en las bases de datos de hoy, de consumidores la información es utilizada por las cadenas minoristas para mejorar experiencias de compras y reducir el abandono de cliente a la información financiera recogida por los bancos para reducir el riesgo y evitar otro catastrófico colapso financiero, el ser capaz de almacenar y analizar esas grandes cantidades de datos continuará creciendo en importancia, dijo Abadi.

Yale University

No hay comentarios:

Publicar un comentario