ATOMICDFS: Cómo lograr un almacenamiento distribuido de datos muy consistente

16 Diciembre 2016

Uno de los desafíos fundamentales de la informática es el almacenamiento eficaz de los datos. El valor socioeconómico y la escala de la información aumentan día a día por lo que investigadores del instituto madrileño IMDEA Networks han estado trabajando para asegurar no sólo que los datos almacenados digitalmente perduren, sino también que sean fácilmente accesibles, fiables y, por encima de todo, consistentes.


En los últimos años, la generación masiva de datos junto con frecuentes fallos de almacenamiento ha incrementado la popularidad de los sistemas de almacenamiento distribuido como Dropbox, Google Drive o Microsoft OneDrive, los cuales permiten replicar los datos en diferentes dispositivos de almacenamiento geográficamente dispersos. Un avance significativo en este campo se ha logrado a través de ATOMICDFS, un proyecto de reciente conclusión que ha sido financiado por una beca intraeuropea “Marie Curie” para el desarrollo profesional (MC-IEF) y desarrollado en las instalaciones de IMDEA Networks Institute. El proyecto ha sido dirigido por el Dr. Antonio Fernández Anta, que ha actuado como Investigador Principal, y por el Dr. Nicolas Nicolaou, como Fellow Marie-Curie.

Debido a la diseminación de datos en múltiples alojamientos, uno de los principales problemas que enfrentan los sistemas de almacenamiento distribuido es mantener la consistencia de los datos cuando se accede simultáneamente por medio de múltiples operaciones. En lenguaje sencillo un escenario a resolver pudiera ser: ¿qué contenido va a acceder un lector en Australia cuando un escritor cambia simultáneamente ese contenido en España? Los sistemas convencionales de almacenamiento distribuido no proporcionan garantías sólidas de coherencia en tales casos debido al alto coste que las operaciones consistentes suponen para el sistema. Los algoritmos desarrollados por ATOMICDFS proporcionan los medios para minimizar este coste, demostrando que los sistemas de almacenamiento consistentes pueden ser prácticos. Además, el proyecto propone soluciones que permiten la manipulación de grandes objetos compartidos (por ejemplo archivos).

ATOMICDFS da un gran paso hacia una nueva generación de sistemas de almacenamiento distribuidos sumamente confiables, muy coherentes y altamente colaborativos, prácticos y globales, y un paso pequeño, pero decidido, hacia una futura plataforma de computación global. Con este proyecto IMDEA Networks coloca a Europa entre los líderes mundiales en esta área de investigación.

Creación de sistemas de archivos distribuidos muy consistentes

Una de las ideas clave desarrolladas en ATOMICDFS es la noción de ‘cobertura’. Además de las garantías de atomicidad, la capacidad de cobertura define las propiedades exactas que deben poseer los objetos dependientes de la versión (como son los archivos) en un entorno sumamente concurrente. Por ejemplo, cuando se escribe sobre un archivo una vez que ha sido almacenado, ninguna operación posterior puede sobrescribir una versión anterior del mismo archivo. Para mejorar la velocidad de las operaciones en el almacenamiento, el equipo de investigación se centró en mejorar la comunicación, así como los costes de computación asociados a cada operación. Los nuevos algoritmos logran igualar el rendimiento óptimo de comunicación al mismo tiempo que reducen el coste de cálculo por un factor exponencial. Las simulaciones de los algoritmos propuestos ilustran claramente las ganancias de rendimiento de los nuevos algoritmos con respecto a enfoques propuestos previamente.

Otro factor que ha sido preciso investigar para poder mejorar la latencia de las operaciones es la reducción del tamaño de cada mensaje intercambiado en la red. Para reducir los costes del mensaje ATOMICDFS ha introducido dos técnicas de manipulación de archivos. En primer lugar, la división simple del archivo en bloques de datos y, en segundo lugar, el uso de un diario de registro de las operaciones de archivo. Estas técnicas permiten que las operaciones se apliquen a partes de los archivos en lugar de al objeto de archivo en su totalidad y, por lo tanto, permiten operaciones más rápidas sin comprometer la coherencia.

Los resultados de este proyecto han sido publicados en importantes congresos internacionales y serán remitidos a revistas científicas de gran prestigio. Además, el código de las simulaciones y las emulaciones ha sido puesto a libre disposición del público a través de la plataforma GitHub.

ATOMICDFS se puso en marcha en diciembre de 2014 y concluyó a finales de noviembre de 2016. Para más detalles sobre el proyecto se anima al lector a visitar su sitio web.

 

Fuente(s): IMDEA Networks Institute
Recursos:
Categorizado en:
Etiquetas:

Archivos

Categorías