13 Febrero 2015
Sobre los cimientos de dos décadas de investigación incremental en el almacenamiento de datos, IMDEA Networks lanza el proyecto científico ATOMICDFS, con el objetivo de abordar la búsqueda de implementaciones eficientes del almacenamiento distribuido de datos con coherencia fuerte.
Uno de los problemas fundamentales de la informática es el almacenamiento eficaz de los datos. Desafortunadamente, los dispositivos de almacenamiento magnético y tipo flash han demostrado ser poco fiables para garantizar la disponibilidad y la capacidad de supervivencia de los datos, debido a la frecuencia e imprevisibilidad de sus fallos. La replicación ha sido la técnica prominente para evitar la pérdida de datos. Por medio de la replicación, copias de los datos se guardan en múltiples dispositivos de almacenamiento; así, en caso de fallo de un dispositivo, los datos pueden ser recuperados de una réplica “sana” de los mismos. Aunque la replicación resuelve el problema de la capacidad de supervivencia de los datos, se introduce un nuevo y más complejo desafío: la coherencia. Los datos de cada réplica tienen que ser idénticos para que cualquier fallo de almacenamiento se considere tolerable. Pero, ¿cómo podemos asegurarnos de que los cambios realizados en una de las réplicas van a ser propagados al resto de réplicas? Las soluciones tradicionales implican el uso de controladores RAID (conjunto redundante de discos independientes). Una serie de dispositivos de almacenamiento están conectados a un controlador RAID y cualquier actualización de los datos se propaga desde el controlador a todos los dispositivos conectados. Aunque RAID maneja la coherencia de datos, por lo general ésta se gestiona a través de un controlador centralizado, que reside en un solo lugar, y está conectado a la red a través de una sola interfaz de red. Estas características hacen de los sistemas RAID (y de cualquier tecnología similar) potenciales puntos únicos de fallo y cuellos de botella para el rendimiento.
Los anteriores problemas han conducido a la popularidad y el uso generalizado de sistemas de almacenamiento distribuido (DSS o Distributed Storage Systems, por sus siglas en inglés). Un sistema de almacenamiento distribuido supera los puntos únicos de fallo y los cuellos de botella mediante la replicación de datos en nodos dispersos geográficamente, lo que garantiza la disponibilidad de dichos datos, incluso en casos de desastres totales en una ubicación. Aunque la distribución de datos mejora la robustez de la replicación, crea nuevos desafíos a nivel de coherencia. Una multiplicidad de clientes puede ahora acceder simultáneamente a diferentes réplicas mediante la comunicación con los servidores remotos que almacenan los datos. La asincronía de la red y fallos potenciales en los nodos hacen aún más difícil garantizar que las actualizaciones de datos se propaguen a todas las réplicas. Las soluciones comerciales actuales (tales como Dropbox), son inadecuadas para manejar la concurrencia, y confían en la infrecuencia de los accesos concurrentes al espacio de almacenamiento por parte de los distintos usuarios. Sin embargo, las aplicaciones futuras que requieran accesos concurrentes a un DSS a través de múltiples dispositivos informáticos, exigirán sólidas garantías de los contenidos de ese DSS, que tendrán que ser indistinguibles de las garantías que ofrece una solución de almacenamiento centralizado.
Sobre la base de dos décadas de investigación incremental, IMDEA Networks lanza el proyecto científico ATOMICDFS, con el objetivo de abordar el reto de «buscar implementaciones atómicas eficientes del almacenamiento distribuido de datos”. DFS significa sistema de archivos distribuido (Distributed File System, en inglés) y describe un tipo especial de DSS que almacena y maneja archivos. ATOMIC define las garantías de coherencia que nuestro sistema de archivos proporciona en caso de accesos concurrentes. La atomicidad ofrece la garantía más sólida e intuitiva de coherencia, ya que crea la ilusión de un almacenamiento al que se accede secuencialmente, aún cuando varios clientes accedan a la vez. Lo que los clientes esperan ver es la existencia de una única copia del sistema de archivos, como si se accediera a un equipo local. Cada vez que se lee un archivo esperamos obtener: (a) los cambios de la última operación de escritura o modificación, y (b) una copia del archivo que sea tan reciente como la obtenida en la última operación de lectura. Aunque intuitiva y fácil de entender, la atomicidad es muy difícil de proporcionar en un entorno de paso de mensajes que es asíncrono y propenso a fallos debido a su alta imprevisibilidad.
ATOMICDFS tiene como objetivo investigar la existencia de un DFS extremadamente eficiente que pueda ofrecer garantías atómicas en entornos tan hostiles. Esta cuestión se puede dividir en sub-problemas. Nuestro objetivo es identificar los principales componentes y presentar un análisis teórico de la dificultad de resolver todos y cada uno de ellos. A continuación, desarrollaremos soluciones algorítmicas para abordar los diferentes aspectos del problema, apuntando a un rendimiento que satisfaga nuestros límites teóricos. En última instancia, tenemos la intención de implementar nuestros algoritmos sobre hardware de mercado (es decir, medios magnéticos habituales, como discos o memorias tipo flash), sin ningún tipo de características especiales, para proporcionar la impresión de un solo espacio de almacenamiento de alta disponibilidad, al que accederán múltiples clientes de manera concurrente. Esto a la larga conducirá a una nueva solución de almacenamiento rentable, ampliamente disponible, robusta y fuertemente coherente.
Dr. Nicolas Nicolaou ha sido galardonado con una beca intraeuropea Marie Curie para el desarrollo profesional (IEF) para trabajar en este proyecto de investigación, junto con el científico responsable del proyecto Dr. Antonio Fernández Anta, Research Professor en IMDEA Networks. ATOMICDFS operará desde diciembre de 2014 a noviembre de 2016.
Comentarios recientes