El paradigma de Big Data ha emergido recientemente permitiendo procesar cantidades ingentes de información más allá de las capacidades de la tecnología de bases de datos tradicionales. El paradigma Big Data ejercita la computación en nube para disponer de una infraestructura Ultra-escalable de computación y almacenamiento. El proyecto Cloud4BigData se propone mejorar las tecnologías Big Data y la infra-estructura cloud subyacente para obtener altos niveles de eficiencia, flexibilidad, escalabilidad, alta disponibilidad, QoS (calidad de servicio), facilidad de uso, seguridad y privacidad.
El paradigma Big Data está obteniendo muy buenos resultados en el procesado analítico offline con tecnologías MapReduce, pero todavía presenta importantes carencias. La carencia más importante es la falta de soporte para otras necesidades de gestión de datos, más concretamente, el procesamiento transaccional en línea (OLTP – Online Transactional Processing), el procesamiento analítico en línea (OLAP – Online Analytical Processing) y el procesamiento complejo de eventos (CEP – Complex Event Processing). En Cloud4BigData proporcionaremos soporte Big Data para cargas de trabajo y aplicaciones OLTP, OLAP y CEP. Este objetivo implica superar retos muy duros, tales como escalar el procesamiento transaccional, el procesado de consultas analíticas y la gestión de eventos masivos, así como la integración de estas tecnologías en una plataforma integral. De hecho, muchas aplicaciones de Big Data requieren el uso combinado de tecnologías cloud para Big Data especializadas en distintos propósitos tales como las bases de datos de grafos, almacenes clave-valor, bases de datos orientadas a documentos, bases de datos SQL, bases de datos en memoria, almacenes de datos orientados a columnas, CEP, etc. Cloud4BigData proporcionará un soporte holístico para estas tecnologías, facilitando y acelerando el desarrollo de aplicaciones Big Data complejas sobre múltiples almacenes de datos cloud heterogéneos.
Otro importante inconveniente de las tecnologías Big Data es su nivel de eficiencia. Tecnologías actuales como MapReduce, y el almacenamiento subyacente, tal como el Hadoop File System (HDFS) y el almacén clave-valor HBase, obtienen grandes niveles de escalabilidad, pudiendo utilizar entre 3,000 y 4,000 nodos. Desafortunadamente, consiguen esta escalabilidad con niveles muy bajos de eficiencia. En Cloud4BigData se aumentará la eficiencia del procesado de Big Data entre 4 y 5 veces.
La computación en nube, infraestructura subyacente de Big Data, está madurando y siendo ampliamente adoptada. Sin embargo, la tecnología cloud está muy lejos de los requisitos de los usuarios de Big Data, especialmente en términos de eficiencia, flexibilidad, facilidad de uso, SLAs (Service Level Agreements), seguridad y privacidad. En términos de Infraestructura como servicio (IaaS – Infrastructure as a Service), son necesarias mejoras significativas, tales como mayor eficiencia energética, flexibilidad en la comunicación (p.ej. a través de redes definidas por software o SDNs – Software Defined Networks), simplicidad en la gestión de la infraestructura, etc. A nivel de plataforma como servicio (PaaS – Platform as a Service) se demandan plataformas más eficientes, que den elasticidad, escalabilidad y tolerancia a fallos a las aplicaciones de forma totalmente transparente, algo que no ocurre hoy día, donde la escalabilidad se consigue a través de sharding y requiere modificar profundamente las aplicaciones.
Adicionalmente, los SLAs no están bien soportados en clouds debido a la falta de aislamiento entre los distintos clientes, la falta de una ubicación inteligente y de esquemas de enrutamiento, la carencia de estructuras que proporcionen alta disponibilidad, las incertidumbres sobre la disponibilidad de máquinas virtuales a demanda, etc. La seguridad en clouds ha mejorado a nivel de infraestructura cloud (IaaS), pero las aplicaciones y los software stacks/plataformas en los que se basan siguen estando expuesto a todo tipo de ataques, desde aquellos que explotan vulnerabilidades en la aplicación o en la infraestructura de software subyacente (por ejemplo el servidor de la aplicación, las bases de datos, las librerías, etc.) a ataques genéricos tales como la denegación distribuida de servicio (DDoS – Distributed Denial of Service). En Cloud4BigData mejoraremos la eficiencia del PaaS, así como su elasticidad y seguridad, haciendo uso de tecnología cloud escalable, como el procesamiento de eventos ultra-escalable y elástico (CEP).
Finalmente, Cloud4BigData demostrará sus capacidades en áreas de aplicación emergente con requisitos muy exigentes que demandan tecnologías cloud y Big Data, como las tecnologías máquina a máquina (machine-to-machine), el Internet de las cosas (IoT – Internet of Things), las tecnologías inteligentes o “smart” (como la red eléctrica inteligente – Smart Grid, las ciudades inteligentes – Smart cities, el transporte inteligente – Smart transport, etc.), así como en áreas tradicionales de aplicación, tales como la banca, la telefonía, la comunicación multimedia, las simulaciones distribuidas, etc., que demandan funcionalidades más allá de las capacidades actuales de las tecnologías Big Data.
Los grupos de investigación que se han asociado con IMDEA Networks Institute para llevar a cabo el proyecto Cloud4BigData son el Grupo LSD de la Universidad Politécnica de Madrid (Coordinador), el Grupo LS y el Grupo FUNLab de la Universidad Rey Juan Carlos.