Estado de la Gestión de Datos de Investigación en el CIAT

State of Research Data Management at CIAT

El CIAT ha hecho grandes progresos a lo largo de los años en la gestión de los datos de investigación y es una de las instituciones que lidera las innovaciones en el manejo de datos en la agricultura. CIAT co-lidera la Plataforma del CGIAR para Big Data en la Agricultura y acaba de ser el anfitrión, en septiembre de 2017, de la primera Convención del CGIAR sobre Big Data en la Agricultura. Una de las preguntas que han guiado las reflexiones del equipo de gestión de datos del CIAT este año ha sido: “Como líderes de la plataforma CGIAR en Big Data, ¿estamos poniendo en práctica lo que predicamos sobre la gestión de datos de investigación?” Ahora es momento oportuno para reflexionar sobre esto y sobre los avances en la gestión y apertura de datos.

El CIAT ha avanzado en varios frentes – Políticas, Procesos, Personas, Plataformas y Productos – pero colectivamente, creemos que se puede ofrecer aún más. El componente de organización de la plataforma de Big Data es una oportunidad fantástica para progresar en la gestión y apertura de datos de investigación.

Políticas y directrices: El CIAT fue uno de los primeros centros en adoptar la política de acceso abierto y gestión de datos del CGIAR en 2013. Sin embargo, como equipo, nos damos cuenta de que se necesitan más pautas y directrices para apoyar la gestión de datos a nivel de los proyectos de investigación. Estamos en proceso de producir los documentos necesarios y nos hemos asociado con CCAFS y Stats4SD para actualizar el excelente paquete de soporte de gestión de datos de CCAFS, en un paquete de soporte de gestión de datos CIAT / CCAFS. El paquete actualizado estará listo para usarse dentro de los programas de investigación del CIAT y del CGIAR a principios de 2018. ¡Por favor, permanezcan atentos!

Procesos: El CIAT tradicionalmente ha llevado a cabo la gestión de datos desde un nivel programático. Sin embargo, una recomendación que ha surgido de diferentes conversaciones en torno a la gestión de datos de investigación en el CIAT es que también debemos centrarnos en donde la teoría se pone a prueba, la gestión de datos a nivel de proyecto. Estamos trabajando en esto, y todavía hay un camino por recorrer. El equipo ha comenzado a aportar planes de gestión de datos a propuestas de proyectos seleccionados y estamos poniendo a prueba la implementación de estos planes. Paralelamente, también se están realizando trabajos importantes para mejorar los procesos internos, tales como la inducción y salida de personal, la automatización de los procesos de los proyectos y la publicación de datos.

Personas: El CIAT cuenta con una pequeña unidad de coordinación de gestión de datos. Como parte de este equipo, también hemos invertido en mejorar la capacidad de apoyo estadístico / biométrico en las regiones donde el CIAT hace presencia, con los estadísticos desempeñando un papel dual como puntos focales de la gestión de datos. Algunos programas y áreas de investigación han invertido en personal para la gestión de datos, ahora que el enfoque cambia para incluir la gestión de datos a nivel de proyecto, se debe seguir un camino similar. Cuando sea viable, como cuando los proyectos son significativamente grandes, el CIAT está instando a los proyectos a crear planes de gestión y compartición de datos que incluyan consideraciones para los recursos de  la gestión de datos, como el personal.

Plataformas: El CIAT cuenta con dos tipos principales de plataformas de gestión de datos. a) Plataformas para gestionar (recopilar, almacenar, consultar y analizar) los datos de investigación del día a día. Estos son usualmente internos para el CIAT, por ejemplo, bases de datos Oracle y aplicaciones relacionadas para los programas de investigación de cultivos del CIAT, DAPAFS y el Breeding Management System IBP; b) Plataformas para la publicación de datos de investigación, estas tienen datos publicados como bienes públicos internacionales, por ejemplo, Dataverse y AgTrials. Existe una necesidad urgente de armonizar las plataformas para la gestión cotidiana de los datos; esta es una oportunidad para incrementar la eficiencia de cómo manejamos los datos juntando datos relacionados y gestionando los procesos relacionados con una o dos herramientas acordadas. El equipo de gestión de datos está trabajando continuamente con todas las áreas de investigación del CIAT para ver cómo se puede mejorar esta armonización.

Productos: Debemos obtener más productos de datos, y hay mucho más que podemos hacer. La tendencia es positiva. Por ejemplo, los datos publicados aumentaron de solo 8 datasets completamente abiertos publicados en 2014 a 40 publicados en 2016 y 39 el año pasado. Con la Plataforma del CGIAR para Big Data en la agricultura, tenemos apoyo adicional para curar y publicar más datasets. Necesitamos ir un paso más allá y seguir construyendo productos digitales utilizables – herramientas analíticas, bases de datos en línea, visualizaciones, portales y otros – basados en estos datos.

El Dr. Andy Jarvis, co-pionero de la plataforma del CGIAR de Big Data y director del CIAT del Área de Investigación de Análisis de Decisiones y Políticas (DAPA), publicó en un blog recientemente: “Al respirar nueva vida en datos inactivos, podemos ver el futuro”. Este blog golpea con fuerza el clavo en la cabeza; las instituciones de investigación necesitan liberar datos de discos duros, drives y silos de datos, para acelerar el ritmo de la investigación agrícola.