Aspectos prácticos para proyectos de datos abiertos en las administraciones públicas.
Juan Antonio Pastor Sánchez
Facultad de Comunicación y Documentación, Universidad de Murcia
Miembro del grupo ThinkEPI
1. Introducción
La directiva europea 2003/98/CE para la reutilización de la información en el sector público, planteó la conveniencia de la disponibilidad de los datos de carácter público elaborados o gestionados por las administraciones. En principio, este planteamiento propone un medio para que el conjunto de la sociedad participe en la vigilancia del funcionamiento de los servicios públicos (Yu y Robinson, 2012). Pero además, para las administraciones públicas supone una mayor transparencia en el uso de los recursos públicos, al tiempo que se mejora su capacidad de interconexión y la reutilización de información. El sector privado también se beneficia al tener acceso a gran cantidad de datos, convenientemente licenciados y que pueden servir como materia prima para el desarrollo de nuevos productos y servicios. En general, los datos abiertos pueden ser el catalizador para generar innovación, nuevos modelos de negocio y valores, que podrían generar riqueza económica y social (Prince y Jolías, 2013).
La directiva europea se transpone a España mediante la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público y la puesta en marcha del Proyecto Aporta. Desde entonces, en España se ha trabajado de forma intensa en este campo. Son numerosos los proyectos y servicios de datos abiertos existentes actualmente (Ferrer, Peset y Aleixandre, 2011) hasta el punto de que nuestro país se ha convertido en un referente en esta materia. Otra muestra de ello, es la puesta en marcha del capítulo español de OKFN que conforma un grupo de interés muy activo en la materia.
La nueva directiva 2013/37/UE refuerza el papel de los datos abiertos en la reutilización de la información pública, incrementando el nivel de compromiso y de exigencia de la administración a este respecto. Por su parte, las normas técnicas sobre interoperabilidad publicadas en 2012 desarrollan aspectos concretos del Real Decreto 4/2010, sobre el Esquema Nacional de Interoperabilidad en el ámbito de la Administración Electrónica. Puesto que existe una base normativa suficiente y numerosas iniciativas para la publicación de datos abiertos, resulta conveniente reflexionar sobre ciertos aspectos prácticos que faciliten la sostenibilidad de estos proyectos.
2. El compromiso Open data.
Sin duda el concepto de datos abiertos en el ámbito de la administración pública resulta el más atractivo. Actualmente existen más de 350 catálogos de datos registrados en datacatalogs.org vinculados al concepto de Open Government Data. Cada catálogo puede llegar a describir y referenciar cientos o miles de conjuntos de datos. La directivas europeas indican que el desarrollo de nuevos servicios y productos precisan datos “en crudo”. Por lo tanto, la disponibilidad de grandes cantidades de datos abiertos redunda en mayores expectativas de creación de aplicaciones dirigidas al sector privado y al usuario final.
Pero además, los datos abiertos deben ofrecerse lo suficientemente desagregados o detallados como para que su explotación resulte útil para desarrollar aplicaciones o servicios, o para su uso con fines de escrutinio de la actividad de las administraciones. También es necesario que los datos se encuentren actualizados para evitar cualquier incertidumbre en cuanto a su fiabilidad durante su reutilización.
Las organizaciones han de ser conscientes que la publicación de datos abiertos también implica aceptar el compromiso de mantenerlos accesibles y actualizados a lo largo del tiempo y con los máximos niveles de detalle, calidad y fiabilidad posibles.
El compromiso Open Data no se limita únicamente a los propios datos. También debe aplicarse a los catálogos de datos abiertos, que generalmente operan mediante autoregistro. Muchos recursos suelen cambiar su ubicación e incluso desaparecen, y pese a ello su huella permanece en los catálogos de datos. En otras ocasiones los conjuntos de datos se describen incorrectamente e incluso a veces los registros del catálogo ni siquiera hacen referencia a datos en sí, sino a direcciones genéricas de sitios web o buscadores en bases de datos. Teniendo en cuenta que los catálogos constituyen un punto de acceso a los datos abiertos, resulta esencial que los metadatos que los describen sean verificados y actualizados con frecuencia (Zuiderwijk, Jeffery y Janssen, 2012). Del mismo modo que los responsables de la publicación de datos abiertos deben adquirir el compromiso de su mantenimiento, las organizaciones que gestionan los catálogos deben definir mecanismos para asegurar la calidad de la información de sus registros.
3. El formato y la estructura sí importan.
Una de las bases de la disponibilidad de conjuntos de datos abiertos se centra en el uso de formatos abiertos. En este sentido, el Real Decreto 4/2010, sobre el Esquema Nacional de Interoperabilidad en el ámbito de la Administración Electrónica, indica de forma expresa que la Administración Pública Española debe usar estándares abiertos, Y DE FORMA COMPLEMENTARIA estándares de uso generalizado por los ciudadanos. De este modo los diferentes los diferentes usuarios y desarrolladores tendrían la libertad de escoger uno u otro formato para obtener los datos, sin tener que “atarse” a un software o a una solución tecnológica específica. Por este motivo, resulta paradójico comprobar en los catálogos de datos abiertos el uso masivo de formatos propietarios fuertemente ligados al uso de soluciones específicas de software.
Profundizando en este aspecto la resolución de 3 de octubre de 2012 (BOE 31-10-2012) que aprueba la norma técnica sobre interoperabilidad de catálogo de estándares, establece los estándares y los organiza en función de una cadena de interoperabilidad formada por los siguientes eslabones:
- Accesibilidad multicanal, integrada y segura.
- Infraestructuras y servicios asociados.
- Integración de sistemas y servicios.
- Modelos e integración de datos.
Debe tenerse en cuenta que una reutilización eficaz de los datos parte de la representación de la información mediante principios de interoperabilidad semántica (Davies et al, 2008) que se relaciona directamente con los estándares de modelos e integración de datos. Sin embargo, muchos de los conjuntos de datos abiertos que ofrece la administración pública en España utilizan formatos cuya función se encuadra en el acceso a los datos. Es muy común el uso de documentos PDF, HTML o de procesadores de texto para publicar datos estructurados, lo cual hace imposible su reutilización de un modo ágil y sencillo.
Un breve análisis de catálogos como datos.gob.es, Open Data Euskadi y Datos Abiertos gencat, indica que de los más de 5.200 conjuntos de datos registrados en estos tres catálogos, únicamente unos 150 utilizan alguno de los formatos de RDF. Esto indica que, aunque se habla mucho de datos abiertos en el seno de la administración pública, todavía queda un largo camino por recorrer para alcanzar el ideal de la interoperabilidad semántica. Afortunadamente, la Guía de aplicación de la Norma Técnica de Interoperabilidad de Reutilización de Recursos de Información (MHAP, 2013) constituye un valioso documento de referencia que puede ayudar en esta tarea.
Un problema diferente es el que deben afrontar los editores cuando deben escoger qué vocabularios, esquemas de metadatos u ontologías utilizarán para estructurar y representar conjuntos de datos abiertos. Con respecto al contenido de los propios catálogos de datos la solución a este problema está clara: el vocabulario DCAT (W3C, 2014) ha de utilizarse para este cometido, tal y como establece la norma técnica sobre interoperabilidad del catálogo de estándares.
Sin embargo, no existe una solución única para los propios conjuntos de datos. El abanico de vocabularios RDF es muy amplio, e incluso en algunos casos es posible que sea preciso definir alguno nuevo. Esto implica tomar decisiones, en ocasiones arriesgadas, acerca de la correspondencia y el nivel de agregación de los datos primarios, así como su equivalencia con respecto a los elementos de un vocabulario. Puesto que las administraciones públicas hacen un uso intensivo de sistemas de bases de datos relaciones, una posible solución a este problema sería la aplicación de la recomendación del W3C para el mapeado directo de datos relacionales a RDF (W3C, 2012).
4. Visión integral del ciclo de los datos abiertos.
Desde el punto de vista técnico un conjunto de datos abiertos tiene un ciclo vida que comprende la extracción de los datos, su almacenamiento, revisión, interconexión con otros datos abiertos, clasificación y mantenimiento (W3C, 2013). Sin embargo también hay que contemplar dicho ciclo de vida desde la dimensión corporativa de las organizaciones que los publican.
Por lo tanto, hay que tener una visión sobre los datos abiertos como un elemento ligado a los procesos de gestión de información. Una adecuada política informativa en cualquier administración pública debe incluir una serie de tareas de auditoría de información, que permita identificar qué datos son susceptibles de publicarse en abierto, así como el modo correcto en el que debe hacerse.
A este respecto, merece la pena destacar el trabajo realizado por la Universidad Pompeu Fabra. No solamente ofrece una serie de datos abiertos organizados a través de un portal con su correspondiente catálogo, sino que también refleja un considerable esfuerzo para comprender el ecosistema informativo de la organización en el que se desenvuelve un proyecto de datos abiertos (Pantoja, 2013).
La localización y análisis de fuentes de datos corporativas resultan vitales para comprender dicho ecosistema y definir las estructuras y niveles de detalle para establecer la oferta de datos abiertos de una organización. La delimitación precisa de los objetivos que se persiguen al desarrollar portales de datos abiertos, permite diseñar un ciclo eficiente de los datos abiertos, integrándose de un modo consustancial en el resto los procesos de gestión corporativos.
5. Conclusiones
Sin duda los datos abiertos suponen una fuente de innovación y nuevos modelos de negocio y perfiles profesionales. Sin embargo también presentan una serie de retos que van más allá de la aplicación de tecnologías y que precisan reflexionar y tomar decisiones. No es conveniente poner en marcha proyectos de datos abiertos sin considerar su sostenibilidad a lo largo del tiempo. Para ello, entre otros puntos, hay que analizar cuidadosamente la calidad y cantidad de los datos, la utilidad y el interés que pueda tener su explotación, su frecuencia de actualización, los formatos a utilizar, el grado de reutilización e interoperabilidad semántica, las fuentes corporativas, su incardinación en la estructura informativa y de gestión de la organización, etc. Un proyecto de datos abiertos puede fracasar si la organización que los publica no está preparada para su mantenimiento y evolución.
Cierto es que la publicación datos abiertos concierne directamente a las administraciones públicas. Pero no es menos cierto que muchas empresas y organizaciones privadas también podrían plantearse estas iniciativas. Para el sector público se trata una obligación que poco a poco está creando una demanda social y que favorece el intercambio eficiente de información entre administraciones. En el caso del sector privado podría aplicarse para ofrecer datos sobre productos, servicios y actividades, al tiempo que formaría parte de la estrategia de transparencia y de responsabilidad social corporativa.
Desde la perspectiva más técnica deberían desarrollarse propuestas que ayuden a la localización, estructuración y aprovechamiento de los datos. La dispersión y el entramado de catálogos debería tender a la definición de una política pública al respecto. El registro normativo en un catálogo nacional o territorial de conjuntos de datos abiertos de la administración pública es totalmente compatible con su integración en sedes electrónicas o la creación de portales o catálogos de datos abiertos de ayuntamientos, universidades, comunidades autónomas u otros organismos. La neutralidad de representación RDF es otro aspecto que merece la consideración cuando se precise la publicación de datos en su forma primaria y completa, libre de la interpretación que puede suponer la aplicación de vocabularios u ontologías específicas.
También debe considerarse la creación de APIs públicas (como la que nos ofrece la agenda de eventos de KulturKlic) que permitan seleccionar y recuperar datos específicos. Y es que, no hay que olvidar que el éxito real que en un futuro tendrán los datos abiertos no se encuentra en sus implicaciones políticas o tecnológicas, sino en la sencillez de su localización y acceso, así como en las aplicaciones y servicios que se desarrollen a partir de su explotación.
6. Recursos web mencionados
Portal Datos.gob.es
http://datos.gob.es
Datacatalogs
http://datacatalogs.org
Open Data Euskadi
http://opendata.euskadi.net
Datos abiertos gencat
http://www20.gencat.cat/portal/site/dadesobertes
UPF Open Data
http://data.upf.edu/es/main
API de la agenda de eventos de Kulturklik
http://www.kulturklik.euskadi.net/lang/es/laguntza–ayuda/api/
7. Referencias
Davies, Jim; Harris, Steve; Crichton, Charles; Shukla Aadya; Gibbons, Jeremy. “Metadata standards for semantic interoperability in electronic government”. Proceedings of the 2nd international conference on Theory and practice of electronic governance ICEGOV ’08, pp. 67-75.
Ferrer Sapena, Antonia; Peset Mancebo, María Fernanda; Aleixandre Benavent, Rafael (2011). “Acceso a los datos públicos y su reutilización open data y open government”. El profesional de la información, v. 20, n. 3, pp. 260-269.
MHAP (2013). Guía de aplicación de la Norma Técnica de Interoperabilidad de Reutilización de Recursos de Información. Ministerio de Hacienda y Administraciones Públicas. Disponible en el Portal de Administración Electrónica (PAe): http://administracionelectronica.gob.es/
Pantoja, Jorge (2013). Linked Open Data at the UPF. Tesis de Máster. Universitat Pompeu Fabra. http://data.upf.edu/upf/docs/2013/jorgepm/lodatupf.pdf
Prince, Alejandro; Jolías, Lucas (2013). “Las fuentes conceptuales del Gobierno Abierto”. Cuadernos de comunicación e innovación, n. 94, pp. 48-57.
W3C (2012). A Direct Mapping of Relational Data to RDF. W3C Recommendation 27 September 2012. Marcelo Arenas, Alexandre Bertails, Eric Prud’hommeaux, Juan Sequeda (eds). http://www.w3.org/TR/2012/REC-rdb-direct-mapping-20120927/
W3C (2013). Best Practices for Publishing Linked Data. W3C Working Group Note 21 December 2013. Bernadette Hyland, Ghislain Atemezing, Boris Villazón-Terrazas (eds). http://www.w3.org/TR/2013/NOTE-ld-bp-20131221/
W3C (2014). Data Catalog Vocabulary (DCAT). W3C Recommendation 16 January 2014. Fadi Maali; John Erickson (eds).http://www.w3.org/TR/2014/REC-vocab-dcat-20140116/
Yu, Harlan; Robinson, David G. (2012). “The new ambiguity of Open Government”. UCLA Law Review, 178. http://dx.doi.org/10.2139/ssrn.2012489
Zuiderwijk, Anneke; Jeffery, Keith; Janssen, Marijn (2012). “The necessity of metadata for linked open data and its contribution to policy analyses”.Proceedings of the International Conference for E-Democracy and Open Government CeDEM12, pp. 281-294.
—
Dr. Juan Antonio Pastor Sánchez
Dep. de Información y Documentación
Facultad de Comunicación y Documentación
Universidad de Murcia
Tel: +34 868 88 7252
http://webs.um.es/pastor
pastor@um.es
Juan Antonio Pastor Sánchez, Ph.D.
Dep. of Information and Documentation
Faculty of Communication and Documentation
University of Murcia
phone: +34 868 88 7252
http://webs.um.es/pastor
pastor@um.es