Ochomil bibliotecas públicas mapeadas en Wikidata
En una conversación Rubén Ojeda, coordinador de proyectos de Wikimedia España, me comentó que se iba a celebrar el concurso “FindingGLAMs Challenge”, organizado por Wikimedia Suecia. Me invitó a participar porque le parecía muy interesante incluir algún listado a Wikidata, con interés para Wikimedia España y referente al propósito del concurso: galerías, bibliotecas, archivos o museos españoles. Estuvimos revisando varias páginas web, pero en algunas íbamos a necesitar más tiempo de programación del que teníamos, por lo que optamos por descargar el listado de bibliotecas del Ministerio de Cultura y Deporte de España.
Se trata de un fichero que contiene los datos estructurados de todas las bibliotecas españolas con su dirección, teléfono, correo electrónico o la página web. En un principio encontramos ficheros que no contenían las coordenadas y tuve que programar un script, que utilizando una API de geolocalización, me incluía las coordenadas. El problema estaba en que había muchas equivocaciones con poblaciones con el mismo nombre, como León en España y México.
Por suerte, encontramos otro fichero que contenía las coordenadas, que nos permiten ubicar todas las bibliotecas en un mapa con una simple consulta con Wikidata Query Service. Antes de añadir cualquier tipo de información a Wikidata, debemos limpiar los datos del fichero, ya que muchos no son correctos, como los números de teléfono, que no siempre tienen la misma estructura, o las coordenadas, que en ocasiones muestran posiciones fuera del rango posible.
Una vez que se limpiaron los datos con Excel, se importó el fichero en OpenRefine, ya que ciertos campos, como la dirección o el código postal, simplemente contienen una cadena de caracteres que se introduce directamente en Wikidata. Sin embargo, el país o el tipo de biblioteca, son datos que deben existir previamente en Wikidata, por lo cual hay que reconciliar esta información. Poco a poco hay que crear un esquema de los datos que queremos introducir, para que no existan errores, ni duplicados, y una vez que lo tenemos listo se puede exportar el fichero para que se pueda introducir con QuickStatements.
Durante los días de ejecución de los lotes (batch) con la aplicación QuickStatements hubo problemas en Wikidata, por lo que fue algo más lento de lo normal. Finalmente, después de unos días y varios errores, duplicados y otros problemas, se crearon los más de 8000 elementos. Lamentablemente, se pueden encontrar fallos en la fuente, porque se hayan introducido los datos erróneamente. Por lo tanto, el trabajo no termina con la introducción de esta información, sino que hay que seguir rastreando posibles errores. Algunos son muy obvios, como coordenadas en mitad del mar, o en otros países, que vamos solucionando con la ayuda de mapas en línea. También se comprueba, gracias a las consultas, que no existen datos duplicados, como la dirección, las coordenadas o el código postal.
En ocasiones no es tan obvio, y aparecen en otro lugar de una ciudad, bien porque la biblioteca ha cambiado de ubicación, o porque la base de datos no dispone de la información correcta. Para solucionar estos inconvenientes necesitamos la ayuda de otras personas, habitantes de esos lugares, que conozcan la ubicación correcta, la dirección y otros datos que se hayan incluido, para verificar que son correctos. Al final es un trabajo en equipo, ya que también faltaría incluir la categoría correspondiente de Wikimedia Commons o una imagen ilustrativa de cada biblioteca, en caso de disponer de esa información.
Creo que es importante que se vaya incluyendo este tipo de información en Wikidata porque es parte del conocimiento humano. Sería perfecto disponer de todos los museos, hospitales, parques, y en general de cualquier tipo de dato que pueda proporcionarnos información y cultura. Cuando viajo, consulto constantementeWiki Shoot Me para revisar las fotografías que faltan de los elementos de Wikidata, y así hago fotos a todo aquello que no dispone de imagen.
Cuanta más información tengamos en Wikidata, más podremos aportar cada vez que viajemos, y más datos se podrán añadir a continuación. Cada vez se utiliza más Wikidata para introducir información en Wikipedia, por ejemplo, para mostrar listados automáticamente, por lo que con más información en Wikidata mejoramos también al resto de proyectos Wikimedia.
La información que tenemos ahora es libre y fácilmente modificable, por lo que estará más actualizada que la propia base de datos de donde procede la información. Con una simple consulta podemos obtener todos los correos electrónicos, para enviar mensajes a las bibliotecas, tenemos la ubicación exacta para acceder a sus instalaciones, conocer sus temáticas para saber dónde podemos obtener información a la hora de investigar, y otros datos estadísticos, como las fechas de fundación de todas ellas.
Ángel Obregón
Socio de Wikimedia España
FUENTE: https://blog.wikimedia.es/