La nueva norma de tesauros ISO UNE 25964-1
Francisco Javier García Marco,
Miembro del Grupo ThinkEPI, Coordinador del Grupo de Tesauros de AENOR 50, Universidad de Zaragoza,jgarcia@unizar.es
1. Los tesauros, un hito en el camino hacia la web semántica
Estos días un grupo de trabajo del comité 50 de AENOR está terminando el trabajo de traducción y adaptación de la primera parte de la norma ISO 25964 al español, denominada en inglés Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval, y que en español quedará como UNE 25964-1 Información y documentación — Tesauros y su interoperabilidad con otros vocabularios — Parte 1: Tesauros para la recuperación de la información.
Ya hemos ido dando cuenta del contexto de la norma en comunicaciones anteriores (García Marco, 2007, 2008), y en esta nota nos concentraremos en analizar las novedades e implicaciones de la primera parte, que abarca el campo cubierto por las dos normas españolas de tesauros anteriores, dedicadas respectivamente a los tesauros monolingües y multilingües (Asociación Española de Normalización y Certificación, UNE 50106:1990, UNE 50106:1995 Erratum y UNE 50125:1997), basados en las normas internacionales anteriores ISO 2788 and ISO 5964), y que se apoya en el impresionante trabajo realizado para la creación de la nueva norma británica BS 8723 (British Standards Institute, 2006).
Dentro del amplio grupo español de diecisiete personas que están contribuyendo a que la traducción y adaptación de la norma tenga el necesario nivel de calidad, están teniendo una participación especialmente activa María Luisa Alvite Díez, Blanca Gil Urdiciaín, Pascual Jiménez Huerta con el apoyo de sus colegas de la Biblioteca Nacional, Javier Lacasta Miguel, Luis Miguel Moreno Fernández y Juan Antonio Pastor Sánchez. Formaba parte de este grupo nuestra querida amiga Montserrat Sebastiá y Salat, recientemente fallecida, a cuyo homenaje contribuimos modestamente desde esta nota.
Solo esta primera parte de la nueva norma tiene casi sesenta mil palabras, lo que permite hacernos una día del ingente trabajo que ha realizado el grupo internacional, y de la importancia que están cobrando de nuevo los tesauros y otras herramientas de organización del conocimiento después de que su carácter pionero en el campo de la organización y recuperación de la información hubiera decaído gracias a los avances de la informática. Efectivamente, la potencia y bajo coste de la recuperación vectorial y probabilística —especialmente de la apoyada por medidas de popularidad basadas en los índices de citas, como las que usa Google— provocaron durante los años ochenta y noventa la decadencia de los tesauros, que en los años sesenta y setenta habían sido herramientas punteras y señeras de la documentación. Sin embargo, el enorme éxito y crecimiento de la Internet y de los buscadores llevaba en su seno el resurgimiento de la organización del conocimiento, tanto por las limitaciones para los requisitos más exigentes de la interoperabilidad de sistemas críticos, como por las propias potencialidades que ofrece la web, más allá de la Internet de las comunicaciones y los documentos, que tanto han contribuido a mejorar nuestra vida.
La evolución natural de la web —la web semántica de Tim Berners-Lee— combina los paradigmas de la inteligencia artificial y de la biblioteca para crear un modelo que, entre otras cosas, busca mejorar la precisión y exhaustividad de la recuperación en la red y comunicar sistemas diferentes, con semánticas distintas; y en este proyecto las ontologías —pesadas o ligeras— ocupan un lugar central en la labor de conectar los datos y sus estructuras con los mapas y procesos de conocimiento de los usuarios, y, en último término, con sus necesidades. Y los tesauros reaparecen como una herramienta contrastada y exitosa para asegurar estas funciones, por más que, necesariamente, tengan que seguir evolucionando y confluyendo con el creciente campo de las ontologías.
Los avances más importantes se han estudiado en tres apartados: el multilingüismo y la multiculturalidad; la construcción, mantenimiento y difusión de los tesauros; y el aseguramiento de la interoperabilidad de los tesauros. Vamos a analizar a continuación estas cuestiones.
2. Los tesauros multilingües son el nuevo normal
Un aspecto fundamental de la primera parte de la norma es que reunifica el tratamiento de los tesauros monolingües y multilingües en un solo código. Es un desenlace lógico, pues la historia de los tesauros es también, entre otros aspectos, la del triunfo del multilingüismo como estrategia fundamental en la organización del conocimiento frente al localismo. Pues bien, la nueva norma ISO 25964 no es sino la confirmación y culminación de ese proceso. Tanto por la naturaleza multilingüe de muchas comunidades humanas —que se ha incrementado exponencialmente en los últimos años por la globalización y las migraciones masivas—, como por el hecho de que ni la ciencia, ni la técnica ni la literatura conocen de barreras idiomáticas —lo cual requiere esfuerzos tanto al que indiza los documentos como al que los busca, esfuerzos que los tesauros ayudan a minimizar—, son cada vez más raros los tesauros que solo contienen los términos en un solo idioma.
Para facilitar la reconceptualización del tratamiento del multilingüismo, la nueva norma desplaza otra vez el énfasis del término al concepto. Así como en los años setenta y ochenta diversas tradiciones en la organización temática de la información situaban el énfasis teórico en el control terminológico o el control del vocabulario, el cambio de siglo ha recuperado los conceptos como núcleo del trabajo de organización del conocimiento. La terminología es una herramienta fundamental de la construcción de tesauros y otros instrumentos de control de vocabulario, pero el centro de la organización del conocimiento son los conceptos que son objeto el interés de una comunidad para recuperar información. Y los conceptos van cambiando en su expresión a lo largo del tiempo, y, sobre todo, se expresan de formas diversas entre los distintos idiomas, si es que están ya presentes, pues los conceptos se diseminan de forma parecido a como lo hacen los genes (memes). Continuamente aparecen nuevos conceptos que al principio se expresan con ayuda de oraciones e incluso párrafos, y luego van cuajando en complicadas y largas frases nominales. Es cierto, que, con el tiempo, la ley del mínimo esfuerzo lleva a que los conceptos bien establecidos se expresen con términos cada vez más estables y sucintos, pero esta realidad no puede distraernos de otra más importante: que el objeto de la recuperación de la información es el concepto. Pero también es verdad que.
Por otra pate, ISO UNE 25964-1 ha incrementado su tratamiento del multilingüismo de una manera sustancial. Esto se aprecia por la ampliación de la relación del inventario de etiquetas en diferentes idiomas —que ahora se incluyen en español, inglés, francés, alemán, danés, finlandés, noruego, sueco, chino y ruso—, el incremento en el número de ejemplos en diversas lenguas —fundamentalmente todavía en las principales europeas— y las continuas referencias a los factores culturales y lingüísticos en numerosos apartados de la norma. Pero, sobre todo, destaca el capítulo nueve dedicado a la relación de equivalencia interlingüística, que integra y simplifica la anterior norma de construcción de tesauros multiligües. En él, partiendo de los cuatro grados de equivalencia —exacta, inexacta (cuasiequivalencia), parcial (genérico-específica) y la no equivalencia—, se abordan los diferentes tipos de problemas —cuasisinónimos, homógrafos y la ausencia de términos equivalentes en una o más lenguas—, actualizando sobre todo los ejemplos, adoptando términos más actuales.
3. Construcción y mantenimiento
Otro gran avance de la nueva norma ha sido clarificar y desarrollar también la doctrina sobre la construcción, mantenimiento y uso de los tesauros. El trabajo realizado es muy importante y abarca varios de los capítulos centrales del documento.
En primer lugar, se amplía el tratamiento de las facetas y se establecen claramente las fronteras entre la ordenación jerárquica y por facetas. Además, los ejemplos de presentaciones se desarrollan de forma bilingüe, en inglés y español. Podría parecer una desventaja que se pierden los ejemplos de la norma de tesauros multilingües anterior, que se desarrolla en cuatro idiomas, pero también se hace la presentación mucho más clara, simple y didáctica.
En segundo lugar, el capítulo trece está dedicado específicamente a la planificación, gestión, mantenimiento y difusión de los tesauros. En él se abordan cuidadosamente las políticas previas, la formación y mantenimiento de los equipos de trabajo, y los recursos necesarios. Destaca el énfasis que se hace en la necesidad de un compromiso a largo plazo por parte de expertos y directivos, pues un tesauro requiere el trabajo de especialistas durante un tiempo considerable, es por tanto muy caro, y requiere posteriormente un cuidadoso mantenimiento o terminará por quedar obsoleto. Por ello, el papel del editor y de los consejos editoriales en asegurar tanto el proceso de construcción como el de mantenimiento ocupa un lugar importantísimo en el capítulo. Constituye una llamada a que las organizaciones comprometan estos puestos y tareas en su organigrama de una manera clara y decidida.
También es novedad en consonancia con los tiempos la importancia que se concede al respeto de los derechos intelectuales en el caso muy frecuente de la reutilización de tesauros, y a la necesidad de depositar los tesauros en repositorios especializados —como la Subject Analysis Systems Collection de la Universidad de Toronto o el registro de terminologías de la Dublin Core Metadata Initiative— para facilitar su aprovechamiento, reconocimiento y preservación.
Puesto que la difusión y explotación de los tesauros incluye hoy en día tanto a los agentes humanos como a los sistemas informáticos, la norma atiende especialmente a estas cuestiones, que hacen que los tesauros requieran hoy en día un cuidado administrativo mucho mayor, y un control absoluto de todos los procesos de actualización y distribución, tanto del tesauro completo como de fracciones del mismo, sean árboles, conceptos, términos o relaciones.
Finalmente, el capítulo catorce aborda la cuidadosa especificación de los requisitos mínimos que debe cumplir un software de gestión de tesauros, sin el cual no cabe hoy en día plantearse la creación y sobre todo el mantenimiento de un tesauro, especialmente si va a ser sostenido por una red amplia de personas y centros cooperantes para su explotación y mantenimiento en Internet, lo cual es cada vez la realidad cotidiana.
Es importante señalar que la norma se ha diseñado con un carácter abierto, reconociendo la necesidad de adaptaciones específicas, sin perjuicio de establecer claramente un núcleo que asegure la interoperabilidad. En el anexo A de la norma se presentan numerosos ejemplos que incluyen adaptaciones específicas, con el fin de servir de inspiración y de mostrar en la práctica la perspectiva abierta y adaptable que es necesario mantener en el desarrollo de tesauros.
4. La interoperabilidad
La interoperabilidad es uno de los objetivos clave que persigue la norma. Precisamente, uno de los puntos fuertes de los tesauros como instrumento de recuperación de la información y de organización del conocimiento es su capacidad de integrar códigos de comunicación, lenguas, terminologías y sistemas distintos. Para que los tesauros pudieran seguir desempeñando un papel en el nuevo entorno caracterizado por la Internet y la creciente globalización, debían desarrollarse cauces para potenciar al máximo esta ventaja competitiva.
Inaugurando la tercera parte de la norma, en su capítulo quince, el modelo de datos constituye, sin duda, una de sus aportaciones clave. Por una parte, modeliza formalmente en UML (Unified Modelling Language) las clases, atributos y asociaciones de los tesauros, de manera que resulta fácil programar sistemas y aplicaciones a partir de dicho modelo —aunque no especifica los comportamientos y métodos de clase—. Por otra parte, el modelo facilita una descripción formal clara que permite intercambiar los datos entre sistemas de forma automatizada, asegurando la interoperabilidad.
En el capítulo dieciséis se desarrolla otro aspecto clave de la recuperación de la información contemporánea, a saber, la integración de los tesauros dentro y con las aplicaciones que desarrollan funciones de recuperación de información. Se explicitan los requisitos para navegar por el tesauro, cuando éste está disponible para el usuario, y para que sea utilizable durante el proceso de recuperación de los documentos.
El capítulo diecisiete presenta los formatos de intercambio, y en particular, los formatos MARC —en particular los de intercambio de autoridades—, SKOS, Zthes —desarrollado inicialmente para Z39.50 y ampliado a SRU (Search/Retrieve via URL)— y DD 8723-5 —desarrollado para la norma británica. Como ninguno de los formatos existentes en el momento de la redacción de la norma se consideró adecuado para expresar todas las características de un tesauro de acuerdo con el modelo expresado en el capítulo quince, se desarrolló un formato XML ad hoc, que se describe en el Anexo B, disponible en Internet en la dirección http://www.niso.org/schemas/iso25964.
Finalmente, el capítulo dieciocho aborda los protocolos de comunicación entre sistemas, otro de los aspectos clave de la interoperabilidad. En él, se revisan tres protocolos específicos para tesauros —el SWAD-E SKOS API, varios protocolos basados en SOAP y REST, y el desarrollado por la Alexandria Digital Library (ADL)— así como otros de propósito general —en particular, OASIS, SPARQL y Z39.50.
5. Más allá de ISO UNE 25964-1
La primera parte de la norma ISO 25964 es un documento muy extenso que sintetiza de forma coherente las anteriores de los tesauros monolingües y multilingües y les da mayor desarrollo; aclara las ordenaciones jerárquicas y por facetas; desarrolla en profundidad la planificación, desarrollo, mantenimiento y difusión de los tesauros; y plantea un modelo de datos y un análisis de los formatos y protocolos disponibles, que sienta las bases de la interoperabilidad de los tesauros en las ecologías digitales.
En su segunda parte, la nueva norma ISO 25964 da un sustancial paso más. En ella, se aborda la interoperabilidad de los tesauros no solo en lo que se refiere a sentar sus bases durante el proceso de diseño, mantenimiento y difusión; sino en lo que respecta a su integración en un entorno de sistemas abiertos con otros tesauros, clasificaciones bibliográficas y archivísticas, sistemas de encabezamientos de materia, nomenclaturas, otros vocabularios controlados y ontologías para facilitar búsquedas y servicios “federados”. La segunda parte de la norma constituye un trabajo ingente que se apoya en el éxito conseguido en la normalización de los tipos de mapeos (Dextre, 2011, 2012); y en ella la interoperabilidad de los tesauros con otros sistemas conceptuales se aborda en el contexto de la web semántica y los datos abiertos, gracias al estrecho trabajo conjunto que realizaron los equipos de desarrollo de la ISO 25964 y del estándar W3C SKOS, Simple Knowledge Organization Systems on the Web. Pero esta será una cuestión que abordaremos en una próxima nota ThinkEPI.
Referencias
Asociación Española de Normalización y Certificación. Documentación. UNE 50106:1990: Directrices para el establecimiento y desarrollo de tesauros monolingües. Madrid: AENOR, D.L. 1990. 47 p.. Equivalente a ISO 2788-1986.
Asociación Española de Normalización y Certificación. Documentación. UNE 50106:1995 ERRATUM: Directrices para el establecimiento y desarrollo de tesauros monolingües. Madrid: AENOR, D.L. 1995.
Asociación Española de Normalización y Certificación. Documentación. UNE 50125:1997: Directrices para la creación y desarrollo de tesauros multilingüe. Madrid: AENOR, 1997. 77 p. Norma equivalente a ISO 5964:1985.
British Standards Institute. BS 8723, Structured vocabularies for information retrieval. London: Bristish Standards Institute, 2006-.
Dextre Clarke, Stella G. ISO 25964: a standard in support of KOS interoperability. En: Gilchrist, Alan and Vernau, Judi, Editors. Facets of Knowledge Organization; 4-5 July 2011; London. London: Emerald; 2012.
Dextre Clarke, Stella G. In Pursuit of Interoperability: Can We Standardize Mapping Types? En: Boteram, F, Goedert, W, Hubrich, J (Eds), Concepts in Context – Cologne Conference on Interoperability and Semantics in Knowledge Organization; held 19-20 July 2010; Cologne, Germany. Ergon Verlag 2011.
García Marco, Francisco Javier (coord.); Agustín Lacruz, Carmen; Caro Castro, Carmen; Martínez Usero, José Ángel; San Segundo, Rosa. Proyectos internacionales de reforma y ampliación de las normas sobre tesauros para su adaptación a los nuevos contextos de integración e interoperabilidad en el entorno digital. En: Rodríguez Bravo, Blanca; Alvite Díez, María Luisa (eds.). La interdisciplinariedad y la transdisciplinariedad en la organización del conocimiento científico: Actas del VIII Cosngreso ISKO-España, León, 18, 19 y 20 de abril de 2007. León: Universidad de León, Secretariado de Publicaciones, 2007. p. 389-398. ISBN 978-84-9773-333-5.
García Marco, Francisco Javier. Las normas de tesauros se ponen al día: vocabularios estructurados para la recuperación de información en el entorno digital. En: Anuario ThinkEPI 2008: Análisis de tendencias en información y documentación. 2008 (2008) 57-62. ISSN 1886-6344.