Los repositorios en Google y Google Scholar

 

Existen evidencias empíricas que demuestran que el autoarchivo es actualmente el principal medio de materialización del acceso abierto (OA) al conocimiento científico, lo que convierte a los repositorios en una pieza clave para el mantenimiento de éste. Para asegurar que éstos cumplen adecuadamente su misión es fundamental conocer su presencia e impacto en la Web, especialmente en Google (motor de búsqueda por excelencia) y Google Scholar (herramienta cada vez más usada por los investigadores para buscar información científica).


Pese a que se han realizado estudios previos relativos a este asunto, las evidencias se limitan a zonas geográficas muy concretas (USA), por lo que resulta necesario ver qué está sucediendo en otros entornos.

Por ello, el objetivo de este mensaje es anunciaros algunas de nuestras últimas indagaciones sobre la visibilidad de los repositorios en Google y Google Scholar.  En nuestro boletín Google Scholar Digest (http://googlescholardigest.blogspot.com.es) nos hemos hecho eco de dos trabajos:

– La indización de los informes del Banco Mundial en los susodichos buscadores (http://googlescholardigest.blogspot.com.es/2014/06/world-banks-policy-reports-google-scholar.html)
– La cobertura, visibilidad e impacto web de 127 repositorios de Latinoamericanos (http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html)

Conseguir que los repositorios estén correctamente indizados para hacer visible la producción científica, académica e institucional es responsabilidad de todos. En estos trabajos se arroja algo de luz sobre los motivos por los que los buscadores academicos de Google no son capaces de indizar fielmente dichos documentos:

– Problemas en el propio robot de Google y de sus procedimientos para recuperar los documentos indizados
– Problemas en la arquitectura de los propios documentos o de los metadatos que los representen según las exigencies de GS: carecer de resumen, problemas la denominación de los ficheros (me refiero tanto al titulo como a las extensiones .pdf), documentos escaneados como imagen y no como OCR, excesivo tamaño de los ficheros (Documents larger than 5MB), etc…
– Problemas en la arquitecturas de los sitios web que contienen los documentos (repositories, publishers): direcciones, estructura de las páginas, control de accesos, etc…

En definitiva, nuestro objetivo último es poner encima todos estos problemas, concienciar a la comunidad y ayudar a que mejore la difusión y accesibilidad del conocimiento.

Un abrazo,
Emilio Delgado López-Cózar

Follow us on Social Media