Code4Lib Diario, Edición 33 ya está disponible!

El Code4Lib Diario, Edición 33 ya está disponible! 

cuestiones http://journal.code4lib.org/~~number=plural / número33 

 
El Comité Editorial de la Revista Code4Lib se complace en presentar edición 33 para su lectura de verano. Lo invitamos a explorar este tema, participar en los comentarios, y llegar a los autores que contribuyeron su trabajo.
 
Introducción Editorial – Lista de Lectura de Verano 
por Ron Peterson 
http://journal.code4lib.org/ artículos / 11859 
Nuevas incorporaciones para su lista de lectura de verano!
 
Emflix – Gone Baby Gone 
por Netanel Ganin 
http://journal.code4lib.org/ artículos / 11762 
El entusiasmo es ningún sustituto para la experiencia. En este artículo se describe una herramienta desarrollada en la biblioteca de la universidad de Emerson por un exceso de celo, pero con ganas catalogador. El intento de mejorar los medios de comunicación-descubrimiento de una manera intuitiva y familiar, creó una interfaz al estilo de Netflix explorar y buscar. A pesar de que puede haber sido una idea interesante, muchos de los pasos cruciales que están involucrados en este tipo de trabajo de alto concepto fueron descuidados. En este artículo se va a explorar y explicar por qué la herramienta en última instancia, no se ha mantenido o actualizada, y lo que debería haberse hecho de otra manera para asegurar su legado y su uso continuado.
 
Introducción a la minería de texto con R para Profesionales de la Información 
por Monica Maceli 
http://journal.code4lib.org/ artículos / 11626 
El ‘tm: Texto del paquete Minera’ en el código abierto de software estadístico R ha realizado técnicas de análisis de texto de fácil acceso tanto a los practicantes novatos y expertos, proporcionando formas útiles de análisis y comprensión de los conjuntos de datos grandes y no estructurados. Este enfoque puede dar muchos beneficios a los profesionales de la información, en particular los que participan en proyectos de investigación con mucho texto. Este artículo discutirá la funcionalidad y posibilidades de minería de textos, así como la configuración básica necesaria para los usuarios novatos R para emplear la RStudio entorno de desarrollo integrado (IDE). casos de uso común, tales como el análisis de un corpus de documentos de texto u hoja de cálculo de datos de texto, serán cubiertos, así como las herramientas de minería de texto para el cálculo de frecuencia de los términos, las correlaciones plazo, el agrupamiento, la creación de wordclouds, y el trazado.
 
Los datos para la toma de decisiones: Seguimiento de las necesidades de su biblioteca con TrackRef 
por Michael Carlozzi 
http://journal.code4lib.org/ artículos / 11740 
Los servicios bibliotecarios deben adaptarse a las necesidades cambiantes patrones. Estas adaptaciones deben ser impulsado por los datos. Este documento informa sobre el uso de TrackRef, un código abierto y el programa web gratuito para la gestión de estadísticas de referencia.
 
Son los juegos de una solución viable para el crowdsourcing mejoras defectuosa OCR? – El juego y la experiencia con propósito BHL 
por Max J. Seidman; La doctora Mary Flanagan; Trish Rose-Sandler; Mike Lichtenberg 
http://journal.code4lib.org/ artículos / 11781 
El Jardín Botánico de Missouri y socios de Dartmouth, Harvard, el Jardín Botánico de Nueva York, y Cornell recientemente concluyó un proyecto financiado por IMLS llamada Gaming propósito y BHL: la participación del público en la mejora y la mejora del acceso a los textos digitales ( http: // biodivlib .wikispaces. com / Purposeful + Gaming ). Los objetivos del proyecto eran mejorar significativamente el acceso a los textos digitales a través de la aplicabilidad de los juegos con propósito para la realización de tareas de mejora de los datos necesarios para el contenido que se encuentra dentro de la Biodiversity Heritage Library (BHL). En este artículo se va a compartir nuestro enfoque en términos de opciones de diseño de juegos y el uso de algoritmos de control de la calidad de los insumos de los jugadores, así como los desafíos relacionados con transcripciones y comercialización. Concluiremos dar una respuesta a la pregunta de si los juegos son una herramienta de éxito para el análisis y la mejora de salidas digitales de un OCR y si se recomienda su adopción por las bibliotecas y otras instituciones del patrimonio cultural.
 
A partir de los Comunes digitales a OCLC: Un enfoque adaptado para la cosecha y la transformación de metadata de TE en registros de alta calidad 
por Marielle Veve 
http://journal.code4lib.org/ artículos / 11676 
La literatura biblioteca contiene muchos ejemplos de métodos automáticos y semiautomáticos para cosechar tesis y disertaciones electrónicas metadatos (ETD) de los repositorios institucionales (IR) para el Online Computer Library Center (OCLC). Sin embargo, la mayoría de estos enfoques no podrían ponerse en práctica con los institucionales de software repositorio digital Commons debido a varias razones, incluyendo las incompatibilidades de esquema de propiedad y los requisitos de experiencia de programación de alto nivel de nuestra institución no desea seguir. Sólo un enfoque semiautomático fue encontrado en la literatura biblioteca que cumplieron con los requisitos para su aplicación, ya pesar de que atiende a las necesidades particulares de la DSpace de IR, se podría aplicar a otros programas IR si se aplicaran más personalizaciones. 
El siguiente artículo presenta una extensión de este método semi-automatizado creado originalmente por Deng y Reese, pero personalizado y adaptado para hacer frente a las necesidades particulares de la comunidad Digital Commons y actualizada para integrar lo último de descripción de recursos y de acceso (RDA) las normas de contenido de un DPV . Ventajas y desventajas de este flujo de trabajo se discuten y se presentan así.
 
Verificación de la identidad de las entidades por los algoritmos de la máquina: el siguiente paso para el espacio de nombres Nacional de Hungría 
por Zsolt Bánki, Tibor Mészáros, Márton Németh, András Simon 
http://journal.code4lib.org/ artículos / 11765 
La redundancia de entidades procedentes de diferentes fuentes causó problemas durante la construcción de las autoridades de nombres personales para el Museo de la Literatura Petőfi. Fue una de las principales prioridades para limpiar y unir a los registros de clasificación que tienen diferentes contenidos de datos, pero pertenecen a la misma persona sin perder ningún dato. Como primer paso en el año 2013, encontramos identidades en aproximadamente 80.000 registros de nombres de por lo fusionamos el contenido de los datos de estos registros. En la segunda fase de un algoritmo mucho más complicado tuvo que ser aplicada para mostrar estas identidades. Nos limpiados mediante la unión de la base de datos de aproximadamente 36.000 registros. El flujo de trabajo para la detección automática de los datos de la autoridad trata de seguir la inteligencia humana. Los scripts de base de normalizar y examinan unos 20 tipos de elementos de datos de acuerdo a la información acerca de las fechas, localidades, la ocupación y el nombre variaciones. El resultado de la creación de pares a partir de los registros de autoridad de la base de datos, como posibles elementos redundantes, era un gráfico, que se condensó a un árbol, por los esfuerzos humanos de los curadores del museo. Con esto, se alcanza el límite de identificación tecnológico. Para que se necesita además la limpieza de datos de inteligencia humana que pueden ser asistidos por un seguimiento periódico computarizado, basado en el algoritmo desarrollado. Como resultado, el servicio que contiene unos 620.000 registros de nombres de autoridad será un fundamento indispensable para el establecimiento de las Autoridades Nacionales nombre. En este artículo se muestra el proceso de trabajo de la unificación.
 
Metadatos Analytics, la visualización y optimización: Experimentos en el análisis estadístico de la biblioteca pública digital de América (dpla) 
por Corey A. Harper 
http://journal.code4lib.org/ artículos / 11752 

Este documento presenta los conceptos de evaluación de los metadatos y la “cuantificación” y describe los resultados preliminares de la investigación que aplican estos conceptos con los metadatos de la biblioteca pública digital de América (DPLA). Las secciones introductorias además, una descripción técnica de pre-procesamiento de datos, y proponen técnicas de visualización que pueden ayudar a entender las características de metadatos en un contexto dado. Visualizaciones de ejemplo se muestran y comentan que conduce a la utilización de “huellas dactilares” de metadatos – Parcelas D3 estrellas – para resumir las características de metadatos a través de múltiples campos de agrupaciones arbitrarias de los recursos. Las huellas dactilares se muestran comparando characterisics metadatos para diferentes “centros” dpla y también para utilizado en comparación con los recursos no utilizados a base de Google Analytics recuento de visitas de página “”. Las secciones de cierre introducen el concepto de optimización de metadatos y explorar el uso de técnicas de aprendizaje automático para optimizar los metadatos en el contexto de los agregadores de metadatos a gran escala como DPLA. Varios modelos estadísticos se utilizan para predecir si un elemento DPLA particular, se utiliza basa únicamente en sus metadatos. El artículo concluye con una discusión sobre el amplio potencial de aprendizaje de la máquina y la ciencia de datos en bibliotecas, instituciones académicas, y el patrimonio cultural.
Follow us on Social Media