La innovación en 'Big Data' ayuda a abordar problemas que antes eran abrumadores. Lo que sabemos sobre los organismos está en cientos de millones de páginas publicadas durante 250 años. Las nuevas herramientas de software del proyecto Global Names encuentran nombres científicos, indexan documentos digitales rápidamente,corrigiendo nombres y actualizándolos. Estos avances ayudan a "hacer que los datos pequeños sean grandes" al vincularse con el contenido de muchos esfuerzos de investigación. El estudio fue publicado en la revista de acceso abierto Diario de datos de biodiversidad .
La visión de la ciencia 'Big Data' se transforma mediante recursos informáticos para capturar, gestionar e interrogar el diluvio de información proveniente de nuevas tecnologías, proyectos de infraestructura para digitalizar recursos físicos como nuestra literatura de la Biblioteca del Patrimonio de la Biodiversidad, oversiones digitales de especímenes y registros sobre especímenes por museos.
El aumento del ancho de banda ha hecho posible el diálogo entre los centros de datos distribuidos y así es como surgen nuevos conocimientos sobre la biología. En el caso de las ciencias de la biodiversidad, los centros de datos varían en tamaño desde el GenBank grande para registros moleculares y la Facilidad Global de Información sobre Biodiversidad para registrosde ocurrencias de especies, a una larga cola de decenas de miles de conjuntos de datos y sitios web más pequeños que contienen información compilada por individuos, proyectos de investigación, agencias de financiación, agencias gubernamentales locales, estatales, nacionales e internacionales.
Los grandes depósitos biológicos aún no se acercan a la escala de la astronomía y la física nuclear, pero la gran cantidad de fuentes en la larga cola de recursos útiles presentan a los informadores de la biodiversidad un gran desafío: cómo descubrir, indexar, organizar yinterconecte la información contenida en una gran cantidad de ubicaciones.
En este sentido, la biología es afortunada de que, desde mediados del siglo XVIII, la comunidad ha aceptado el uso de binomios latinos como Homo sapiens o Ba humbugi para especies. Todos los nombres están listados por taxonomistas. Las herramientas de reconocimiento de nombres pueden recurrir a grandes recopilaciones de nombres de expertos Catálogo de la Vida, Zoobank, Index Fungorum, Global Names Index para encontrar coincidencias en las fuentes de información digital.indexación rápida de contenido.
Incluso cuando no conocemos un nombre, podemos 'descubrirlo' porque los nombres científicos tienen ciertas características distintivas escritas en cursiva, la mayoría de las veces dos palabras sucesivas en forma latinizada, con la primera en mayúscula.permitir que los nombres que aún no están presentes en las compilaciones de nombres se descubran en las fuentes de datos digitales.
La idea de una infraestructura cibernética basada en nombres es usar los nombres para interconectar sitios distribuidos grandes y pequeños de conocimiento experto distribuidos a través de Internet. Este es el concepto del proyecto Global Names descrito que llevó a cabo el trabajo descrito en este documento.
La efectividad de dicha infraestructura se ve comprometida por los cambios en los nombres a lo largo del tiempo debido a la investigación taxonómica y filogenética. Los nombres a menudo están mal escritos, o puede haber errores en la forma en que se presentan los nombres. Mientras tanto, un número creciente de especies no tienen nombres, pero se distinguen por sus características moleculares.
Para evaluar el desafío que estos problemas pueden presentar para la realización de una infraestructura cibernética basada en nombres, comparamos los nombres de GenBank y DRYAD un repositorio de datos digitales con los nombres del Catálogo de Vida para evaluar qué tan bien coinciden.
Como resultado, descubrimos que menos del 15% de los nombres en las comparaciones por pares de estas fuentes de datos podrían coincidir. Sin embargo, con un analizador de nombres para dividir los nombres científicos en todas sus partes componentes, esas partesque presentan la mayor cantidad de problemas podrían eliminarse para producir una versión simplificada o canónica del nombre. Gracias a estas herramientas, la coincidencia de nombres se mejoró a casi el 85%, y en algunos casos al 100%.
Fuente de la historia :
Materiales proporcionado por Editores Pensoft . La historia original tiene licencia bajo a Licencia Creative Commons . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :