Los avances en la secuenciación genética y otras tecnologías han llevado a una explosión de datos biológicos, y décadas de apertura tanto espontáneas como forzadas significan que los científicos depositan datos de forma rutinaria en repositorios en línea. Pero los investigadores son humanos y pueden olvidarse de contar un repositoriopara liberar los datos cuando se publica un artículo.
Una nueva herramienta, desarrollada por los investigadores de la Universidad de Washington y Microsoft Maxim Grechkin, Hoifung Poon y Bill Howe, y descrita en un artículo de la página de la comunidad que publica el 8 de junio en la revista de acceso abierto PLOS Biología , espera solucionar este problema y ayudar a avanzar en la ciencia abierta al detectar automáticamente conjuntos de datos que están atrasados para su publicación.
Los datos abiertos son un pilar vital de la ciencia abierta, ya que permiten a otros investigadores reproducir resultados y utilizar los mismos conjuntos de datos para producir descubrimientos novedosos. Si bien muchas revistas científicas ahora requieren que los autores publicados hagan públicos los datos subyacentes de sus hallazgos, estas políticas a menudo se publicanEl desafío es sustancial: el repositorio ómnibus de expresión génica GEO del Centro Nacional de Información Biotecnológica NCBI solo contiene 80.985 conjuntos de datos públicos, que abarcan cientos de tipos de tejidos en miles de organismos, y el rápido crecimiento de los datos hace que sea difícilpara revistas o repositorios de datos para "vigilar" si los conjuntos de datos que deberían ponerse a disposición del público realmente lo están.
El sistema Wide-Open está disponible bajo una licencia de código abierto en GitHub; utiliza la minería de texto para identificar referencias de conjuntos de datos en artículos científicos publicados que deberían ser de acceso público, y luego analiza los resultados de las consultas de los repositorios para determinar si esos conjuntos de datos permanecen privados.
Grechkin y su equipo probaron su herramienta en dos repositorios de datos populares mantenidos por el NCBI: GEO y Sequence Read Archive SRA. Wide-Open identificó una gran cantidad de datasets vencidos, lo que estimuló a los administradores de repositorios a responder lanzando 400conjuntos de datos en una semana.
"Desarrollamos un sistema simple pero efectivo que ya ha ayudado a hacer públicos cientos de conjuntos de datos", dijo el autor principal Maxim Grechkin. "Tener un sistema imparcial y automatizado para aplicar políticas de datos abiertos puede ayudar a nivelar el campo de juego entre los científicos y generar nuevas oportunidadespara el descubrimiento "
Fuente de la historia :
Materiales proporcionados por PLOS . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :