Los investigadores de Princeton, Columbia y Harvard han creado un nuevo método para analizar grandes datos que predice mejor los resultados en la atención de la salud, la política y otros campos.
El estudio aparece esta semana en la revista Actas de la Academia Nacional de Ciencias .
En estudios anteriores, los investigadores mostraron que las variables significativas podrían no ser predictivas y que los buenos predictores podrían no parecer estadísticamente significativos. Esto planteó una pregunta importante: ¿cómo podemos encontrar variables altamente predictivas si no es a través de una guía de significación estadística?la predicción incluye el uso de un criterio basado en la significación para evaluar las variables que se usarán en los modelos y evaluar las variables y los modelos simultáneamente para la predicción mediante validación cruzada o datos de prueba independientes.
En un esfuerzo por reducir la tasa de error con esos métodos, los investigadores propusieron una nueva medida llamada puntaje de influencia, o puntaje I, para medir mejor la capacidad de predicción de una variable. Descubrieron que el puntaje I es efectivo para diferenciarentre las variables ruidosas y predictivas en Big Data y puede mejorar significativamente la tasa de predicción. Por ejemplo, el puntaje I mejoró la tasa de predicción en los datos de cáncer de mama del 70 por ciento al 92 por ciento. El puntaje I se puede aplicar en una variedad de campos, incluyendo terrorismo, guerra civil, elecciones y mercados financieros.
"Las implicaciones prácticas son las que impulsaron el proyecto, por lo que son bastante amplias", dice la autora principal Adeline Lo, investigadora postdoctoral en el Departamento de Política de Princeton. "Esencialmente, en cualquier momento puede estar interesado en predecir e identificar variables altamente predictivas,es posible que tenga algo que ganar al realizar la selección de variables a través de una estadística como el puntaje I, que está relacionado con la predictividad variable. Que el puntaje I tenga un rendimiento especialmente bueno en datos de alta dimensión y con muchas interacciones complejas entre variables es una bendición adicional parael investigador o experto en políticas interesado en predecir algo con datos de grandes dimensiones "
Fuente de la historia :
Materiales proporcionados por Universidad de Princeton . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :