Conocer las ventas reales de una empresa puede ayudar a determinar su valor. Los inversores, por ejemplo, a menudo emplean analistas financieros para predecir las próximas ganancias de una empresa utilizando diversos datos públicos, herramientas informáticas y su propia intuición. Ahora los investigadores del MIT han desarrollado un modelo automatizado quesupera significativamente a los humanos en la predicción de ventas comerciales utilizando datos muy limitados y "ruidosos".
En las finanzas, hay un creciente interés en utilizar datos del consumidor imprecisos pero frecuentemente generados, llamados "datos alternativos", para ayudar a predecir las ganancias de una empresa con fines comerciales y de inversión. Los datos alternativos pueden incluir compras con tarjeta de crédito, datos de ubicación de teléfonos inteligentes,o incluso imágenes satelitales que muestran cuántos automóviles están estacionados en el lote de un minorista. La combinación de datos alternativos con datos financieros más tradicionales pero poco frecuentes, como las ganancias trimestrales, los comunicados de prensa y los precios de las acciones, puede dar una idea más clara desalud financiera de la empresa, incluso a diario o semanalmente.
Pero, hasta ahora, ha sido muy difícil obtener estimaciones precisas y frecuentes utilizando datos alternativos. En un artículo publicado esta semana en la Conferencia de Sigmetrics de las Actas de ACM, los investigadores describen un modelo para pronosticar estados financieros que utiliza solo tarjetas de crédito semanales anónimastransacciones e informes de ganancias de tres meses.
Encargado de predecir las ganancias trimestrales de más de 30 empresas, el modelo superó las estimaciones combinadas de analistas expertos de Wall Street en el 57 por ciento de las predicciones. En particular, los analistas tenían acceso a los datos privados o públicos disponibles y otros modelos de aprendizaje automático,mientras que el modelo de los investigadores utilizó un conjunto de datos muy pequeño de los dos tipos de datos.
"Los datos alternativos son estas señales proxy extrañas para ayudar a rastrear las finanzas subyacentes de una empresa", dice el primer autor Michael Fleder, un postdoc en el Laboratorio de Sistemas de Información y Decisión LIDS. "Preguntamos, '¿Puedes combinar?estas señales ruidosas con números trimestrales para estimar las verdaderas finanzas de una empresa a altas frecuencias "Resulta que la respuesta es sí".
El modelo podría dar una ventaja a los inversores, comerciantes o empresas que buscan comparar con frecuencia sus ventas con sus competidores. Más allá de las finanzas, el modelo podría ayudar a los científicos sociales y políticos, por ejemplo, a estudiar datos agregados y anónimos sobre el comportamiento público ".Será útil para cualquiera que quiera descubrir lo que la gente está haciendo ", dice Fleder.
Uniéndose a Fleder en el documento está el Profesor Devavrat Shah de EECS, quien es el director del Centro de Estadística y Ciencia de Datos del MIT, miembro del Laboratorio de Sistemas de Información y Decisión, un investigador principal del Instituto de Fundamentos de Ciencia de Datos del MIT, yprofesor adjunto en el Instituto Tata de Investigación Fundamental.
Abordar el problema de "datos pequeños"
Para bien o para mal, muchos datos del consumidor están a la venta. Los minoristas, por ejemplo, pueden comprar transacciones con tarjeta de crédito o datos de ubicación para ver cuántas personas compran en un competidor. Los anunciantes pueden usar los datos para ver cómolos anuncios están impactando las ventas. Pero obtener esas respuestas aún depende principalmente de los humanos. Ningún modelo de aprendizaje automático ha sido capaz de reducir los números adecuadamente.
Contraintuitivamente, el problema es en realidad la falta de datos. Cada entrada financiera, como un informe trimestral o un total de tarjeta de crédito semanal, es solo un número. Los informes trimestrales durante dos años suman solo ocho puntos de datos. Los datos de la tarjeta de crédito para, por ejemplo,cada semana durante el mismo período son solo aproximadamente otros 100 puntos de datos "ruidosos", lo que significa que contienen información potencialmente no interpretable.
"Tenemos un problema de 'datos pequeños'", dice Fleder. "Solo obtienes una pequeña porción de lo que la gente está gastando y tienes que extrapolar e inferir lo que realmente sucede a partir de esa fracción de datos".
Por su trabajo, los investigadores obtuvieron transacciones de tarjetas de crédito de los consumidores, generalmente a intervalos semanales y quincenales, e informes trimestrales para 34 minoristas de 2015 a 2018 de un fondo de cobertura. En todas las empresas, reunieron 306 trimestres de datosen total.
Calcular las ventas diarias es bastante simple en concepto. El modelo asume que las ventas diarias de una empresa siguen siendo similares, solo disminuyendo o aumentando ligeramente de un día para otro. Matemáticamente, eso significa que los valores de ventas para días consecutivos se multiplican por algún valor constante más algunosvalor de ruido estadístico, que captura parte de la aleatoriedad inherente en las ventas de una empresa. Las ventas de mañana, por ejemplo, son iguales a las ventas de hoy multiplicadas por, por ejemplo, 0,998 o 1,01, más el número estimado de ruido.
Si se proporcionan parámetros de modelo precisos para la constante diaria y el nivel de ruido, un algoritmo de inferencia estándar puede calcular esa ecuación para generar un pronóstico preciso de las ventas diarias. Pero el truco es calcular esos parámetros.
Desenredando los números
Ahí es donde los informes trimestrales y las técnicas de probabilidad son útiles. En un mundo simple, un informe trimestral podría dividirse por, digamos, 90 días para calcular las ventas diarias lo que implica que las ventas son más o menos constantes día a día., las ventas varían de un día a otro. Además, incluir datos alternativos para ayudar a comprender cómo las ventas varían durante un trimestre complica las cosas: además de ser ruidoso, los datos de la tarjeta de crédito comprada siempre consisten en una fracción indeterminada de las ventas totales.difícil saber cómo exactamente los totales de la tarjeta de crédito tienen en cuenta la estimación general de ventas.
"Eso requiere un poco de desenredar los números", dice Fleder. "Si observamos el 1 por ciento de las ventas semanales de una empresa a través de transacciones con tarjeta de crédito, ¿cómo sabemos que es el 1 por ciento? Y, si los datos de la tarjeta de crédito son ruidosos,¿cómo sabe qué tan ruidoso es? No tenemos acceso a la verdad básica para los totales de ventas diarias o semanales. Pero los agregados trimestrales nos ayudan a razonar sobre esos totales ".
Para hacerlo, los investigadores utilizan una variación del algoritmo de inferencia estándar, llamado filtrado de Kalman o propagación de creencias, que se ha utilizado en diversas tecnologías, desde transbordadores espaciales hasta GPS de teléfonos inteligentes. El filtrado de Kalman utiliza mediciones de datos observadas a lo largo del tiempo, que contienen imprecisiones de ruido, para generar una distribución de probabilidad para variables desconocidas durante un período de tiempo designado. En el trabajo de los investigadores, eso significa estimar las posibles ventas de un solo día.
Para entrenar el modelo, la técnica primero desglosa las ventas trimestrales en un número determinado de días medidos, digamos 90, lo que permite que las ventas varíen día a día. Luego, coincide con los datos observados y ruidosos de la tarjeta de crédito con datos desconocidos diariamenteventas. Usando los números trimestrales y alguna extrapolación, estima la fracción de las ventas totales que probablemente representan los datos de la tarjeta de crédito. Luego, calcula la fracción diaria de las ventas observadas, el nivel de ruido y una estimación de error de qué tan bien hizo sus predicciones.
El algoritmo de inferencia conecta todos esos valores en la fórmula para predecir los totales de ventas diarias. Luego, puede sumar esos totales para obtener números semanales, mensuales o trimestrales. En las 34 compañías, el modelo superó un punto de referencia de consenso, que combinaestimaciones de analistas de Wall Street: 57.2 por ciento de las 306 predicciones trimestrales.
Luego, los investigadores están diseñando el modelo para analizar una combinación de transacciones con tarjeta de crédito y otros datos alternativos, como la información de ubicación. "Esto no es todo lo que podemos hacer. Este es solo un punto de partida natural", dice Fleder.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :