¿Alguna vez usó su tarjeta de crédito en una nueva tienda o ubicación solo para que se rechazara? ¿Alguna vez se ha bloqueado una venta porque cobró una cantidad mayor de lo habitual?
Las tarjetas de crédito de los consumidores se rechazan sorprendentemente a menudo en transacciones legítimas. Una de las causas es que las tecnologías de detección de fraude utilizadas por el banco de un consumidor han marcado incorrectamente la venta como sospechosa. Ahora los investigadores del MIT han empleado una nueva técnica de aprendizaje automático para reducir drásticamente estasfalsos positivos, ahorrando dinero a los bancos y aliviando la frustración del cliente.
El uso del aprendizaje automático para detectar fraudes financieros se remonta a principios de la década de 1990 y ha avanzado a lo largo de los años. Los investigadores entrenan modelos para extraer patrones de comportamiento de transacciones pasadas, llamadas "características", que indican fraude. Cuando desliza su tarjeta, la tarjetahace ping al modelo y, si las características coinciden con el comportamiento de fraude, la venta se bloquea.
Detrás de escena, sin embargo, los científicos de datos deben imaginar esas características, que se centran principalmente en las reglas generales de cantidad y ubicación. Si algún cliente gasta más de, digamos, $ 2,000 en una compra, o realiza numerosas compras en el mismo día, pueden estar marcados. Pero debido a que los hábitos de gasto de los consumidores varían, incluso en cuentas individuales, estos modelos son a veces inexactos: un informe de 2015 de Javelin Strategy and Research estima que solo una de cada cinco predicciones de fraude es correcta y que los errores pueden costarle a un banco$ 118 mil millones en ingresos perdidos, ya que los clientes rechazados se abstienen de usar esa tarjeta de crédito.
Los investigadores del MIT han desarrollado un enfoque de "ingeniería de características automatizadas" que extrae más de 200 características detalladas para cada transacción individual, por ejemplo, si un usuario estuvo presente durante las compras y la cantidad promedio gastada en ciertos días en ciertos proveedores.al hacerlo, puede determinar mejor cuándo los hábitos de gasto de un titular de tarjeta específico se desvían de la norma.
Probado en un conjunto de datos de 1,8 millones de transacciones de un banco grande, el modelo redujo las predicciones falsas positivas en un 54 por ciento sobre los modelos tradicionales, que los investigadores estiman que podrían haber ahorrado al banco 190,000 euros alrededor de $ 220,000 en ingresos perdidos.
"El gran desafío en esta industria son los falsos positivos", dice Kalyan Veeramachaneni, científico investigador principal en el Laboratorio de Sistemas de Información y Decisión LIDS del MIT y coautor de un artículo que describe el modelo, que se presentó en el recienteConferencia Europea para el Aprendizaje Automático. "Podemos decir que hay una conexión directa entre la ingeniería de características y [reducir] los falsos positivos ... Eso es lo más impactante para mejorar la precisión de estos modelos de aprendizaje automático".
Los coautores del artículo son: el autor principal Roy Wedge, un ex investigador en el Laboratorio de Datos a AI en LIDS; James Max Kanter '15, SM '15; y Santiago Moral Rubio y Sergio Iglesias Pérez del Banco Bilbao Vizcaya Argentaria.
Extracción de características "profundas"
Hace tres años, Veeramachaneni y Kanter desarrollaron Deep Feature Synthesis DFS, un enfoque automatizado que extrae características altamente detalladas de cualquier dato, y decidió aplicarlo a las transacciones financieras.
Las empresas a veces organizan concursos donde proporcionan un conjunto de datos limitado junto con un problema de predicción como el fraude. Los científicos de datos desarrollan modelos de predicción, y un premio en efectivo va al modelo más preciso. Los investigadores participaron en uno de esos concursos y obtuvieron las mejores puntuaciones conDFS.
Sin embargo, se dieron cuenta de que el enfoque podría alcanzar su máximo potencial si se capacitara en varias fuentes de datos sin procesar. "Si observan lo que lanzan las compañías de datos, es una pequeña porción de lo que realmente tienen", dice Veeramachaneni. "Nuestra pregunta era, '¿Cómo aplicamos este enfoque a los negocios reales?' "
respaldado por el programa Data-Driven Discovery of Models de la Agencia de Proyectos de Investigación Avanzada de Defensa, Kanter y su equipo en FeatureLabs, un spin-off que comercializa la tecnología, desarrollaron una biblioteca de código abierto para la extracción automática de funciones, llamada Featuretools, que se utilizóen esta investigación.
Los investigadores obtuvieron un conjunto de datos de tres años proporcionado por un banco internacional, que incluía información granular sobre el monto de la transacción, horarios, ubicaciones, tipos de proveedores y terminales utilizados. Contiene alrededor de 900 millones de transacciones de alrededor de 7 millones de tarjetas individuales.transacciones, alrededor de 122,000 fueron confirmadas como fraude. Los investigadores entrenaron y probaron su modelo en subconjuntos de esos datos.
En el entrenamiento, el modelo busca patrones de transacciones y entre tarjetas que coinciden con casos de fraude. Luego combina automáticamente todas las diferentes variables que encuentra en características "profundas" que proporcionan una visión muy detallada de cada transacción. Desde el conjunto de datos,El modelo DFS extrajo 237 características para cada transacción. Estas representan variables altamente personalizadas para los titulares de tarjetas, dice Veeramachaneni. "Digamos, el viernes, es habitual que un cliente gaste $ 5 o $ 15 dólares en Starbucks", dice."¿Cuánto dinero se gastó en una cafetería un viernes por la mañana?"
Luego crea un árbol de decisión if / then para esa cuenta de características que señalan y no apuntan a fraude. Cuando se ejecuta una nueva transacción a través del árbol de decisión, el modelo decide en tiempo real si la transacción es fraudulenta o no.
En comparación con un modelo tradicional utilizado por un banco, el modelo DFS generó alrededor de 133,000 falsos positivos versus 289,000 falsos positivos, aproximadamente 54 por ciento menos incidentes. Eso, junto con un menor número de falsos negativos detectados - fraude real que no fuedetectado - podría ahorrar al banco un estimado de 190,000 euros, estiman los investigadores.
primitivas de apilamiento
La columna vertebral del modelo consiste en "primitivas" creativamente apiladas, funciones simples que toman dos entradas y dan una salida. Por ejemplo, calcular un promedio de dos números es una primitiva. Eso se puede combinar con una primitiva que observamarca de tiempo de dos transacciones para obtener un tiempo promedio entre transacciones. Apilar otra primitiva que calcula la distancia entre dos direcciones de esas transacciones da un tiempo promedio entre dos compras en dos ubicaciones específicas. Otra primitiva podría determinar si la compra se realizó en un día laborableo fin de semana, etc.
"Una vez que tenemos esas primitivas, no hay quien nos pare para apilarlas ... y comienzas a ver estas variables interesantes en las que no pensaste antes. Si profundizas en el algoritmo, las primitivas son la salsa secreta,"Veeramachaneni dice.
Veeramachaneni señala que una característica importante que genera el modelo es calcular la distancia entre esas dos ubicaciones y si sucedieron en persona o de forma remota. Si alguien que compra algo en, por ejemplo, el Centro Stata en persona y, media hora más tarde, compra algo en persona a 200 millas de distancia, entonces es una alta probabilidad de fraude. Pero si una compra se realizó a través del teléfono móvil, la probabilidad de fraude disminuye.
"Hay tantas características que puede extraer que caracterizan los comportamientos que ve en datos anteriores que se relacionan con casos de fraude o uso no fraudulento", dice Veeramachaneni.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :