Los científicos informáticos de Columbia Engineering han inventado FontCode, una nueva forma de incrustar información oculta en texto ordinario cambiando o perturbando de manera imperceptible las formas de las fuentes en el texto. FontCode crea perturbaciones de fuentes, usándolas para codificar un mensaje que luego puede serEl método funciona con la mayoría de las fuentes y, a diferencia de otros métodos de texto y documentos que ocultan información incrustada, funciona con la mayoría de los tipos de documentos, incluso manteniendo la información oculta cuando el documento se imprime en papel o se convierte a otro tipo de archivo.El documento se presentará en SIGGRAPH en Vancouver, Columbia Británica, del 12 al 16 de agosto.
"Si bien existen aplicaciones obvias para el espionaje, creemos que FontCode tiene usos aún más prácticos para las empresas que desean evitar la manipulación de documentos o proteger los derechos de autor, y para los minoristas y artistas que desean incrustar códigos QR y otros metadatos sin alterar el aspecto o el diseño deun documento ", dice Changxi Zheng, profesor asociado de ciencias de la computación y autor principal del artículo.
Zheng creó FontCode con sus estudiantes Chang Xiao estudiante de doctorado y Cheng Zhang MS'17 ahora estudiante de doctorado en UC Irvine como un método esteganográfico de texto que puede incorporar texto, metadatos, una URL o una firma digital en undocumento de texto o imagen, ya sea que esté almacenado digitalmente o impreso en papel. Funciona con familias de fuentes comunes, como Times Roman, Helvetica y Calibri, y es compatible con la mayoría de los programas de procesamiento de textos, incluidos Word y FrameMaker, así como con imágenes.programas de edición y dibujo, como Photoshop e Illustrator. Dado que cada letra puede ser perturbada, la cantidad de información que se transmite en secreto está limitada solo por la longitud del texto normal. La información se codifica utilizando perturbaciones minúsculas de la fuente, cambiando el ancho del trazo, ajustandola altura de los ascendentes y descendentes, o apretar o aflojar las curvas en las serifas y los cuencos de letras como o, p y b.
"Cambiar cualquier letra, signo de puntuación o símbolo en una forma ligeramente diferente le permite cambiar el significado del documento", dice Xiao, el autor principal del documento. "Esta información oculta, aunque no es visible para los humanos, es máquina-legible del mismo modo que los códigos de barras y los códigos QR se pueden leer al instante en las computadoras. Sin embargo, a diferencia de los códigos de barras y códigos QR, FontCode no estropea la estética visual del material impreso, y su presencia puede permanecer en secreto ".
Los datos ocultos usando FontCode pueden ser extremadamente difíciles de detectar. Incluso si un atacante detecta cambios en la fuente entre dos textos, altamente improbable dada la sutileza de las perturbaciones, simplemente no es práctico escanear todos los archivos que entran y entranempresa.
Además, FontCode no solo incrusta sino que también puede cifrar mensajes. Si bien las perturbaciones se almacenan en una ubicación numerada en un libro de códigos, sus ubicaciones no son fijas. Las personas que desean comunicarse a través de documentos cifrados estarían de acuerdo con una clave privada que especifiqueubicaciones u orden de perturbaciones en el libro de códigos.
"El cifrado es solo un nivel de protección de respaldo en caso de que un atacante pueda detectar el uso de cambios de fuente para transmitir información secreta", dice Zheng. "Es muy difícil ver los cambios, por lo que son muy difíciles de detectar. Estohace que FontCode sea una técnica muy poderosa para obtener datos más allá de las defensas existentes "
FontCode no es la primera tecnología para ocultar un mensaje en texto; existen programas para ocultar mensajes en archivos PDF y Word o para cambiar el tamaño de los espacios en blanco para denotar un 0 o 1, pero, según los investigadores, es el primero en serindependiente del documento y para retener la información secreta incluso cuando un documento o una imagen con texto PNG, JPG se imprime o se convierte a otro tipo de archivo. Esto significa que un archivo FrameMaker o Word se puede convertir a PDF, o un JPEG puede serconvertido a PNG, todo sin perder la información secreta.
Para usar FontCode, debe proporcionar un mensaje secreto y un documento de texto portador. FontCode convierte el mensaje secreto en una cadena de bits ASCII o Unicode y luego en una secuencia de enteros. Cada entero se asigna a un bloque de cinco letrasen el texto normal donde las ubicaciones numeradas del libro de códigos de cada letra suman el número entero.
Recuperar mensajes ocultos es el proceso inverso. Desde un archivo digital o desde una fotografía tomada con un teléfono inteligente, FontCode hace coincidir cada letra perturbada con la perturbación original en el libro de códigos para reconstruir el mensaje original.
La correspondencia se realiza utilizando redes neuronales convolucionales CNN. Reconocer las fuentes dibujadas por vectores como las almacenadas como PDF o creadas con programas como Illustrator es sencillo ya que las definiciones de forma y ruta son legibles por computadora. Sin embargo, es una historia diferentepara PNG, IMG y otras fuentes rasterizadas o píxeles, donde los cambios de iluminación, las diferentes perspectivas de la cámara o el ruido o la falta de definición pueden enmascarar una parte de la letra y evitar un reconocimiento fácil.
Si bien las CNN están capacitadas para tener en cuenta tales distorsiones, aún se producirán errores de reconocimiento y un desafío clave para los investigadores fue garantizar que un mensaje siempre se pudiera recuperar frente a tales errores. La redundancia es una forma obvia de recuperar la información perdida, pero no funciona bien con el texto ya que las letras y símbolos redundantes son fáciles de detectar.
En cambio, los investigadores recurrieron al Teorema del resto de chinos de 1700 años de antigüedad, que identifica un número desconocido de su resto después de haber sido dividido por varios divisores diferentes. El teorema se ha utilizado para reconstruir la información que falta en otros dominios; enFontCode, los investigadores lo usan para recuperar el mensaje original incluso cuando no todas las letras se reconocen correctamente.
"Imagine tener tres variables desconocidas", dice Zheng. "Con tres ecuaciones lineales, debería ser capaz de resolver las tres. Si aumenta el número de ecuaciones de tres a cinco, puede resolver las tres incógnitas siempre quesabes tres de las cinco ecuaciones "
Utilizando la teoría del resto chino, los investigadores demostraron que podían recuperar mensajes incluso cuando no se reconocía el 25% de las perturbaciones de las letras. En teoría, la tasa de error podría ser superior al 25%.
Los autores, que han presentado una patente con Columbia Technology Ventures, planean extender FontCode a otros idiomas y conjuntos de caracteres, incluido el chino.
"Estamos entusiasmados con la amplia gama de aplicaciones para FontCode", dice Zheng, "desde el software de gestión de documentos, hasta códigos QR invisibles, hasta la protección de documentos legales. FontCode podría cambiar las reglas del juego".
Sobre el estudio
El estudio se titula "FontCode: incrustando información en documentos de texto usando perturbación de glifo".
Los autores son: Changxi Zheng, Chang Xiao y Cheng Zhang departamento de informática, Columbia Engineering.
El estudio fue apoyado en parte por la National Science Foundation.
SITIO WEB DEL PROYECTO: http://www.cs.columbia.edu/cg/fontcode/
MÁS INFORMACIÓN: http://www.cs.columbia.edu/2018/fontcode-hiding-information-in-plain-text-unobtrusively-and-across-file-types/
Fuente de la historia :
Materiales proporcionados por Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Columbia . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :