Caso de estudio

Data Room Virtual

Proyecto de procesamiento por lote de 2700 documentos escaneados embebidos en PDF. Extracción de texto por medio de OCR, detección de datos personales por medio de Nymiz y edición de los PDF para ocultamiento de los datos por medio de blacklining.

documentos

1,1

Gb de datos

páginas

Contexto

Data Room Virtual ofrece un servicio de salas virtuales donde se realizan firmas de operaciones en las que se necesita analizar información con datos muy sensibles. Se da la circunstancia de que una parte importante de esta información contiene datos personales que tienen que ser anonimizados para que puedan compartirse en las salas. Y esta documentación puede ser realmente voluminosa y, por tanto, su anonimización manual no es una opción viable.

Reto

Se pretende tener una solución que pueda detectar los datos personales en esa documentación y a partir de ahí poder anonimizarlos para compartirlos en la sala virtual y cumplir la legalidad vigente. Adicionalmente necesitan que el formato del documento anonimizado sea idéntico al original y el 99% de la documentación es pdf imagen y en un porcentaje con una calidad no óptima.

Solución

Innovación tecnológica

Se combinó la solución de Nymiz con un módulo de OCR que permite extraer el texto de las imágenes embebidas en cada PDF. El flujo del proceso entonces ha consistido en las siguientes fases:

  • Extracción por medio de OCR del texto de las imágenes
  • Ingreso en Nymiz del texto extraído
  • Devuelto el texto con las marcas de los datos personales, localizados en el documento original
  • Otro módulo, alimentado con las coordenadas de los datos, aplicaba el blacklining sobre el dato a ocultar

Dificultades

El principal obstáculo del proceso ha sido, en la mayoría de los casos, la calidad de los originales. Cuando el original tenía buena calidad y el resultado del OCR era efectivo, el resultado final era el esperado.

Solicita una demo

Solicita una demostración gratuita con un miembro de nuestro equipo

Puedes anonimizar y seudonimizar ficheros .doc, .docx, .pdf, .txt, .csv. y bases de datos.

Puedes seleccionar desde una frase, un fichero, carpeta o directorio.

Selecciona si quieres anonimizar (borrar) o seudonimizar (cambiar el dato personal) dependiendo de tu objetivo.

Recibes el archivo cuando y donde tú quieres con el mismo formato y extensión.