Modelo

Diccionarios

Los diccionarios nos permiten reutilizar valores de transformaciones anteriores, no solo entre distintos jobs, sino también en una misma ejecución. Esto nos permite mantener la coherencia en el dataset resultante: una entrada dada siempre producirá el mismo valor de salida.

Los diccionarios son comunes a todos los taps dentro del mismo proyecto. Por lo tanto, podremos transformar datos de manera coherente entre múltiples bases de datos.

Al ejecutar o editar una regla, las opciones de uso del diccionario aparecerán en el panel derecho de configuración.

Cómo usar

Dependiendo del criterio que elijamos, obtendremos diferentes resultados en función de la configuración del diccionario. Estas son las opciones disponibles:

No usar diccionario

Ignora las coincidencias de valores en el job de transformación. Se generarán valores completamente diferentes, incluso si el valor de entrada es idéntico.

Datos Reales

idNombreApellido
1EdithUpton
2KeithSmith
3EdithSmith

Datos Anonimizados

idNombreApellido
1GlendaLeannon
2FelixReynolds
3ValerieBlock

Como se puede ver, aunque Edith fue anonimizada previamente como Glenda, la segunda vez se convierte en otro valor (Valerie). Lo mismo ocurre con el apellido Smith.

Reutilizar en la misma entidad y campo

Las coincidencias en la misma entidad y campo se transformarán de la misma manera. Incluso si hay coincidencias en otras entidades o campos, se ignorarán.

Datos Reales

Entidad: Clientes

idNombreApellido
1DanielleUpton
2JaySmith
3DanielleHerman
4DwayneSmith

Datos Anonimizados

Entidad: Clientes

idNombreApellido
1MelanieSpencer
2TedHuxley
3MelanieArmstrong
4LeonardHuxley

En este caso, el nombre Danielle se convierte en Melanie tanto en la primera como en la segunda aparición.

Esto ocurre porque tras la primera coincidencia, el valor se guarda en el diccionario, por lo que cuando se vuelve a encontrar en la misma entidad y campo, se transforma igual. Lo mismo pasa con el apellido Smith.

Reutilizar por etiqueta o en la misma entidad y campos

Las coincidencias en campos etiquetados con la misma etiqueta se transformarán igual. Si no comparten etiqueta, aún pueden coincidir por combinación de entidad y campo (como en el caso anterior) y entonces el resultado también será idéntico.

Si hay coincidencias en otras entidades o columnas sin la misma etiqueta, serán ignoradas.

Datos Reales

Entidad: Clientes

idNombre persona/nombre
1Randal
2Alma

Entidad: Empleados

idEmpleado persona/nombre
1Randal
2Ronnie

Datos Anonimizados

Entidad: Clientes

idNombre persona/nombre
1Mark
2Katherine

Entidad: Empleados

idEmpleado persona/nombre
1Mark
2Jeremy

En este caso, Randal se transforma en Mark en ambas tablas porque, aunque las apariciones ocurren en distinta entidad y campo, comparten la misma etiqueta "persona/nombre".

Reutilizar en todos los campos

Los valores ya almacenados en el diccionario serán reutilizados sin importar la entidad, campo o etiqueta donde se hayan encontrado.

Datos Reales

Entidad: Clientes

idNombreApellido
1SusanHeaney
2BerthaSusan
3SusanKeeling

Entidad: Empleados

idNombre_empleadorApellido_empleador
1JanetRogahn
2MarianneMcGlynn
3SusanBauch

Datos Anonimizados

Entidad: Clientes

idNombreApellido
1PercyRodriguez
2JessePercy
3PercyLeffler

Entidad: Empleados

idNombre_empleadorApellido_empleador
1WhitneyKautzer
2GarryDare
3PercyMills

Aunque no comparten entidad, campo ni etiqueta, todas las apariciones de Susan se convertirán en Percy, sin importar dónde se encuentren en la fuente de datos.

Guardar nuevas transformaciones en el diccionario

Si esta opción está activada, las transformaciones se almacenarán y podrán usarse en los próximos jobs.

Si esta opción no está activa, las transformaciones realizadas durante el job se eliminarán, por lo que solo tendrán efecto durante la ejecución actual.

Sobrescribir el diccionario actual

Si esta opción está activa, el diccionario del proyecto actual se vaciará antes de ejecutar la regla, por lo que no se reutilizarán valores almacenados previamente.

Gigantics no almacena ningún dato fuente en su base de datos. Usamos una función criptográfica para crear un hash de las entradas. Por lo tanto, es imposible revertir el proceso para obtener los datos originales.

Tabla de Contenidos