Diccionarios
Los diccionarios nos permiten reutilizar valores de transformaciones anteriores, no solo entre distintos jobs, sino también en una misma ejecución. Esto nos permite mantener la coherencia en el dataset resultante: una entrada dada siempre producirá el mismo valor de salida.
Los diccionarios son comunes a todos los taps dentro del mismo proyecto. Por lo tanto, podremos transformar datos de manera coherente entre múltiples bases de datos.
Al ejecutar o editar una regla, las opciones de uso del diccionario aparecerán en el panel derecho de configuración.
Cómo usar
Dependiendo del criterio que elijamos, obtendremos diferentes resultados en función de la configuración del diccionario. Estas son las opciones disponibles:
No usar diccionario
Ignora las coincidencias de valores en el job de transformación. Se generarán valores completamente diferentes, incluso si el valor de entrada es idéntico.
Datos Reales
id | Nombre | Apellido |
---|---|---|
1 | Edith | Upton |
2 | Keith | Smith |
3 | Edith | Smith |
Datos Anonimizados
id | Nombre | Apellido |
---|---|---|
1 | Glenda | Leannon |
2 | Felix | Reynolds |
3 | Valerie | Block |
Como se puede ver, aunque Edith
fue anonimizada previamente como Glenda
, la
segunda vez se convierte en otro valor (Valerie
). Lo mismo ocurre con el apellido Smith
.
Reutilizar en la misma entidad y campo
Las coincidencias en la misma entidad y campo se transformarán de la misma manera. Incluso si hay coincidencias en otras entidades o campos, se ignorarán.
Datos Reales
Entidad: Clientes
id | Nombre | Apellido |
---|---|---|
1 | Danielle | Upton |
2 | Jay | Smith |
3 | Danielle | Herman |
4 | Dwayne | Smith |
Datos Anonimizados
Entidad: Clientes
id | Nombre | Apellido |
---|---|---|
1 | Melanie | Spencer |
2 | Ted | Huxley |
3 | Melanie | Armstrong |
4 | Leonard | Huxley |
En este caso, el nombre Danielle
se convierte en Melanie
tanto en la primera
como en la segunda aparición.
Esto ocurre porque tras la primera coincidencia, el valor se guarda en el
diccionario, por lo que cuando se vuelve a encontrar en la misma entidad y campo,
se transforma igual. Lo mismo pasa con el apellido Smith
.
Reutilizar por etiqueta o en la misma entidad y campos
Las coincidencias en campos etiquetados con la misma etiqueta se transformarán igual. Si no comparten etiqueta, aún pueden coincidir por combinación de entidad y campo (como en el caso anterior) y entonces el resultado también será idéntico.
Si hay coincidencias en otras entidades o columnas sin la misma etiqueta, serán ignoradas.
Datos Reales
Entidad: Clientes
id | Nombre persona/nombre |
---|---|
1 | Randal |
2 | Alma |
Entidad: Empleados
id | Empleado persona/nombre |
---|---|
1 | Randal |
2 | Ronnie |
Datos Anonimizados
Entidad: Clientes
id | Nombre persona/nombre |
---|---|
1 | Mark |
2 | Katherine |
Entidad: Empleados
id | Empleado persona/nombre |
---|---|
1 | Mark |
2 | Jeremy |
En este caso, Randal
se transforma en Mark
en ambas tablas porque, aunque las
apariciones ocurren en distinta entidad y campo, comparten la misma etiqueta "persona/nombre".
Reutilizar en todos los campos
Los valores ya almacenados en el diccionario serán reutilizados sin importar la entidad, campo o etiqueta donde se hayan encontrado.
Datos Reales
Entidad: Clientes
id | Nombre | Apellido |
---|---|---|
1 | Susan | Heaney |
2 | Bertha | Susan |
3 | Susan | Keeling |
Entidad: Empleados
id | Nombre_empleador | Apellido_empleador |
---|---|---|
1 | Janet | Rogahn |
2 | Marianne | McGlynn |
3 | Susan | Bauch |
Datos Anonimizados
Entidad: Clientes
id | Nombre | Apellido |
---|---|---|
1 | Percy | Rodriguez |
2 | Jesse | Percy |
3 | Percy | Leffler |
Entidad: Empleados
id | Nombre_empleador | Apellido_empleador |
---|---|---|
1 | Whitney | Kautzer |
2 | Garry | Dare |
3 | Percy | Mills |
Aunque no comparten entidad, campo ni etiqueta, todas las apariciones de Susan
se convertirán en Percy
, sin importar dónde se encuentren en la fuente de datos.
Guardar nuevas transformaciones en el diccionario
Si esta opción está activada, las transformaciones se almacenarán y podrán usarse en los próximos jobs.
Si esta opción no está activa, las transformaciones realizadas durante el job se eliminarán, por lo que solo tendrán efecto durante la ejecución actual.
Sobrescribir el diccionario actual
Si esta opción está activa, el diccionario del proyecto actual se vaciará antes de ejecutar la regla, por lo que no se reutilizarán valores almacenados previamente.
Gigantics no almacena ningún dato fuente en su base de datos. Usamos una función criptográfica para crear un hash de las entradas. Por lo tanto, es imposible revertir el proceso para obtener los datos originales.