Preguntas Frecuentes (FAQ)
Esta FAQ cubre preguntas y respuestas comunes sobre el uso de Gigantics para análisis de riesgos de bases de datos, identificación de PII, anonimización de datos y generación de datos sintéticos.
Preguntas Generales
¿Qué es Gigantics?
Gigantics es una herramienta integral de análisis de riesgos de bases de datos que te ayuda a identificar elementos de Información de Identificación Personal (PII) en tus bases de datos. Te permite analizar esquemas de bases de datos, generar informes de seguridad, gestionar conjuntos de datos y desplegar bases de datos en múltiples entornos de forma segura. Con etiquetado impulsado por IA, Gigantics te ayuda a enmascarar datos sensibles y generar datos sintéticos para fines de prueba.
¿Cuáles son las principales capacidades de Gigantics?
Gigantics ofrece varias capacidades clave:
- ✅ Analiza el esquema de tu base de datos y compáralo con versiones anteriores
- ✅ Identifica elementos PII y verifica el riesgo de cada campo
- ✅ Genera informes de seguridad sobre el estado actual de tus bases de datos
- ✅ Gestiona, comparte y descarga tus conjuntos de datos
- ✅ Volca tus conjuntos de datos en otras bases de datos
- ✅ Despliega bases de datos en múltiples entornos de forma simple, efectiva y segura
¿Qué sistemas de bases de datos soporta Gigantics?
Basado en la documentación y análisis del código fuente, Gigantics soporta múltiples sistemas de bases de datos incluyendo:
- Oracle
- DB2 (incluyendo DB2i y DB2z)
- MySQL
- PostgreSQL
- SQL Server (MSSQL)
- MongoDB
- SQLite
- Archivos CSV
¿Gigantics proporciona control de acceso basado en roles?
Sí, Gigantics incluye un sistema de roles y permisos que se adapta a la estructura organizacional de cualquier empresa. Esto te permite controlar quién tiene acceso a qué proyectos y datos dentro de tu organización.
¿Qué es una Organización en Gigantics?
Una Organización es tu propio espacio en Gigantics que contiene Proyectos. Cada usuario tiene su propia organización, y estos proyectos pueden ser compartidos con otros usuarios a través de las funciones de configuración de proyectos. Los usuarios también pueden crear organizaciones adicionales que pueden contener uno o más proyectos.
¿Qué es un Proyecto en Gigantics?
Un Proyecto es el espacio de trabajo del usuario en Gigantics. Desde aquí, los usuarios pueden crear modelos, trabajar en bases de datos e invitar a usuarios de su organización a unirse al proyecto.
¿Qué es un Modelo en Gigantics?
Un Modelo en Gigantics es una representación del esquema de tu base de datos y las reglas de procesamiento de datos. Te permite definir cómo los datos deberían ser transformados, anonimizados o sintetizados al crear conjuntos de datos.
¿Cómo identifica Gigantics elementos PII?
Gigantics utiliza un proceso de descubrimiento impulsado por IA para identificar automáticamente elementos PII en tus bases de datos. La función de descubrimiento analiza nombres de campos, patrones de datos y otras características para asignar etiquetas a los campos, ayudando así en la identificación de datos sensibles que necesitan protección.
¿Puedo personalizar las etiquetas utilizadas para la identificación PII?
Sí, Gigantics te permite crear etiquetas personalizadas para tus necesidades específicas de identificación de datos. Esto es útil cuando las etiquetas predeterminadas no cubren todos tus tipos de datos sensibles o cuando tienes requisitos comerciales específicos.
¿Cuál es la diferencia entre anonimizar y sintetizar datos?
Anonimizar reemplaza los valores originales con uno anonimizados para proteger datos sensibles mientras mantiene la misma estructura del conjunto de datos. Sintetizar genera nuevos registros de datos sintéticos basados en tu conjunto de datos existente o utilizando funciones personalizadas, potencialmente creando conjuntos de datos más grandes para prueba.
¿Cómo analizo el esquema de mi base de datos con Gigantics?
Gigantics proporciona herramientas de análisis de esquema que te permiten examinar la estructura de tu base de datos. Puedes comparar tu esquema actual con versiones anteriores para entender cambios y riesgos potenciales.
¿Cómo genero informes de seguridad con Gigantics?
Gigantics puede generar informes de seguridad completos sobre el estado actual de tus bases de datos. Estos informes proporcionan información sobre riesgos de datos, resultados de identificación PII y la postura general de seguridad de la base de datos.
¿Qué son los Conjuntos de Datos en Gigantics?
Los Conjuntos de Datos son generados cuando ejecutas una regla. Pueden ser subconjuntos (utilizando operaciones como límite o incluir/excluir) o conjuntos de datos completos. Los conjuntos de datos pueden ser descargados en formatos JSON o CSV o cargados en destinos (sinks).
¿Cómo comparto Conjuntos de Datos con otros?
El botón Compartir te permite crear URLs públicas para compartir tus conjuntos de datos. Puedes crear un endpoint de API al que otros pueden acceder, con formatos personalizables (JSON ZIP, CSV ZIP, SQL).
¿Qué son los Destinos (Sinks) en Gigantics?
Los Destinos son conexiones de salida para datos. Deben ser añadidos a tu modelo y deben coincidir con el tipo de driver de tu base de datos fuente. Los destinos te permiten cargar conjuntos de datos en bases de datos objetivo.
¿Qué son las Pipelines en Gigantics?
Las Pipelines en Gigantics son plantillas o planos que te permiten ejecutar trabajos periódicamente o utilizando enlaces públicos. Soportan varios tipos de trabajo incluyendo escaneo, descubrimiento, creación de conjuntos de datos, carga de conjuntos de datos y operaciones de bombeo de datos.
¿Cómo programo la ejecución automática de Pipelines?
Puedes configurar las pipelines para ejecutarse automáticamente cada cierto tiempo determinado por ti. Alternativamente, puedes configurarlas para ejecución manual usando el botón "Ejecutar" o llamando una URL.
¿Cómo ejecuto Gigantics como un daemon?
Puedes ejecutar Gigantics como un daemon en el sistema añadiendo el parámetro -d al iniciar el servidor. Por ejemplo: ./gig start -d
¿Cómo especifico un archivo de configuración al iniciar Gigantics?
Puedes inicializar tu instancia de Gigantics usando un entorno diferente utilizando el parámetro -c para especificar el archivo de configuración a usar. Por ejemplo: ./gig start -c ruta/al/json
¿Cuáles son los requisitos del sistema para ejecutar Gigantics?
Gigantics puede ser instalado en sistemas Linux y Windows. Requiere una base de datos MongoDB (v4.0 o superior) instalada en un servidor. Se recomienda un servidor con 8GB de RAM. Si ejecutas Gigantics y MongoDB en el mismo servidor, se recomiendan 16GB de RAM.
¿Cómo instalo Gigantics en Linux/Mac?
Para la instalación en Linux/Mac, descarga el archivo gigantics-linux.tar.gz de la web y descomprímelo. Desde la terminal, ejecuta ./gig start.
¿Cómo instalo Gigantics en Windows?
Para instalar Gigantics en Windows, descarga el archivo de Windows y descomprímelo. Abre la consola (cmd.exe) y ejecuta el archivo gig.exe. Para iniciar el servidor, ejecuta gig.exe start con los parámetros apropiados.
¿Cuáles son los pasos básicos para configurar Gigantics después de la instalación?
Después de la instalación, ve a localhost:5000 para comenzar la configuración del servidor:
- Configura tus parámetros del servidor (host, puerto, URL base)
- Configura la conexión a MongoDB
- Configura los parámetros del servidor de correo para notificaciones
¿Cómo configuro la conexión MongoDB para Gigantics?
Durante la configuración, necesitarás configurar la ubicación de tu servidor Mongo y las credenciales de acceso. Asegúrate de introducir los datos correctamente antes de guardar la conexión, y utiliza el botón "Test" para verificar que la conexión funciona correctamente.
¿Puede Gigantics funcionar con MongoDB instalado en una instancia diferente?
Sí, Gigantics puede funcionar con MongoDB instalado en una instancia diferente. Puedes configurar los parámetros de la base de datos para apuntar a un servidor MongoDB remoto.
¿Cuáles son las configuraciones de directorio recomendadas?
Puedes cambiar las rutas donde se almacenan logs, copias de seguridad o archivos temporales en la sección de configuración de directorios. Esto te permite personalizar las ubicaciones de almacenamiento basadas en tus requisitos del sistema.
¿Qué configuraciones de driver son necesarias?
Para algunas bases de datos soportadas como Oracle, es necesario instalar drivers manualmente. Para Oracle, necesitas tener el paquete Oracle instantclient instalado en la ruta /opt/instantclient_19_8/ o configurar la ruta del cliente instantáneo al iniciar la instancia de Gig.
Configuración y Configuración
¿Cuál es la URL predeterminada para acceder a Gigantics?
Después de iniciar Gigantics, puedes acceder a la interfaz web en localhost:5000.
¿Qué parámetros puedo configurar durante la configuración del servidor?
Durante la configuración del servidor, puedes configurar:
- Nombre del host o dirección IP
- Número de puerto
- URL base
- Configuraciones de redirección HTTP a HTTPS (al usar Nginx)
- Rutas de certificados (al usar Nginx)
- Configuraciones del servidor de correo para notificaciones
¿Cómo habilito Nginx en la configuración de Gigantics?
En la configuración avanzada, puedes habilitar Nginx añadiendo especificaciones como redirección HTTP a HTTPS o rutas de certificados durante el paso de configuración del servidor.
¿Qué parámetros de configuración del servidor de correo están disponibles?
Puedes configurar parámetros del servidor de correo incluyendo:
- Dirección del servidor SMTP
- Puerto SMTP
- Dirección de correo del administrador para notificaciones
- Configuraciones de autenticación SMTP
¿Cómo creo diferentes entornos con archivos de configuración?
Una vez completada la configuración, se genera un archivo en la carpeta config/ donde puedes hacer cambios. También puedes generar nuevos archivos de configuración para crear diferentes entornos.
¿Cuáles son las opciones de configuración avanzada de bases de datos?
Las opciones avanzadas de configuración de MongoDB incluyen:
- Parámetros de autenticación
- Configuraciones de certificación SSL
- Configuraciones de agrupamiento de conexiones
- Parámetros de ajuste de rendimiento
¿Cómo configuro drivers de Oracle para Gigantics?
Para configurar drivers de Oracle:
- Instala el paquete Oracle
instantclient - Colócalo en la ruta
/opt/instantclient_19_8/ - Alternativamente, configura la ruta del cliente instantáneo al iniciar Gigantics usando la variable de entorno LD_LIBRARY_PATH
¿Cómo controlo el bifurcado de procesos en Gigantics?
Puedes controlar el bifurcado de procesos worker usando el parámetro -w:
-w -1= ejecutar todo en el proceso principal (sin bifurcado)-w 0= bifurcar a todos los CPUs disponibles-w N(donde N > 0) = bifurcar exactamente a N procesos worker
Este parámetro controla si Gigantics utiliza procesos worker de Node.js para mejor utilización de CPU, no clustering de base de datos.
¿Cómo verifico la versión instalada de Gigantics?
Ejecuta el comando ./gig --version o gig.exe --version en Windows para verificar la versión instalada actualmente.
¿Cómo obtengo más información sobre las opciones de línea de comandos?
Ejecuta ./gig -h o gig.exe -h en Windows para ver todas las opciones y parámetros de línea de comandos disponibles.
Funciones de Anonimización
¿Qué métodos de anonimización están disponibles en Gigantics?
Gigantics ofrece varios métodos de anonimización:
- Datos falsos: Reemplazar valores con datos falsos realistas basados en etiquetas de campos
- Enmascaramiento: Reemplazar partes de valores con caracteres de máscara mientras se preserva el formato
- Mezcla: Reordenar aleatoriamente los valores dentro del conjunto de datos mientras se mantiene la distribución
- Lista: Reemplazar valores seleccionando aleatoriamente de una lista predefinida
- Función personalizada: Escribir tu propia función de anonimización usando código JavaScript
- Función guardada: Usar una función personalizada creada y guardada previamente
- Eliminar campo: Eliminar completamente el campo del conjunto de datos de salida
- Campo en blanco: Reemplazar todos los valores con valores nulos/vacíos
¿Cómo funciona la anonimización de datos falsos?
La anonimización de datos falsos reemplaza tus datos originales con datos falsos realistas basados en las etiquetas de los campos. Por ejemplo, un campo etiquetado como "name" sería reemplazado con nombres falsos, mientras que un campo etiquetado como "email" sería reemplazado con direcciones de correo falsas.
¿Cómo funciona el enmascaramiento de datos en Gigantics?
El enmascaramiento de datos reemplaza partes de valores con caracteres de máscara mientras preserva el formato de los datos originales. Por ejemplo, un número de tarjeta de crédito "1234-5678-9012-3456" podría convertirse en "--****-3456".
¿Cómo funciona el método de anonimización por mezcla?
La mezcla reordena aleatoriamente los valores dentro del conjunto de datos mientras mantiene la misma distribución de valores. Esto es útil para preservar propiedades estadísticas mientras se eliminan asociaciones directas.
¿Qué es el modo diccionario en la anonimización?
El modo diccionario controla cómo se mapean los valores de reemplazo durante la anonimización. Puedes mantener mapeos consistentes entre valores originales y de reemplazo en diferentes ejecuciones.
¿Qué opciones de alcance de diccionario están disponibles?
Varias opciones de alcance de diccionario están disponibles:
- Heredar de la regla: Usar el comportamiento predeterminado del diccionario definido a nivel de regla
- Saltar diccionario: No mantener mapeo consistente entre valores originales y de reemplazo
- Alcance de etiqueta: Mantener mapeo consistente dentro de campos que tienen la misma etiqueta
- Alcance de nombre de campo: Mantener mapeo consistente dentro de campos que tienen el mismo nombre
- Alcance Entidad/Campo: Mantener mapeo consistente dentro de la misma combinación de entidad y campo
- Alcance global: Mantener mapeo consistente a través de todas las entidades y campos
- Alcance definido por el usuario: Definir tu propio alcance para mapeo consistente usando una cadena de alcance personalizada
¿Cómo aseguro que el mismo valor siempre sea reemplazado con el mismo valor anonimizado?
Usa modos de diccionario como "Alcance de etiqueta" o "Alcance de nombre de campo" para mantener mapeos consistentes. Por ejemplo, si quieres que "John Smith" siempre sea reemplazado con el mismo nombre falso como "Jane Doe", selecciona el modo de diccionario "Alcance de etiqueta" para campos de nombre.
¿Puedo escribir funciones JavaScript personalizadas para anonimización?
Sí, puedes seleccionar un campo y elegir "Función personalizada" para escribir código JavaScript que tome el valor original y devuelva una versión anonimizada.
¿Cómo uso listas predefinidas para anonimización?
Puedes usar el método de anonimización "Lista" para seleccionar valores aleatorios de una lista predefinida. Las listas se crean desde el área de elementos de configuración del proyecto.
¿Cómo elimino un campo completamente de mi conjunto de datos?
Selecciona el método de anonimización "Eliminar campo" para eliminar completamente un campo del conjunto de datos de salida.
¿Cómo reemplazo todos los valores con valores nulos/vacíos?
Selecciona el método de anonimización "Campo en blanco" para reemplazar todos los valores con valores nulos/vacíos en un campo.
¿Cómo aplico anonimización solo a campos específicos?
Gigantics te permite configurar anonimización a nivel de campo, permitiéndote especificar diferentes métodos de anonimización para cada campo sensible mientras dejas los demás sin cambios.
¿Puedo mantener la utilidad de los datos mientras aseguro el cumplimiento de privacidad?
Sí, Gigantics está diseñado para mantener la utilidad de los datos mientras asegura el cumplimiento de privacidad. Diferentes técnicas de anonimización ayudan a preservar características importantes de datos mientras protegen información sensible.
Funciones de Síntesis
¿Cuál es el propósito de la operación Synthesize?
La operación Synthesize genera nuevos registros de datos sintéticos a partir de tu conjunto de datos existente o mediante funciones personalizadas. Resulta especialmente útil para crear conjuntos de datos más grandes para pruebas mientras conservas características realistas en la información.
¿Qué métodos de síntesis están disponibles en Gigantics?
Gigantics ofrece varios métodos de síntesis:
- Datos falsos + etiqueta: Genera datos falsos realistas basados en la etiqueta asignada al campo.
- Funciones: Utiliza funciones de transformación incluidas en la plataforma.
- Funciones guardadas: Aplica una función creada previamente en la sección de elementos de configuración.
- Función personalizada: Escribe tu propia función en JavaScript para generar valores.
- Lista: Selecciona valores aleatorios de una lista predefinida.
- Números secuenciales: Genera valores numéricos secuenciales.
- Números aleatorios: Genera valores numéricos aleatorios dentro de rangos especificados.
- Sin acción: Deja los valores originales sin cambios (opción predeterminada para campos recién agregados).
¿Cómo controlo el tamaño de los conjuntos de datos sintetizados?
Puedes controlar el tamaño de salida de los conjuntos de datos sintetizados de dos maneras:
- Mismo tamaño que la entidad de origen: Genera exactamente la misma cantidad de filas que existen en los datos de origen.
- Proporcional: Genera un tamaño diferente usando un multiplicador porcentual con límites opcionales de filas mínimas y máximas.
¿Qué opciones de comportamiento hay disponibles al sintetizar datos?
Hay dos opciones de comportamiento:
- Append to source data: Mantiene las filas existentes y agrega las filas sintetizadas al final.
- Replace source data: Elimina las filas existentes por completo e inserta solo las filas sintetizadas.
¿Cómo genero números secuenciales en datos sintetizados?
Usa el método de síntesis "Números secuenciales" para generar valores numéricos consecutivos en los campos. Es útil para crear identificadores únicos o secuencias ordenadas.
¿Cómo genero números aleatorios dentro de rangos específicos?
Usa el método de síntesis "Números aleatorios" y especifica los valores mínimo y máximo del rango. Así podrás generar valores numéricos aleatorios dentro de las restricciones que necesites.
¿Puedo mantener características realistas de los datos al sintetizar?
Sí, Gigantics está diseñado para ayudarte a crear conjuntos de datos de prueba realistas mientras cumples con los requisitos de privacidad. Utilizar generación de datos falsos basada en etiquetas de campos ayuda a mantener patrones de datos verosímiles.
¿Cómo personalizo la síntesis para campos específicos?
Puedes personalizar la síntesis a nivel de campo:
- Selecciona la entidad en la configuración de síntesis.
- Elige métodos de síntesis específicos para cada campo.
- Configura parámetros como rangos, listas o preferencias de idioma/región.
¿Cómo uso funciones personalizadas de JavaScript para la síntesis de datos?
Selecciona un campo y elige "Función personalizada" para escribir código JavaScript que genere valores sintéticos apropiados. Puedes usar auxiliares incorporados como chance(), faker o genLike() para producir datos realistas.
¿Cómo creo códigos postales sintéticos que mantengan la consistencia de formato?
Puedes usar una función personalizada con el auxiliar genLike(). Por ejemplo:
¿Qué auxiliares incorporados están disponibles para funciones de síntesis personalizadas?
Los auxiliares incorporados disponibles para funciones de síntesis personalizadas incluyen:
chance(): Genera valores aleatorios con chance.js.faker: Genera datos falsos realistas con faker.js.genLike(): Genera datos que siguen un patrón específico.
¿Cómo uso preferencias de idioma o región para la generación de datos falsos?
Puedes especificar preferencias de idioma/región al generar datos falsos para asegurar que los valores resultantes coincidan con tus requisitos locales (por ejemplo, nombres en español o direcciones mexicanas).
¿Cómo preservo relaciones entre campos sintetizados?
Usa enfoques de síntesis sincronizada o funciones personalizadas que generen valores relacionados de manera conjunta para mantener las relaciones entre campos mientras creas conjuntos de datos sintéticos.
Operaciones
¿Para qué se usa la operación Include/Exclude?
La operación Include/Exclude te permite seleccionar qué entidades incluir o excluir en tu nuevo conjunto de datos. Se aplica al inicio de la canalización para determinar el conjunto inicial de entidades a procesar.
¿Cómo funcionan los modos Include y Exclude?
En Include mode solo se procesan las entidades seleccionadas. En Exclude mode se procesan todas las entidades excepto las seleccionadas. Include mode es útil cuando solo necesitas algunas entidades específicas, mientras que Exclude mode sirve para omitir unas pocas entidades puntuales.
¿Qué es la operación Where?
La operación Where te permite filtrar tu conjunto de datos creando consultas que incluyan únicamente los registros que cumplan condiciones específicas. Se aplica antes de cualquier operación de transformación en la canalización.
¿Cómo configuro reglas de filtrado complejas con la operación Where?
Puedes organizar las reglas de Where en grupos con lógica AND/OR y anidar grupos para crear condiciones de filtrado complejas. Por ejemplo, podrías tener un grupo OR que contenga dos grupos AND distintos para filtrar registros que cumplan cualquiera de dos conjuntos de condiciones.
¿Para qué sirve la operación Limit?
La operación Limit te permite restringir la cantidad de registros en la salida de tu conjunto de datos. Puedes limitar por número absoluto de filas o por porcentaje, y aplicar el límite a todas las entidades en conjunto o a cada entidad por separado.
¿Cómo limito por número absoluto de filas?
Establece el tipo de límite en "By number of rows" e ingresa la cantidad exacta de registros que quieres incluir en la salida. Por ejemplo, ingresar "1000" limitará el conjunto de datos a exactamente 1000 registros.
¿Cómo limito por porcentaje de registros?
Establece el tipo de límite en "By percentage" e ingresa el valor porcentual. Por ejemplo, ingresar "20" limitará tu conjunto de datos al 20 % de todos los registros disponibles.
¿Qué opciones de posición de filas están disponibles en la operación Limit?
Las opciones de posición de filas incluyen:
- First records: Selecciona registros desde el inicio del conjunto de datos.
- Last records: Selecciona registros desde el final del conjunto de datos.
- Random records: Selecciona registros aleatorios dentro del conjunto de datos.
¿Cómo establezco límites mínimo y máximo de filas al usar porcentajes?
Cuando uses límites basados en porcentaje puedes añadir restricciones adicionales para asegurar tamaños razonables:
- Min rows: Garantiza que obtendrás al menos esta cantidad de filas incluso si el porcentaje sobre un conjunto pequeño devolvería muy pocas.
- Max rows: Garantiza que no obtendrás más de esta cantidad de filas incluso si el porcentaje sobre un conjunto grande devolvería demasiadas.
¿Qué es el alcance "All entities" en la operación Limit?
El alcance "All entities" aplica el límite a todo el conjunto de datos sin importar el tipo de entidad. Por ejemplo, si tienes 1000 registros de clientes y 1000 de pedidos (2000 en total), un límite de 500 devolverá 500 registros totales de cualquier combinación de entidades.
¿Qué es el alcance "By entity" en la operación Limit?
El alcance "By entity" aplica el límite por separado a cada tipo de entidad. Por ejemplo, si tienes entidades de clientes y pedidos, un límite de 500 devolverá hasta 500 registros de clientes Y hasta 500 registros de pedidos (máximo 1000 registros en total).
Gestión de Datos
¿Cómo descargo conjuntos de datos desde Gigantics?
Los conjuntos de datos pueden descargarse en formato JSON o CSV. En la página Datasets tienes opciones para descargar, actualizar, compartir o borrar conjuntos de datos.
¿Qué formatos están disponibles para la descarga de conjuntos de datos?
Los conjuntos de datos pueden descargarse en los siguientes formatos:
- JSON
- CSV
- SQL (al usar URL compartidas con parámetros de formato)
¿Cómo accedo a conjuntos de datos compartidos?
Los conjuntos de datos compartidos están disponibles mediante URLs con la siguiente estructura:
¿Puedo personalizar el formato de los conjuntos de datos compartidos?
Sí, puedes personalizar la URL compartida con parámetros adicionales para definir el formato de descarga:
format=json-zip: Descarga como JSON comprimido (ZIP).format=csv-zip: Descarga como CSV comprimido (ZIP).format=sql: Descarga como instrucciones SQL.
¿Cómo cargo conjuntos de datos en sinks?
Para cargar un conjunto de datos en un sink:
- Agrega el sink al modelo.
- Usa la función Load para volcar los datos en el sink.
- Puedes seleccionar un dataset existente o cargar datos directamente desde el tap aplicando una regla.
¿Cuál es la diferencia entre volcar (dumping) y bombear (pumping) datos?
- Dumping: Crea un dataset y luego lo carga en un sink.
- Pumping: Carga directamente el tap en el sink sin crear datasets.
¿Cómo uso un tap como destino de pump?
Gigantics permite usar la base de datos tap como destino de pump, lo que te permite procesar datos directamente desde el origen hacia el destino sin almacenamiento intermedio.
¿Cómo gestiono el tamaño y el almacenamiento de los conjuntos de datos?
Puedes controlar el tamaño de los datasets con la operación Limit y gestionar el almacenamiento limpiando periódicamente conjuntos de datos antiguos o innecesarios.
Funciones de Pipeline
¿Qué tipos de trabajos admite una Pipeline?
Las pipelines admiten varios tipos de trabajos:
- Scan: Escanea la fuente de datos en busca de cambios.
- Discover: Crea un nuevo descubrimiento.
- Create a dataset using rule: Crea un dataset usando una regla existente.
- Load using rule: Carga el tap en un sink mediante una regla (no crea datasets).
- Dump dataset: Carga un dataset en un sink.
- Pump the tap: Carga el tap directamente en el sink sin crear datasets ni aplicar reglas.
¿Cómo disparo la ejecución de una pipeline mediante API?
Puedes ejecutar pipelines usando una URL con el siguiente formato:
¿Qué permisos se requieren para ejecutar reglas desde una pipeline?
La persona que ejecuta la regla debe tener permisos para editar modelos dentro del proyecto.
¿Cómo creo ejecuciones periódicas de una pipeline?
Al crear la pipeline selecciona un intervalo de tiempo (por ejemplo, cada día o cada hora). Gigantics ejecutará la pipeline automáticamente según el intervalo configurado.
¿Puedo revocar claves API para pipelines?
Sí, desde la ventana de administración de pipelines puedes crear o revocar las claves API utilizadas para ejecución remota.
Funciones
¿Qué opciones de enmascaramiento hay disponibles para datos de texto?
Las opciones de enmascaramiento de texto incluyen:
- None: Mantiene el texto sin cambios.
- Uppercase: Convierte todo a mayúsculas (por ejemplo, "foo bar" se convierte en "FOO BAR").
- Lowercase: Convierte todo a minúsculas (por ejemplo, "FOO Bar" se convierte en "foo bar").
- Title case: Capitaliza la primera letra de cada palabra (por ejemplo, "foo bar" se convierte en "Foo Bar").
- Snake case: Reemplaza los espacios por guiones bajos (por ejemplo, "foo bar" se convierte en "foo_bar").
- Kebab case: Reemplaza los espacios por guiones medios (por ejemplo, "foo bar" se convierte en "foo-bar").
¿Cómo funciona la función de reemplazo de caracteres?
El reemplazo de caracteres te permite sustituir tipos específicos de caracteres:
- Alphabetical chars: Reemplaza cada letra por un carácter diferente.
- Digits: Reemplaza cada número por un dígito distinto.
- Symbols: Reemplaza cada símbolo por otro símbolo.
Por ejemplo, reemplazar "test@email.com" con la letra 'x' produciría "xxxx@xxxxx.xxx".
¿Cómo reemplazo palabras completas por otros valores?
Usa la función de reemplazo "Word" para sustituir palabras completas por nuevos valores. Por ejemplo, reemplazar "John" por "Test" dará como resultado "Test".
¿Cómo uso patrones regex para el reemplazo de datos?
Utiliza la función de reemplazo "Regex" para sustituir datos mediante expresiones regulares. Por ejemplo:
- Patrón:
.+?(?=@)(coincide con todo lo que está antes de @ en un correo electrónico). - Reemplazo:
xxxx - Resultado:
test@email.comse convierte enxxxx@email.com.
¿Cómo funciona la función de reemplazo Field?
La función "Field" reemplaza todos los datos de un campo por un nuevo valor. Por ejemplo, sustituir todo el contenido de un campo de dirección por "Unnamed Road" hará que todas las direcciones adopten ese valor.
¿Cómo funciona la mezcla de datos?
La función "Shuffle" recopila los valores de la columna y los mezcla aleatoriamente. Por ejemplo, con tres ciudades (Orchard Park, Forney, Redondo Beach), la mezcla podría asignar las ciudades en un orden distinto a los mismos registros.
¿Qué es la funcionalidad shuffle group?
Shuffle group es una variante en la que los campos seleccionados se agrupan para mezclarse de la misma manera en lugar de de forma independiente. Así, si mezclas ciudad y estado juntos, cada registro mantendrá pares ciudad-estado coherentes.
¿Cómo uso listas para la generación de datos?
La función "List" selecciona valores aleatorios de listas predefinidas creadas en el área de elementos de configuración del proyecto. Si tienes más registros que elementos en la lista, los valores se repetirán.
¿Cuál es el propósito de la función Delete?
La función "Delete" establece el valor del campo como NULL. No puede usarse en columnas definidas como NOT NULL en el esquema de la base de datos.
¿Para qué se usa la función Blank?
La función "Blank" elimina el valor del campo por completo, dejándolo vacío en lugar de NULL.
Funciones de Descubrimiento
¿Cómo funciona el descubrimiento de PII en Gigantics?
El descubrimiento de PII analiza tu esquema de base de datos para identificar posibles datos de identificación personal según nombres de campos, patrones de datos y otras características. El sistema asigna etiquetas a los campos para ayudarte a categorizar los tipos de datos sensibles.
¿Cómo confirmo las etiquetas descubiertas?
Después del descubrimiento puedes revisar y confirmar las etiquetas mediante el flujo de confirmación. Esto te permite validar qué campos fueron identificados correctamente como PII y cuáles requieren ajustes manuales.
¿Puedo agrupar entidades por riesgo o etiqueta en la interfaz de descubrimiento?
Sí, puedes ver las entidades agrupadas por nivel de riesgo o por tipo de etiqueta, lo que facilita comprender tu panorama de datos y priorizar los esfuerzos de protección.
¿Cómo accedo a los detalles de una etiqueta en la interfaz de descubrimiento?
Puedes pasar el cursor sobre las etiquetas en la interfaz de descubrimiento para ver información detallada acerca de lo que representa la etiqueta y por qué se asignó.
¿Qué funcionalidades existen para etiquetas personalizadas?
Puedes crear y administrar etiquetas personalizadas para requisitos específicos de identificación de datos que no estén cubiertos por el conjunto de etiquetas predeterminado.
Solución de Problemas
¿Qué debo hacer cuando veo el error "CONSTRAINT_INDEX not a valid identifier"?
Se trata de un error específico de Oracle. Asegúrate de usar la versión más reciente de Gigantics, que incluye correcciones para problemas de identificadores en Oracle.
¿Cómo manejo errores de carga de Oracle SQLLDR?
Verifica la configuración de tu controlador de Oracle y asegúrate de que el instantclient esté instalado correctamente. Los errores de SQLLDR suelen estar relacionados con la configuración del entorno y no con el procesamiento de datos.
¿Qué puedo hacer con los problemas de visualización de caracteres UTF-8 en el visor de datasets?
Este problema se ha resuelto en versiones recientes de Gigantics. Asegúrate de ejecutar la última versión para obtener compatibilidad total con caracteres UTF-8.
¿Cómo resuelvo los errores "duplicate values for the index key"?
Generalmente ocurren cuando los datos sintetizados o anonimizados generan valores duplicados en campos únicos. Utiliza métodos de síntesis adecuados o añade restricciones para garantizar la generación de valores únicos.
¿Qué debo hacer si la conexión DB2 se agota (timeout)?
Revisa la configuración del tiempo de espera de tus conexiones DB2. En versiones recientes, el límite de tiempo de conexión de DB2i dejó de ser rígido y ahora se puede configurar.
¿Cómo soluciono problemas con campos más largos que el tamaño original?
Cuando uses modos de diccionario, asegúrate de que los valores generados no excedan las restricciones de longitud de los campos originales utilizando enmascaramiento apropiado o funciones de truncado.
¿Qué puede causar el error "error closing SessionPool connection" en Oracle?
Normalmente es un problema del controlador de Oracle. Verifica que estés usando bibliotecas de cliente compatibles y revisa la configuración de tu pool de conexiones.
¿Cómo resuelvo el error "Cannot write dataset into SQL Server sink"?
Valida los parámetros de conexión a SQL Server y asegúrate de contar con la autenticación adecuada. Verifica que el tipo de controlador del sink coincida con el de la base de datos de origen.
¿Qué debo hacer con los errores de inserción en columnas virtuales?
Gigantics debería ignorar automáticamente las columnas virtuales para evitar errores de inserción. Si el problema persiste, asegúrate de usar una versión reciente que maneje correctamente las columnas virtuales.
¿Cómo abordo los errores "SHARING CREATE TABLE" al volcar datos de Oracle?
Es un error conocido en Oracle que ha sido resuelto en versiones recientes. Asegúrate de usar la última versión de Gigantics para obtener soporte completo de Oracle.
¿Por qué mi dataset puede contener datos sensibles después de anexar datos sintetizados?
Cuando usas el modo "Append to source data", recuerda que las filas anexadas no se anonimizan, por lo que el dataset puede seguir incluyendo información sensible del origen.
¿Cómo manejo los errores "Invalid scale value" en DB2?
Revisa las definiciones de tipo de tus campos en DB2, especialmente los numéricos con precisión decimal. Las versiones recientes de Gigantics mejoran la detección de tipos en DB2.
¿Qué causa los errores "Invalid BSON type" con MongoDB?
Por lo general se relacionan con discrepancias de tipos de datos durante el descubrimiento o procesamiento. Asegúrate de que tu controlador de MongoDB esté configurado correctamente para la versión específica que usas.
¿Cómo soluciono problemas con nombres de entidad que incluyen puntos?
Las versiones recientes de Gigantics abordaron problemas de procesamiento con nombres de entidad que incluyen caracteres especiales como puntos. Asegúrate de usar una versión actualizada.
¿Qué hacer si veo el error "Error reading 'Interval day to second' type" en Oracle?
Es un problema conocido de manejo de tipos en Oracle que se ha resuelto en versiones recientes. Usa la última versión de Gigantics para obtener soporte completo de tipos Oracle.
Rendimiento y Optimización
¿Cómo puedo mejorar el rendimiento de la comparación de esquemas con muchas tablas?
Las versiones recientes optimizaron la comparación de esquemas para evitar que la interfaz se vuelva lenta cuando hay muchas tablas.
¿Qué puedo hacer para mejorar el rendimiento del diccionario?
Las operaciones de limpieza de diccionarios se optimizaron en versiones recientes. Para mayor rendimiento, considera usar alcances de diccionario más pequeños o limpiar periódicamente las entradas sin uso.
¿Cómo optimizo el rendimiento de las páginas de datasets?
Se implementaron nuevos sistemas de paginación en las páginas de datasets para mejorar los tiempos de carga y la capacidad de respuesta de la interfaz al trabajar con conjuntos de datos grandes.
¿Qué puedo hacer para mejorar el rendimiento de carga de datos?
Se añadieron varias mejoras al rendimiento de carga de debaser. Considera usar tamaños de buffer apropiados y procesamiento por lotes para operaciones con grandes volúmenes de datos.
¿Cómo optimizo el rendimiento de las listas del diccionario?
El rendimiento de las listas de diccionario mejoró gracias a caché y mejoras de paginación. Para diccionarios muy grandes, considera filtrar o limpiar entradas que no se utilicen.
¿Cuáles son las mejores prácticas para trabajar con conjuntos de datos grandes?
Al trabajar con conjuntos de datos grandes:
- Usa operaciones Limit para reducir el tamaño del dataset.
- Aplica filtrados apropiados con operaciones Where.
- Considera ejecutar procesos de manera periódica en lugar de manualmente.
- Monitorea el uso de recursos y ajusta la configuración según sea necesario.
Tipos y Formatos de Datos
¿Cómo maneja Gigantics los campos de fecha?
Gigantics gestiona correctamente los campos de fecha en diferentes sistemas de bases de datos, permitiendo filtrado, anonimización y síntesis sobre datos de fecha.
¿Qué operaciones están disponibles para campos de texto?
Los campos de texto admiten operaciones como enmascaramiento, transformaciones, reemplazos y generación de datos sintéticos basados en etiquetas.
¿Cómo se manejan los campos numéricos durante la anonimización?
Los campos numéricos pueden enmascararse, reemplazarse por números aleatorios o secuenciales, mezclarse o transformarse con funciones personalizadas, manteniendo el formato.
¿Cómo gestiona Gigantics los tipos de datos buffer?
La detección de tipos buffer se mejoró en versiones recientes, especialmente para sistemas DB2z, donde los buffers se normalizan correctamente sin requerir especificaciones de tipo de registro.
Interfaz de Usuario
¿Cómo navego hacia las URLs de descarga de datasets?
Las versiones recientes mejoraron la navegación desde los jobs hacia los datasets y desde los datasets hacia las URLs de descarga con enlaces directos e indicadores más claros en la interfaz.
¿Qué mejoras de UI ayudan con la gestión de entidades?
Las entidades pueden agruparse por nivel de riesgo o por etiqueta, y al pasar el cursor sobre las etiquetas verás información detallada. Además, hay botones de "move labelled to top" para organizar las entidades según su estado de etiquetado.
¿Cómo ha mejorado el editor de funciones personalizadas?
El editor de funciones personalizadas ahora es más amplio, lo que mejora la lectura y edición del código al crear funciones de anonimización o síntesis.
¿Qué mejoras de UI se realizaron para la gestión de datasets?
La UI de gestión de datasets se renovó con:
- Capacidades de ordenamiento mejoradas.
- Enlaces directos a los endpoints de API.
- Mejor visibilidad del contador de llamadas.
- Opciones de selección de formato mejoradas.
¿Cómo accedo a las variables de proyecto en los componentes de la UI?
Las variables de proyecto pueden utilizarse en varios componentes y funciones personalizadas. Las versiones recientes corrigieron problemas de accesibilidad para que puedan usarse en cualquier parte de la aplicación según lo previsto.
¿Cómo ha mejorado el visor de datasets?
El visor de datasets ahora muestra correctamente caracteres UTF-8 y mejoró los tooltips de columna para mostrar valores precisos en lugar de información incorrecta.
¿Qué mejoras se realizaron en la UI de gestión de jobs?
La UI de gestión de jobs incluye:
- Indicadores del resultado del último job.
- Cálculos de tasas de jobs más precisos en los tableros del proyecto.
- Enlaces mejorados desde los indicadores de color de datasets en el tablero del proyecto.
- Mejor navegación desde jobs fallidos hacia los detalles del error.
¿Cómo se mejoró la visualización del progreso de entidades?
El progreso de las entidades ahora se muestra con elementos mejorados, incluidos barras de progreso e indicadores porcentuales que reflejan con precisión el estado de procesamiento.
Funciones de Conexión a Bases de Datos
¿Cómo configuro túneles SSH para conexiones a bases de datos?
Cuando te conectes a bases de datos mediante túneles SSH, asegúrate de especificar el puerto correcto. Las correcciones recientes abordan problemas en los que los puertos no se enviaban correctamente a las conexiones SSH.
¿Cómo manejo conexiones Oracle con SYSDBA?
Puedes añadir el rol SYSDBA a las conexiones Oracle configurando los parámetros apropiados dentro de la configuración de conexión.
¿Qué parámetros personalizados están disponibles para las conexiones?
El formulario de conexión incluye un campo de "Custom parameters" que te permite especificar configuraciones especiales para tus controladores de base de datos.
¿Cómo filtro tablas de Oracle por propietario?
El controlador de Oracle ahora permite filtrar por propietario, lo que te ayuda a limitar el procesamiento a propietarios específicos.
¿Cómo manejo conexiones a MongoDB Atlas?
El controlador de MongoDB se actualizó para conectarse correctamente a clústeres de MongoDB Atlas, corrigiendo problemas anteriores de conexión.
¿Cómo abordo los problemas con nombres de tablas largos en DB2?
Las versiones recientes solucionaron la gestión de nombres de tablas largos en DB2, garantizando el procesamiento correcto de tablas con nombres extendidos.
¿Cómo gestiono nombres de entidad con caracteres especiales como signos de dólar?
Los problemas de procesamiento con nombres de entidad que comienzan con signos de dólar se corrigieron en versiones recientes.
¿Cómo configuro los tiempos de espera de conexión para DB2?
El tiempo de espera de conexión para DB2i ya no es fijo y puede configurarse según tus necesidades.
Funciones de Generación de Datos
¿Cómo genero datos con locales españoles o mexicanos?
Puedes usar preferencias de idioma como 'es' o 'es_MX' para generar datos en español, incluidos nombres, direcciones y otros elementos localizados.
¿Cómo normalizo caracteres acentuados en los datos generados?
Los datos generados con caracteres acentuados se normalizan automáticamente para asegurar consistencia entre sistemas y bases de datos.
¿Cómo genero códigos postales realistas?
Usa la función genLike() con un patrón como 'A1A 1A1' para generar códigos postales realistas que sigan reglas estándar de formato.
¿Cómo genero números de seguro social?
Usa la función randomSSN() para generar números de seguro social realistas destinados a conjuntos de datos de prueba.
¿Cómo aseguro una generación de datos consistente en múltiples ejecuciones?
Utiliza los modos de diccionario para mantener el mapeo consistente entre valores originales y generados en diferentes ejecuciones de una misma regla.
¿Cómo manejo la generación de datos para columnas virtuales?
Gigantics ignora automáticamente las columnas virtuales durante la generación de datos para evitar errores de inserción.
¿Cómo genero valores de fecha con el formato correcto?
Usa la función randomDate() para generar valores de fecha realistas que mantengan el formato adecuado para tus sistemas de base de datos.
¿Cómo genero valores numéricos aleatorios dentro de rangos específicos?
Usa la función randomNumber() con parámetros mínimo y máximo para producir números aleatorios dentro de las restricciones necesarias.
Funciones de Carga de Datos
¿Cómo manejo operaciones de merge y update en Oracle?
Las versiones recientes agregaron compatibilidad con operaciones de merge y update en Oracle, lo que permite escenarios de carga de datos más complejos.
¿Cómo abordo la desactivación de restricciones en MSSQL?
Se implementaron correcciones para problemas al desactivar restricciones en bases de datos MSSQL durante las operaciones de carga.
¿Cómo manejo problemas de fechas al cargar en Oracle?
Se realizaron varias mejoras para resolver incidencias de manejo de fechas en cargas de Oracle, garantizando la preservación correcta de los valores de fecha.
¿Cómo uso las secuencias de escape de Oracle SQLLDR?
Las secuencias de escape de Oracle SQLLDR se mejoraron para manejar caracteres especiales y problemas de formato durante la carga de datos.
¿Cómo manejo advertencias de alter constraints en Oracle?
Las advertencias relacionadas con operaciones de alter constraints en Oracle fueron abordadas para mejorar la confiabilidad en la carga de datos.
¿Cómo limpio fragmentos de datasets antiguos durante las operaciones de merge de dumps?
Las operaciones de merge ahora limpian correctamente los fragmentos antiguos de datasets para evitar problemas de espacio y inconsistencias.
¿Cómo manejo problemas de espacio en archivos temporales con SQLite?
La gestión de archivos temporales de SQLite se mejoró para evitar que ocupen espacio en disco hasta que finalice el proceso de Gigantics.
¿Cómo configuro correctamente los directorios temporales de SQLite?
La configuración de SQLite ahora utiliza correctamente los directorios temporales especificados en lugar de rutas predeterminadas incorrectas.
Funciones Avanzadas
¿Cómo uso la interfaz de línea de comandos de debaser?
La CLI de debaser está integrada en el comando gig, lo que te permite ejecutar operaciones de debaser desde la línea de comandos con distintos parámetros.
¿Cómo uso el comando de generación de datos falsos?
Utiliza el comando fake con una etiqueta como parámetro para generar datos falsos de prueba. Por ejemplo: debaser fake name genera nombres falsos.
¿Cómo ejecuto código de transformación personalizado con el comando do?
El comando do ejecuta código de transformación para un conjunto de registros, permitiéndote procesar datos desde la línea de comandos, taps o datasets. Puedes proporcionar el código como parámetro para transformar tus datos.
¿Cómo descubro esquemas de bases de datos desde la línea de comandos?
Usa el comando discover para escanear e identificar elementos PII en tus esquemas directamente desde la línea de comandos.
¿Cómo tomo muestras de datos de las bases usando debaser?
El comando sample te permite extraer datos de muestra de tus bases para pruebas y análisis.
¿Cómo escaneo bases de datos en busca de cambios?
El comando scan te permite escanear tus fuentes de datos para detectar cambios en el esquema o en los datos, ayudándote a identificar cuándo se necesitan actualizaciones.
¿Cómo bombeo datos entre bases?
El comando pump te permite cargar directamente datos desde una base tap a una base sink sin crear datasets intermedios.
¿Cómo genero dumps de datasets desde la línea de comandos?
El comando dump te permite crear datasets a partir de tu base de datos y guardarlos en archivos o cargarlos en sinks.
¿Cómo me conecto a bases de datos desde la línea de comandos?
El comando connect te ayuda a establecer conexiones a tus bases para probar conectividad y acceso.
¿Cómo cargo datos en sinks desde la línea de comandos?
El comando load te permite cargar datasets en bases sink desde la línea de comandos.
¿Cómo inicializo entornos de debaser?
El comando init inicializa entornos de debaser con la configuración adecuada para tus casos de uso.
¿Cómo genero pruebas cactus?
Se pueden generar pruebas cactus mejoradas para validar tus operaciones de procesamiento y síntesis de datos.
¿Cómo trabajo con módulos de debaser sin que bootstrap los sobrescriba?
Se implementaron correcciones para evitar que bootstrap sobrescriba los módulos de debaser, garantizando un funcionamiento consistente.
Gestión de Esquemas
¿Cómo comparo esquemas en Gigantics?
Las funciones de comparación de esquemas te permiten analizar diferencias entre esquemas de bases de datos. Las optimizaciones recientes mejoran el rendimiento cuando se comparan esquemas con muchas tablas.
¿Cómo renombro tablas como entidades en la interfaz?
Se realizaron mejoras en la interfaz para renombrar correctamente tablas como entidades (o colecciones) para una gestión de datos más intuitiva.
¿Cómo manejo problemas con el contador de extracción de esquemas?
Se resolvieron problemas donde el contador de extracción de DDL no aumentaba, asegurando un seguimiento adecuado del análisis de esquemas.
¿Cómo uso las operaciones de actualización de esquemas?
Las operaciones de actualización de esquemas te permiten aplicar cambios a los esquemas de tus bases como parte de tus canalizaciones de procesamiento de datos.
¿Cómo gestiono versiones de esquemas al cargar datos?
Puedes seleccionar versiones específicas de esquema al cargar datos para asegurar la compatibilidad con las estructuras de tus bases de destino.
Funciones de Diccionario
¿Cómo exporto e importo diccionarios?
La funcionalidad de exportar/importar diccionarios te permite guardar y restaurar mapeos para mantener un procesamiento consistente en distintos entornos.
¿Cómo creo diccionarios de proyecto?
Puedes crear diccionarios a nivel de proyecto para mantener mapeos de anonimización consistentes dentro de un proyecto específico.
¿Cómo visualizo resúmenes de diccionarios?
Las páginas de resumen de diccionario ofrecen información general sobre tus mapeos y estadísticas de uso.
¿Cómo limpio entradas de diccionario de forma eficiente?
Las operaciones de limpieza de diccionarios se optimizaron para evitar un rendimiento deficiente al vaciar diccionarios grandes.
¿Cómo verifico funciones guardadas al importar reglas?
Las funciones guardadas ahora se verifican correctamente durante la importación de reglas para asegurar que existan dentro del contexto del proyecto.
Funciones de Datasets
¿Cómo creo nuevos datasets a partir de existentes?
Puedes copiar datasets para crear otros nuevos con características similares o modificadas.
¿Cómo manejo datasets con muchas entidades?
Los informes de auditoría con muchas entidades ahora se cargan correctamente sin fallos, resolviendo problemas de rendimiento previos.
¿Cómo ordeno los datasets por tamaño de forma correcta?
El ordenamiento por tamaño de dataset se corrigió para basarse en el tamaño real de los datos en lugar del orden alfabético.
¿Cómo profundizo desde los resúmenes de proyecto hacia datasets específicos?
La navegación mejoró para permitir entrar a datasets específicos desde los paneles de resumen de los proyectos, facilitando la gestión de datos.
¿Cómo manejo entradas de log duplicadas en el procesamiento de jobs?
Se corrigió la aparición de logs duplicados en los streams de jobs, garantizando registros de procesamiento más limpios.
¿Cómo gestiono ubicaciones de archivos temporales?
Los archivos temporales ahora se crean en los directorios correctos en lugar de ubicaciones incorrectas que podrían causar problemas.
¿Cómo elimino tablas de un dataset?
Puedes eliminar tablas específicas de un dataset para crear colecciones de datos personalizadas según tus necesidades.
¿Cómo limito los resultados en los enlaces de descarga de datasets?
Los enlaces de descarga de datasets ahora admiten parámetros de límite para controlar la cantidad de datos descargados.
Gestión de Reglas
¿Cómo exporto e importo reglas entre proyectos?
La exportación/importación de reglas te permite compartir configuraciones entre distintos proyectos al mismo tiempo que conservas las opciones del diccionario de campos.
¿Cómo gestiono el orden de entidades y campos en las reglas?
Las reglas ahora envían entidades y campos ordenados como arreglos, asegurando un orden de procesamiento consistente en tus operaciones de datos.
¿Cómo evito valores duplicados en las salidas de las reglas?
Las funciones recientes evitan que aparezcan valores duplicados en las salidas de las reglas, produciendo datasets más limpios.
¿Cómo manejo referencias a funciones al importar reglas?
Las referencias a funciones guardadas se mantienen al importar reglas, preservando las conexiones con funciones personalizadas.
Funciones de Etiquetas
¿Cómo habilito o deshabilito todas las etiquetas a la vez?
Puedes habilitar o deshabilitar todas las etiquetas simultáneamente con la nueva funcionalidad de toggle.
¿Cómo manejo filtros de etiquetas con muchas entidades?
Las mejoras en los filtros de etiquetas facilitan su uso incluso cuando trabajas con grandes cantidades de entidades.
¿Cómo registro los motivos de cambio de etiqueta?
El seguimiento del motivo de cambio de etiqueta ahora está disponible y el campo solo es obligatorio cuando las entidades están confirmadas.
¿Cómo descubro etiquetas usando nombres de columna?
El descubrimiento de etiquetas ahora utiliza los nombres de columna como parte del proceso de identificación para mejorar la precisión.
¿Cómo manejo la generación de nombres y apellidos en español?
Se corrigieron los generadores de apellidos en español para que devuelvan apellidos en lugar de nombres de pila.
Gestión de Jobs
¿Cómo reinicio jobs que fallaron?
La funcionalidad para reiniciar jobs permite retomar trabajos fallidos sin comenzar desde cero.
¿Cómo manejo los errores "overwrite job already running"?
Las correcciones para el error "overwrite job already running" mejoran la detección del estado real del job.
¿Cómo corrijo tasas de jobs exitosos incorrectas?
Las correcciones en los tableros de proyecto proporcionan métricas más precisas sobre la tasa de jobs exitosos.
¿Cómo manejo problemas con el conteo de filas en esquemas de PostgreSQL?
Los problemas con el conteo de filas en esquemas de PostgreSQL se solucionaron para ofrecer estadísticas más precisas.
¿Cómo vuelvo a ejecutar jobs con nuevos IDs?
Al reprogramar jobs, ahora se generan IDs nuevos para garantizar un seguimiento diferenciado.
¿Cómo manejo entradas duplicadas en los streams de jobs?
Se resolvieron los problemas de entradas duplicadas en los streams de jobs para mantener registros más limpios.
Gestión de Memoria y Rendimiento
¿Cómo manejo el uso de memoria de MongoMapDriver?
Se implementaron correcciones para reducir el uso de memoria de MongoMapDriver y mejorar el rendimiento.
¿Cómo gestiono el uso de memoria con datasets grandes?
Usa paginación, filtrado y límites apropiados para controlar el uso de memoria al trabajar con datasets o bases de datos de gran tamaño.
Gestión de Usuarios y Permisos
¿Cómo configuro permisos de usuarios en Gigantics?
Gigantics permite crear permisos detallados para los usuarios en los proyectos, controlando quién puede editar modelos, ejecutar jobs y acceder a datos sensibles.
¿Cuál es la diferencia entre usuarios admin y usuarios regulares?
Los usuarios administradores tienen acceso a la configuración global y pueden modificar parámetros a nivel de servidor, mientras que los usuarios regulares solo pueden modificar ajustes específicos de los proyectos a los que tienen permiso.
¿Cómo invito usuarios a mis proyectos?
Puedes invitar a usuarios de tu organización a unirse a los proyectos desde las opciones de configuración del proyecto, lo que habilita la colaboración en la gestión de datos.
¿Qué niveles de permiso existen?
Los niveles de permiso suelen incluir:
- Viewer: Solo puede ver datos.
- Editor: Puede modificar datasets y reglas.
- Admin: Puede editar modelos y administrar la configuración del proyecto.
Solución Técnica de Problemas
¿Cómo manejo problemas con las transformaciones de tipo de mayúsculas/minúsculas?
Las aplicaciones de tipo de mayúsculas/minúsculas se corrigieron para transformar los datos de acuerdo con tus requisitos.
¿Cómo gestiono los problemas con columnas virtuales en Oracle?
Los errores al insertar datos en columnas virtuales de Oracle se resolvieron ignorando dichas columnas automáticamente durante el procesamiento.
¿Cómo abordo truncamientos inválidos de datos en DB2?
Los errores de truncado de datos en DB2 se corrigieron para mejorar la confiabilidad del procesamiento.
¿Cómo manejo problemas al cerrar conexiones Oracle SessionPool?
Se resolvió que las conexiones de Oracle SessionPool no se cerraran correctamente, mejorando la gestión de conexiones Oracle.
¿Cómo corrijo problemas con los checkboxes generales de include/exclude?
El comportamiento de los checkboxes generales de include/exclude ahora se aplica solo a las entidades filtradas en lugar de a todas las entidades.
¿Cómo manejo errores del generador de consultas de MSSQL?
Los errores del generador de consultas de MSSQL se corrigieron para mejorar la compatibilidad con SQL Server.
¿Cómo soluciono problemas de truncado en campos de longitud máxima?
Los problemas de truncado en campos con longitud "max" se resolvieron para manejar correctamente textos largos.
¿Cómo evito que el botón "back to entities" restablezca filtros?
El botón "back to entities" en los editores de etiquetas ahora mantiene los filtros en lugar de restablecerlos.
¿Cómo soluciono inconvenientes al cargar informes de auditoría?
Los informes de auditoría con muchas entidades ahora se cargan correctamente gracias a las mejoras de rendimiento recientes.
Instalación y Mantenimiento
¿Cómo actualizo Gigantics a una versión más reciente?
Para actualizar Gigantics, descarga el paquete de la versión más reciente y sigue los pasos de instalación. Asegúrate de hacer copia de seguridad de tus archivos de configuración antes de actualizar.
¿Cómo respaldo la configuración de Gigantics?
Los archivos de configuración se encuentran en el directorio config/. Haz una copia de seguridad de estos archivos antes de realizar actualizaciones o cambios importantes.
¿Cómo verifico posibles problemas de compatibilidad del sistema?
Confirma que tu sistema cumpla los requisitos mínimos de RAM y las versiones compatibles de bases de datos. Consulta la documentación de instalación para obtener los requisitos detallados.
¿Cómo soluciono fallas durante la instalación?
Si la instalación falla, revisa:
- Requisitos del sistema (RAM, espacio en disco, etc.).
- Versiones compatibles de las bases de datos.
- Controladores necesarios para cada sistema de base de datos.
- Permisos de archivos en los directorios de instalación.
Desarrollo Personalizado
¿Cómo creo funciones personalizadas en Gigantics?
Puedes crear funciones personalizadas en JavaScript que reciben valores originales y devuelven valores procesados. Son útiles para requisitos específicos de anonimización o síntesis.
¿Cómo depuro funciones personalizadas?
Usa las herramientas de línea de comandos de debaser para probar funciones personalizadas con datos de muestra antes de aplicarlas a datasets de producción.
¿Cómo comparto funciones personalizadas entre proyectos?
Guarda las funciones personalizadas en el área de elementos de configuración del proyecto para reutilizarlas en múltiples reglas dentro del mismo proyecto.
Seguridad de Datos
¿Cómo garantiza Gigantics la privacidad de los datos durante el procesamiento?
Gigantics procesa los datos siguiendo principios de privacidad desde el diseño:
- Las operaciones de anonimización reemplazan los valores sensibles.
- La generación de datos sintéticos crea nuevos datasets sin información sensible original.
- Los mapeos del diccionario pueden limpiarse o exportarse según sea necesario para cumplir normativas.
- Se utilizan protocolos de conexión seguros para acceder a las bases de datos.
¿Cómo implemento el cumplimiento con GDPR usando Gigantics?
Para cumplir con GDPR:
- Usa las funciones de descubrimiento para identificar elementos PII.
- Aplica técnicas de anonimización apropiadas.
- Genera datasets sintéticos para pruebas.
- Exporta diccionarios para rastrear transformaciones de datos.
- Implementa controles de acceso y permisos adecuados.
¿Cómo gestiono los requisitos de cumplimiento HIPAA?
Para HIPAA:
- Identifica PII relacionada con salud mediante las funciones de descubrimiento.
- Aplica anonimización estricta a los campos de datos de pacientes.
- Usa conexiones de base de datos seguras.
- Implementa controles de acceso basados en roles.
- Rastrea las transformaciones de datos mediante diccionarios.
¿Qué funciones de cifrado están disponibles?
Gigantics ofrece funciones de cifrado y descifrado que pueden usarse en transformaciones personalizadas para proteger los datos durante el procesamiento.
¿Cómo implemento enmascaramiento de datos para cumplir con PCI?
Usa operaciones de enmascaramiento para ocultar números de tarjeta de crédito y otra información de pagos mientras mantienes el formato necesario para pruebas.
Mejores Prácticas
¿Cuál es el orden recomendado para aplicar operaciones?
Orden recomendado:
- Include/Exclude: Selecciona las entidades a procesar.
- Where: Filtra registros por condiciones.
- Limit: Reduce el tamaño del dataset si es necesario.
- Anonymize: Protege los datos sensibles.
- Synthesize: Genera datos adicionales si hace falta.
¿Cómo mantengo la consistencia de datos entre entornos?
Utiliza modos de diccionario con alcances apropiados para garantizar que los mismos valores originales se transformen de manera consistente en distintos entornos.
¿Cómo optimizo el rendimiento de ejecución de reglas?
Para optimizar el rendimiento:
- Aplica operaciones de filtrado temprano (Include/Exclude, Where).
- Usa límites apropiados para reducir el tamaño del dataset.
- Elige métodos de anonimización eficientes para tus tipos de datos.
- Usa alcances de diccionario acordes a tus requisitos de consistencia.
¿Cómo gestiono entornos de bases de datos grandes?
Para entornos grandes:
- Procesa entidades de manera selectiva usando Include/Exclude.
- Aplica filtros adecuados para reducir la carga de procesamiento.
- Utiliza descubrimiento incremental en lugar de escaneos completos.
- Programa la ejecución de pipelines en horarios de baja actividad.
¿Cuáles son los ajustes recomendados para desarrollo vs producción?
Configuración para desarrollo:
- Límites de dataset más pequeños para pruebas rápidas.
- Métodos de anonimización sencillos.
- Conexiones a bases locales.
Configuración para producción:
- Procesamiento completo de datasets según sea necesario.
- Anonimización estricta con consistencia de diccionario.
- Conexiones de base seguras con autenticación adecuada.
Funciones Específicas de Bases de Datos
¿Qué funcionalidades específicas de Oracle están disponibles?
Las funciones específicas de Oracle incluyen:
- Conexiones con rol SYSDBA.
- Optimizaciones de carga SQLLDR.
- Mejoras en el manejo de restricciones.
- Gestión de conexiones SessionPool.
- Resolución del error SHARING CREATE TABLE.
¿Cómo trabajo de forma eficiente con bases DB2?
Las funciones de DB2 incluyen:
- Optimizaciones específicas para DB2i y DB2z.
- Manejo de nombres de tablas largos.
- Configuración de tiempos de espera en la conexión.
- Mejoras en la detección de tipos buffer.
- Correcciones en el manejo de campos timestamp.
¿Qué funcionalidades mejoran la compatibilidad con SQL Server?
Las mejoras para SQL Server incluyen:
- Correcciones en el generador de consultas.
- Mejoras en el manejo de restricciones.
- Mayor confiabilidad en las conexiones.
¿Cómo optimizo el manejo de esquemas de PostgreSQL?
Las optimizaciones para PostgreSQL incluyen:
- Reportes de conteo de filas precisos.
- Análisis de esquemas adecuado.
- Técnicas eficientes de procesamiento de datos.
¿Qué mejoras se implementaron para MongoDB?
Las mejoras para MongoDB incluyen:
- Soporte para conexiones a Atlas.
- Procesamiento preciso de contadores en descubrimiento.
- Optimizaciones en el uso de memoria.
Parámetros de Línea de Comandos
¿Cómo ejecuto Gigantics en segundo plano?
Utiliza el parámetro -d para ejecutar Gigantics como un daemon en segundo plano.
¿Cómo especifico archivos de configuración diferentes?
Usa el parámetro -c seguido de una ruta para indicar qué archivo de configuración se debe utilizar.
¿Cómo optimizo Gigantics para múltiples núcleos de CPU?
Usa el parámetro -w con los valores adecuados:
-w -1ejecuta todo en el proceso principal (sin fork).-w 0crea procesos worker para todos los CPU disponibles.-w N(donde N > 0) crea exactamente N procesos worker.
Este parámetro controla si Gigantics usa procesos worker de Node.js para aprovechar mejor la CPU; no configura clustering de base de datos.
¿Cómo verifico la versión actual?
Usa el parámetro --version para comprobar la versión instalada de Gigantics.
¿Cómo obtengo ayuda sobre las opciones de línea de comandos?
Usa los parámetros -h o --help para ver todas las opciones disponibles en la línea de comandos.