Etiquetas
Las etiquetas en Gigantics son clasificaciones asignadas a campos de base de datos durante el proceso de descubrimiento. Estas etiquetas determinan cómo se manejarán los datos durante las operaciones de anonimización y síntesis.
Etiquetas del Sistema
Gigantics viene con un conjunto completo de etiquetas del sistema predefinidas para detectar automáticamente varios tipos de datos sensibles. Estas etiquetas se organizan en categorías basadas en el tipo de información que identifican:
Información Empresarial
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
business/company | Nombres de empresas y organizaciones | No | Bajo | Patrones de nombres de columnas, análisis contextual de datos |
business/department | Nombres de departamentos dentro de organizaciones | No | Bajo | Patrones de nombres de columnas, análisis contextual de datos |
business/job_title | Títulos profesionales de trabajo | No | Bajo | Patrones de nombres de columnas, listas predefinidas de títulos de trabajo |
Información de Fecha y Hora
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
datetime/date/format1 a datetime/date/format12 | Varios formatos de fecha (MM/DD/YYYY, DD/MM/YYYY, etc.) | Condicional | Bajo a Medio | Coincidencia de patrones contra múltiples expresiones regulares de formato de fecha |
datetime/time_zone | Identificadores de zona horaria | No | Bajo | Patrones de nombres de columnas, listas predefinidas de zonas horarias |
datetime/time | Valores de tiempo | Condicional | Bajo | Coincidencia de patrones, análisis de nombres de columnas |
Información Financiera
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
finance/bitcoin | Direcciones Bitcoin | Condicional | Alto | Coincidencia de patrones usando expresiones regulares de formato de direcciones Bitcoin |
finance/creditcard_type | Identificadores de tipo de tarjeta de crédito | No | Medio | Patrones de nombres de columnas, listas predefinidas de tipos de tarjetas de crédito |
finance/creditcard | Números de tarjetas de crédito | Sí | Muy Alto | Coincidencia de patrones usando validación del algoritmo de Luhn |
finance/currency_code | Códigos de moneda (USD, EUR, etc.) | No | Bajo | Patrones de nombres de columnas, listas predefinidas de códigos de moneda |
finance/currency | Nombres y símbolos de moneda | No | Bajo | Patrones de nombres de columnas, listas predefinidas de monedas |
finance/ethereum | Direcciones Ethereum | Condicional | Alto | Coincidencia de patrones usando expresiones regulares de formato de direcciones Ethereum |
finance/iban | Números de Cuenta Bancaria Internacional | Sí | Muy Alto | Coincidencia de patrones usando validación de formato IBAN |
finance/money | Valores monetarios | No | Medio | Coincidencia de patrones, análisis de nombres de columnas |
Propiedades de las Etiquetas
Cada etiqueta tiene dos propiedades clave:
Campo PII
Indica si el campo contiene Información de Identificación Personal:
- Verdadero: El campo contiene datos personales sensibles
- Falso: El campo no contiene datos personales sensibles
Severidad
Representa el nivel de riesgo si los datos fueran expuestos:
- Bajo: Riesgo mínimo (ej. Género)
- Medio: Riesgo moderado (ej. Direcciones de correo)
- Alto: Riesgo significativo (ej. Nombres, Direcciones)
- Muy Alto: Riesgo crítico (ej. SSN, Tarjetas de Crédito)
Información de Salud
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
health/drug | Nombres de medicamentos y drogas | No | Medio | Patrones de nombres de columnas, bases de datos predefinidas de nombres de medicamentos |
Identificadores
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
identifier/dea | Números de la Administración de Drogas (DEA) | Sí | Alto | Coincidencia de patrones usando validación de formato DEA |
identifier/dni | Números de Identidad Nacional (DNI) | Sí | Muy Alto | Coincidencia de patrones usando validación de formato DNI |
identifier/isbn | Números Estándar Internacional de Libros | No | Bajo | Coincidencia de patrones usando validación de formato ISBN |
identifier/nhs | Números del Servicio Nacional de Salud (NHS) | Sí | Alto | Coincidencia de patrones usando validación de formato NHS |
identifier/nino | Números de Seguro Nacional (NINO) | Sí | Alto | Coincidencia de patrones usando validación de formato NINO |
identifier/ssn | Números de Seguridad Social | Sí | Muy Alto | Coincidencia de patrones usando validación de formato SSN |
Información de Ubicación
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
location/address | Direcciones físicas | Sí | Alto | Coincidencia de patrones, análisis de nombres de columnas |
location/city | Nombres de ciudades | Condicional | Medio | Patrones de nombres de columnas, bases de datos predefinidas de nombres de ciudades |
location/city/de | Nombres de ciudades alemanas | Condicional | Medio | Bases de datos específicas de idioma |
location/city/es | Nombres de ciudades españolas | Condicional | Medio | Bases de datos específicas de idioma |
location/country_code | Códigos de país (US, UK, DE, etc.) | No | Bajo | Patrones de nombres de columnas, listas predefinidas de códigos de país |
location/country/ar | Nombres de países en árabe | No | Bajo | Bases de datos específicas de idioma |
location/country/en | Nombres de países en inglés | No | Bajo | Bases de datos específicas de idioma |
location/country/es | Nombres de países en español | No | Bajo | Bases de datos específicas de idioma |
location/latitude | Coordenadas de latitud geográfica | Condicional | Bajo | Coincidencia de patrones, análisis de nombres de columnas |
location/longitude | Coordenadas de longitud geográfica | Condicional | Bajo | Coincidencia de patrones, análisis de nombres de columnas |
location/phone | Números de teléfono (general) | Sí | Alto | Coincidencia de patrones, análisis de nombres de columnas |
location/phone/format1 a location/phone/format4 | Diferentes formatos de números de teléfono | Sí | Alto | Coincidencia de patrones específica por formato |
location/state/US/abbr | Abreviaturas de estados de EE.UU. | Condicional | Bajo | Coincidencia de patrones, listas predefinidas de estados |
location/state/US/full | Nombres completos de estados de EE.UU. | Condicional | Bajo | Coincidencia de patrones, listas predefinidas de estados |
location/zip_code | Códigos ZIP/postales | Condicional | Medio | Coincidencia de patrones, análisis de nombres de columnas |
Información Personal
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
person/gender | Identificadores de género | Sí | Bajo | Patrones de nombres de columnas, listas predefinidas de género |
person/name/en/first | Nombres propios en inglés | Sí | Alto | Coincidencia de patrones contra bases de datos de nombres en inglés |
person/name/en/full | Nombres completos en inglés | Sí | Alto | Coincidencia de patrones de múltiples palabras |
person/name/en/last | Apellidos en inglés | Sí | Alto | Coincidencia de patrones contra bases de datos de apellidos en inglés |
person/name/es | Nombres en español | Sí | Alto | Bases de datos específicas de idioma |
person/name/fr | Nombres en francés | Sí | Alto | Bases de datos específicas de idioma |
person/race | Identificadores de raza/etnia | Sí | Alto | Patrones de nombres de columnas, listas predefinidas de razas |
Información Técnica
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
tech/email | Direcciones de correo electrónico | Sí | Medio | Coincidencia de patrones usando validación de expresiones regulares de correo |
tech/guid | Identificadores Únicos Globales | Condicional | Bajo | Coincidencia de patrones usando expresiones regulares de formato GUID |
tech/hex_color | Códigos de color hexadecimal | No | Bajo | Coincidencia de patrones usando expresiones regulares de formato de color hex |
tech/ipv4 | Direcciones IPv4 | Condicional | Medio | Coincidencia de patrones usando validación de formato IPv4 |
tech/ipv6 | Direcciones IPv6 | Condicional | Medio | Coincidencia de patrones usando validación de formato IPv6 |
tech/locale | Configuraciones de idioma/región | No | Bajo | Coincidencia de patrones, listas predefinidas de configuraciones regionales |
tech/mac | Direcciones MAC | Condicional | Bajo | Coincidencia de patrones usando expresiones regulares de formato MAC |
tech/md5 | Valores hash MD5 | Condicional | Bajo | Coincidencia de patrones usando expresiones regulares de formato MD5 |
tech/mime_type | Identificadores de tipo MIME | No | Bajo | Coincidencia de patrones, listas predefinidas de tipos MIME |
tech/sha1 | Valores hash SHA1 | Condicional | Bajo | Coincidencia de patrones usando expresiones regulares de formato SHA1 |
tech/sha256 | Valores hash SHA256 | Condicional | Bajo | Coincidencia de patrones usando expresiones regulares de formato SHA256 |
tech/url | URLs web | Condicional | Bajo | Coincidencia de patrones usando validación de expresiones regulares de URL |
tech/user_agent | Cadenas de agente de usuario del navegador | Condicional | Bajo | Coincidencia de patrones, patrones predefinidos de agentes de usuario |
Información Miscelánea
| Etiqueta | Descripción | Estado PII | Nivel de Riesgo | Método de Detección |
|---|---|---|---|---|
misc/ar | Palabras y frases en árabe | No | Bajo | Coincidencia de patrones específica por idioma |
misc/common | Palabras comunes | No | Bajo | Coincidencia de patrones contra listas de palabras comunes |
misc/en | Palabras en inglés | No | Bajo | Coincidencia de patrones contra listas de palabras en inglés |
misc/es | Palabras en español | No | Bajo | Coincidencia de patrones contra listas de palabras en español |
misc/fr | Palabras en francés | No | Bajo | Coincidencia de patrones contra listas de palabras en francés |
misc/numbers | Patrones numéricos | No | Bajo | Coincidencia de patrones, análisis de tipos de datos |
Proceso de Asignación de Etiquetas
Durante el descubrimiento, Gigantics asigna automáticamente etiquetas usando un enfoque de múltiples capas:
- Nombres de columnas: Coincidencia contra patrones conocidos (ej. "email", "phone")
- Patrones de datos: Análisis de valores de muestra para coincidencias de formato usando expresiones regulares y algoritmos de validación
- Búsqueda en diccionario: Comparación contra diccionarios de datos sensibles predefinidos con miles de entradas
- Aprendizaje automático: Uso de modelos de red neuronal entrenados para reconocer patrones complejos
- Análisis contextual: Examinando datos en contexto con campos relacionados para una clasificación más precisa
Los niveles de confianza se muestran como porcentajes indicando cuán cierto está el sistema sobre la asignación de etiqueta.
Gestión de Etiquetas
Después del descubrimiento, puedes:
- Editar etiquetas de campos para corregir malas clasificaciones
- Crear etiquetas personalizadas para necesidades específicas de la organización
- Ajustar niveles de sensibilidad para tu tolerancia de riesgo
- Confirmar clasificaciones para fijar las etiquetas finales
Las etiquetas son esenciales para asegurar una anonimización precisa y síntesis de datos en pasos posteriores.