Descubrimiento

Etiquetas

Las etiquetas en Gigantics son clasificaciones asignadas a campos de base de datos durante el proceso de descubrimiento. Estas etiquetas determinan cómo se manejarán los datos durante las operaciones de anonimización y síntesis.

Etiquetas del Sistema

Gigantics viene con un conjunto completo de etiquetas del sistema predefinidas para detectar automáticamente varios tipos de datos sensibles. Estas etiquetas se organizan en categorías basadas en el tipo de información que identifican:

Información Empresarial

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
business/companyNombres de empresas y organizacionesNoBajoPatrones de nombres de columnas, análisis contextual de datos
business/departmentNombres de departamentos dentro de organizacionesNoBajoPatrones de nombres de columnas, análisis contextual de datos
business/job_titleTítulos profesionales de trabajoNoBajoPatrones de nombres de columnas, listas predefinidas de títulos de trabajo

Información de Fecha y Hora

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
datetime/date/format1 a datetime/date/format12Varios formatos de fecha (MM/DD/YYYY, DD/MM/YYYY, etc.)CondicionalBajo a MedioCoincidencia de patrones contra múltiples expresiones regulares de formato de fecha
datetime/time_zoneIdentificadores de zona horariaNoBajoPatrones de nombres de columnas, listas predefinidas de zonas horarias
datetime/timeValores de tiempoCondicionalBajoCoincidencia de patrones, análisis de nombres de columnas

Información Financiera

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
finance/bitcoinDirecciones BitcoinCondicionalAltoCoincidencia de patrones usando expresiones regulares de formato de direcciones Bitcoin
finance/creditcard_typeIdentificadores de tipo de tarjeta de créditoNoMedioPatrones de nombres de columnas, listas predefinidas de tipos de tarjetas de crédito
finance/creditcardNúmeros de tarjetas de créditoMuy AltoCoincidencia de patrones usando validación del algoritmo de Luhn
finance/currency_codeCódigos de moneda (USD, EUR, etc.)NoBajoPatrones de nombres de columnas, listas predefinidas de códigos de moneda
finance/currencyNombres y símbolos de monedaNoBajoPatrones de nombres de columnas, listas predefinidas de monedas
finance/ethereumDirecciones EthereumCondicionalAltoCoincidencia de patrones usando expresiones regulares de formato de direcciones Ethereum
finance/ibanNúmeros de Cuenta Bancaria InternacionalMuy AltoCoincidencia de patrones usando validación de formato IBAN
finance/moneyValores monetariosNoMedioCoincidencia de patrones, análisis de nombres de columnas

Propiedades de las Etiquetas

Cada etiqueta tiene dos propiedades clave:

Campo PII

Indica si el campo contiene Información de Identificación Personal:

  • Verdadero: El campo contiene datos personales sensibles
  • Falso: El campo no contiene datos personales sensibles

Severidad

Representa el nivel de riesgo si los datos fueran expuestos:

  • Bajo: Riesgo mínimo (ej. Género)
  • Medio: Riesgo moderado (ej. Direcciones de correo)
  • Alto: Riesgo significativo (ej. Nombres, Direcciones)
  • Muy Alto: Riesgo crítico (ej. SSN, Tarjetas de Crédito)

Información de Salud

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
health/drugNombres de medicamentos y drogasNoMedioPatrones de nombres de columnas, bases de datos predefinidas de nombres de medicamentos

Identificadores

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
identifier/deaNúmeros de la Administración de Drogas (DEA)AltoCoincidencia de patrones usando validación de formato DEA
identifier/dniNúmeros de Identidad Nacional (DNI)Muy AltoCoincidencia de patrones usando validación de formato DNI
identifier/isbnNúmeros Estándar Internacional de LibrosNoBajoCoincidencia de patrones usando validación de formato ISBN
identifier/nhsNúmeros del Servicio Nacional de Salud (NHS)AltoCoincidencia de patrones usando validación de formato NHS
identifier/ninoNúmeros de Seguro Nacional (NINO)AltoCoincidencia de patrones usando validación de formato NINO
identifier/ssnNúmeros de Seguridad SocialMuy AltoCoincidencia de patrones usando validación de formato SSN

Información de Ubicación

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
location/addressDirecciones físicasAltoCoincidencia de patrones, análisis de nombres de columnas
location/cityNombres de ciudadesCondicionalMedioPatrones de nombres de columnas, bases de datos predefinidas de nombres de ciudades
location/city/deNombres de ciudades alemanasCondicionalMedioBases de datos específicas de idioma
location/city/esNombres de ciudades españolasCondicionalMedioBases de datos específicas de idioma
location/country_codeCódigos de país (US, UK, DE, etc.)NoBajoPatrones de nombres de columnas, listas predefinidas de códigos de país
location/country/arNombres de países en árabeNoBajoBases de datos específicas de idioma
location/country/enNombres de países en inglésNoBajoBases de datos específicas de idioma
location/country/esNombres de países en españolNoBajoBases de datos específicas de idioma
location/latitudeCoordenadas de latitud geográficaCondicionalBajoCoincidencia de patrones, análisis de nombres de columnas
location/longitudeCoordenadas de longitud geográficaCondicionalBajoCoincidencia de patrones, análisis de nombres de columnas
location/phoneNúmeros de teléfono (general)AltoCoincidencia de patrones, análisis de nombres de columnas
location/phone/format1 a location/phone/format4Diferentes formatos de números de teléfonoAltoCoincidencia de patrones específica por formato
location/state/US/abbrAbreviaturas de estados de EE.UU.CondicionalBajoCoincidencia de patrones, listas predefinidas de estados
location/state/US/fullNombres completos de estados de EE.UU.CondicionalBajoCoincidencia de patrones, listas predefinidas de estados
location/zip_codeCódigos ZIP/postalesCondicionalMedioCoincidencia de patrones, análisis de nombres de columnas

Información Personal

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
person/genderIdentificadores de géneroBajoPatrones de nombres de columnas, listas predefinidas de género
person/name/en/firstNombres propios en inglésAltoCoincidencia de patrones contra bases de datos de nombres en inglés
person/name/en/fullNombres completos en inglésAltoCoincidencia de patrones de múltiples palabras
person/name/en/lastApellidos en inglésAltoCoincidencia de patrones contra bases de datos de apellidos en inglés
person/name/esNombres en españolAltoBases de datos específicas de idioma
person/name/frNombres en francésAltoBases de datos específicas de idioma
person/raceIdentificadores de raza/etniaAltoPatrones de nombres de columnas, listas predefinidas de razas

Información Técnica

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
tech/emailDirecciones de correo electrónicoMedioCoincidencia de patrones usando validación de expresiones regulares de correo
tech/guidIdentificadores Únicos GlobalesCondicionalBajoCoincidencia de patrones usando expresiones regulares de formato GUID
tech/hex_colorCódigos de color hexadecimalNoBajoCoincidencia de patrones usando expresiones regulares de formato de color hex
tech/ipv4Direcciones IPv4CondicionalMedioCoincidencia de patrones usando validación de formato IPv4
tech/ipv6Direcciones IPv6CondicionalMedioCoincidencia de patrones usando validación de formato IPv6
tech/localeConfiguraciones de idioma/regiónNoBajoCoincidencia de patrones, listas predefinidas de configuraciones regionales
tech/macDirecciones MACCondicionalBajoCoincidencia de patrones usando expresiones regulares de formato MAC
tech/md5Valores hash MD5CondicionalBajoCoincidencia de patrones usando expresiones regulares de formato MD5
tech/mime_typeIdentificadores de tipo MIMENoBajoCoincidencia de patrones, listas predefinidas de tipos MIME
tech/sha1Valores hash SHA1CondicionalBajoCoincidencia de patrones usando expresiones regulares de formato SHA1
tech/sha256Valores hash SHA256CondicionalBajoCoincidencia de patrones usando expresiones regulares de formato SHA256
tech/urlURLs webCondicionalBajoCoincidencia de patrones usando validación de expresiones regulares de URL
tech/user_agentCadenas de agente de usuario del navegadorCondicionalBajoCoincidencia de patrones, patrones predefinidos de agentes de usuario

Información Miscelánea

EtiquetaDescripciónEstado PIINivel de RiesgoMétodo de Detección
misc/arPalabras y frases en árabeNoBajoCoincidencia de patrones específica por idioma
misc/commonPalabras comunesNoBajoCoincidencia de patrones contra listas de palabras comunes
misc/enPalabras en inglésNoBajoCoincidencia de patrones contra listas de palabras en inglés
misc/esPalabras en españolNoBajoCoincidencia de patrones contra listas de palabras en español
misc/frPalabras en francésNoBajoCoincidencia de patrones contra listas de palabras en francés
misc/numbersPatrones numéricosNoBajoCoincidencia de patrones, análisis de tipos de datos

Proceso de Asignación de Etiquetas

Durante el descubrimiento, Gigantics asigna automáticamente etiquetas usando un enfoque de múltiples capas:

  1. Nombres de columnas: Coincidencia contra patrones conocidos (ej. "email", "phone")
  2. Patrones de datos: Análisis de valores de muestra para coincidencias de formato usando expresiones regulares y algoritmos de validación
  3. Búsqueda en diccionario: Comparación contra diccionarios de datos sensibles predefinidos con miles de entradas
  4. Aprendizaje automático: Uso de modelos de red neuronal entrenados para reconocer patrones complejos
  5. Análisis contextual: Examinando datos en contexto con campos relacionados para una clasificación más precisa

Los niveles de confianza se muestran como porcentajes indicando cuán cierto está el sistema sobre la asignación de etiqueta.

Gestión de Etiquetas

Después del descubrimiento, puedes:

Las etiquetas son esenciales para asegurar una anonimización precisa y síntesis de datos en pasos posteriores.