Planificación del Espacio en Disco

Los requisitos de disco dependen de los tipos de datos almacenados por Gigantics y los volúmenes de datos que se manejan en su sitio. El uso de Gigantics no significa almacenar datos localmente, ya que el proceso de anonimización y/o síntesis puede ocurrir dentro de una misma base de datos, o entre 2 o más fuentes de datos (taps y sinks).

Si no se mueven datos significativos a Gigantics, los metadatos básicos normalmente caben en una base de datos MongoDB de <1GB. Solo se almacenarán datos y registros de los trabajos de carga, bombeo y volcado.

Sin embargo, Gigantics almacena 5 tipos de datos:

Tipo de DatoDescripciónTamaño EstimadoRequerido/Opcional
MetadatosUsuarios, datos de conexión de fuentes de datos, esquemas, reglas, auditorías<1GBRequerido
RegistrosRegistros de trabajos y pipelines, detalles de volcado/carga/bombeo de datos, registro de eventos100MB-10GBRequerido
DiccionariosCampos de datos hasheados que se anonimizan10MB-10GBOpcional
Conjuntos de datosVolcados de datos - es decir, datos anonimizados de bases de datos de producción que se cargan bajo demanda en otras fuentes de datos1GB-100GB+Opcional
RespaldosConjuntos de datos que contienen los datos originales seguros (antes de la modificación). Se utilizan solo si se emplean bases de datos de producción críticas para anonimización in-situ1GB-100GB+Opcional

Los tamaños estimados son solo tamaños típicos y pueden no corresponder a su instalación.

Directrices para Estimar los Requisitos de Espacio en Disco

Para la planificación, se necesita un análisis cuidadoso de sus fuentes de datos. Aquí hay algunas directrices para estimar sus requisitos de espacio en disco:

  1. Comience con el mínimo: Asigne al menos 10GB para metadatos y registros básicos, incluso si planea usar solo características opcionales ocasionalmente.

  2. Analice sus fuentes de datos:

    • Cuente el número de bases de datos y sus tamaños aproximados
    • Identifique qué bases de datos se usarán para anonimización/síntesis
    • Determine si utilizará anonimización in-situ (que requiere respaldos)
  3. Estime las necesidades de almacenamiento opcional:

    • Para diccionarios: Planifique 1-2% de su volumen total de datos
    • Para conjuntos de datos: Planifique 10-50% de su fuente de datos más grande si creará copias
    • Para respaldos: Planifique 100% de cualquier base de datos donde realice anonimización in-situ
  4. Considere la retención de registros:

    • La retención de registros predeterminada es de 30 días
    • Ajuste la asignación si necesita períodos de retención más largos
  5. Agregue un margen de seguridad: Siempre agregue un buffer del 20-30% a sus requisitos calculados para tener en cuenta el crecimiento y necesidades inesperadas.

  6. Considere operaciones concurrentes: Si ejecuta múltiples trabajos simultáneamente, asegúrese de tener espacio adecuado para archivos temporales durante el procesamiento.

Ejemplo de Cálculo

Para una configuración con dos fuentes de datos (10GB y 50GB), usando Gigantics para crear diccionarios y exportar conjuntos de datos ocasionales:

  • Metadatos y registros: 2GB
  • Diccionarios: 1GB (2% del total de 60GB)
  • Conjuntos de datos: 20GB (exportando ~40% de la fuente de datos más grande)
  • Asignación total recomendada: 25GB (con margen de seguridad del 30%: ~33GB)

Tabla de Contenidos