Operaciones

Max

La operación Max te permite establecer el número máximo de registros que se escribirán en el sink o se insertarán en el conjunto de datos. Esta operación ayuda a controlar el tamaño de tus datos de salida.

Resumen

La operación Max proporciona formas flexibles de limitar el tamaño del conjunto de datos:

  • Limitar por un número máximo fijo de filas
  • Limitar por un porcentaje máximo de registros disponibles
  • Aplicar límites a todas las entidades juntas o a cada entidad individualmente
  • Elegir qué registros mantener al aplicar el máximo (primeros, últimos o aleatorios)

Opciones de Configuración

Alcance

El alcance determina si el máximo se aplica a todas las entidades colectivamente o a cada entidad individualmente:

Todas las entidades: Aplica el máximo al conjunto de datos completo, sin importar los tipos de entidades. Por ejemplo, si tienes 10000 registros de clientes y 10000 registros de órdenes (20000 en total), un máximo de 5000 devolverá 5000 registros en total de cualquier combinación de entidades.

Por entidad: Aplica el máximo por separado a cada tipo de entidad. Por ejemplo, si tienes entidades de clientes y órdenes, un máximo de 5000 devolverá hasta 5000 registros de clientes Y hasta 5000 registros de órdenes (10000 registros en total como máximo).

Tipo de Máximo

Puedes especificar cómo debe aplicarse el máximo:

Por número de filas: Especifica un número máximo exacto de registros. Por ejemplo, máximo de exactamente 1000 registros.

Por porcentaje: Especifica un porcentaje máximo del total de registros disponibles. Por ejemplo, máximo del 20% de todos los registros. Al usar porcentajes, también puedes establecer restricciones mínimas y máximas de filas para asegurarte de obtener un número razonable de registros incluso cuando el porcentaje de un conjunto de datos pequeño podría ser muy pocos o demasiados registros.

Posición de la Fila

Determina qué registros se seleccionan al aplicar el máximo:

Primeros registros: Selecciona registros del principio del conjunto de datos (útil para obtener los registros más recientes cuando los datos están ordenados cronológicamente).

Últimos registros: Selecciona registros del final del conjunto de datos (útil para obtener los registros más antiguos cuando los datos están ordenados cronológicamente).

Registros aleatorios: Selecciona registros aleatoriamente del conjunto de datos (útil para muestrear datos).

Restricciones de Porcentaje

Al usar máximos basados en porcentaje, puedes establecer restricciones adicionales:

Filas mínimas: Asegura que incluso si el porcentaje del total de registros es pequeño, obtendrás al menos esta cantidad de filas. Por ejemplo, si estableces 5% pero quieres al menos 1000 filas, esta configuración asegura que obtendrás 1000 filas incluso si el 5% de tu conjunto de datos es menor que eso.

Filas máximas: Asegura que incluso si el porcentaje del total de registros es grande, no obtendrás más de esta cantidad de filas. Por ejemplo, si estableces 50% pero solo quieres un máximo de 50000 filas, esta configuración limita tu salida a 50000 filas incluso si el 50% de tu conjunto de datos sería más.

Ejemplos

Máximo por Número de Filas

Para limitar tu conjunto de datos a exactamente 1000 registros:

  1. Establece Alcance en "Todas las entidades"
  2. Establece Tipo de Máximo en "Por número de filas"
  3. Ingresa "1000" en el campo de valor
  4. Elige qué registros mantener (Primeros, Últimos o Aleatorios)

Máximo por Porcentaje

Para limitar tu conjunto de datos al 20% de los registros disponibles:

  1. Establece Alcance en "Todas las entidades"
  2. Establece Tipo de Máximo en "Por porcentaje"
  3. Ingresa "20" en el campo de valor
  4. Elige qué registros mantener (Primeros, Últimos o Aleatorios)

Máximo por Entidad

Para limitar cada entidad a 5000 registros:

  1. Establece Alcance en "Por entidad"
  2. Configura cada entidad con:
    • Tipo de Máximo: "Por número de filas"
    • Valor: 5000
    • Posición: "Primeros" (o tu selección preferida)

Este enfoque es particularmente útil cuando trabajas con entidades relacionadas donde quieres mantener una representación equilibrada en todos los tipos mientras limitas el número total de registros.

Tabla de Contenidos