Max
La operación Max te permite establecer el número máximo de registros que se escribirán en el sink o se insertarán en el conjunto de datos. Esta operación ayuda a controlar el tamaño de tus datos de salida.
Resumen
La operación Max proporciona formas flexibles de limitar el tamaño del conjunto de datos:
- Limitar por un número máximo fijo de filas
- Limitar por un porcentaje máximo de registros disponibles
- Aplicar límites a todas las entidades juntas o a cada entidad individualmente
- Elegir qué registros mantener al aplicar el máximo (primeros, últimos o aleatorios)
Opciones de Configuración
Alcance
El alcance determina si el máximo se aplica a todas las entidades colectivamente o a cada entidad individualmente:
Todas las entidades: Aplica el máximo al conjunto de datos completo, sin importar los tipos de entidades. Por ejemplo, si tienes 10000 registros de clientes y 10000 registros de órdenes (20000 en total), un máximo de 5000 devolverá 5000 registros en total de cualquier combinación de entidades.
Por entidad: Aplica el máximo por separado a cada tipo de entidad. Por ejemplo, si tienes entidades de clientes y órdenes, un máximo de 5000 devolverá hasta 5000 registros de clientes Y hasta 5000 registros de órdenes (10000 registros en total como máximo).
Tipo de Máximo
Puedes especificar cómo debe aplicarse el máximo:
Por número de filas: Especifica un número máximo exacto de registros. Por ejemplo, máximo de exactamente 1000 registros.
Por porcentaje: Especifica un porcentaje máximo del total de registros disponibles. Por ejemplo, máximo del 20% de todos los registros. Al usar porcentajes, también puedes establecer restricciones mínimas y máximas de filas para asegurarte de obtener un número razonable de registros incluso cuando el porcentaje de un conjunto de datos pequeño podría ser muy pocos o demasiados registros.
Posición de la Fila
Determina qué registros se seleccionan al aplicar el máximo:
Primeros registros: Selecciona registros del principio del conjunto de datos (útil para obtener los registros más recientes cuando los datos están ordenados cronológicamente).
Últimos registros: Selecciona registros del final del conjunto de datos (útil para obtener los registros más antiguos cuando los datos están ordenados cronológicamente).
Registros aleatorios: Selecciona registros aleatoriamente del conjunto de datos (útil para muestrear datos).
Restricciones de Porcentaje
Al usar máximos basados en porcentaje, puedes establecer restricciones adicionales:
Filas mínimas: Asegura que incluso si el porcentaje del total de registros es pequeño, obtendrás al menos esta cantidad de filas. Por ejemplo, si estableces 5% pero quieres al menos 1000 filas, esta configuración asegura que obtendrás 1000 filas incluso si el 5% de tu conjunto de datos es menor que eso.
Filas máximas: Asegura que incluso si el porcentaje del total de registros es grande, no obtendrás más de esta cantidad de filas. Por ejemplo, si estableces 50% pero solo quieres un máximo de 50000 filas, esta configuración limita tu salida a 50000 filas incluso si el 50% de tu conjunto de datos sería más.
Ejemplos
Máximo por Número de Filas
Para limitar tu conjunto de datos a exactamente 1000 registros:
- Establece Alcance en "Todas las entidades"
- Establece Tipo de Máximo en "Por número de filas"
- Ingresa "1000" en el campo de valor
- Elige qué registros mantener (Primeros, Últimos o Aleatorios)
Máximo por Porcentaje
Para limitar tu conjunto de datos al 20% de los registros disponibles:
- Establece Alcance en "Todas las entidades"
- Establece Tipo de Máximo en "Por porcentaje"
- Ingresa "20" en el campo de valor
- Elige qué registros mantener (Primeros, Últimos o Aleatorios)
Máximo por Entidad
Para limitar cada entidad a 5000 registros:
- Establece Alcance en "Por entidad"
- Configura cada entidad con:
- Tipo de Máximo: "Por número de filas"
- Valor: 5000
- Posición: "Primeros" (o tu selección preferida)
Este enfoque es particularmente útil cuando trabajas con entidades relacionadas donde quieres mantener una representación equilibrada en todos los tipos mientras limitas el número total de registros.