Función agregada

En la gestión de bases de datos , una función de agregación o función de agregación es una función en la que se procesan múltiples valores juntos para formar una única estadística de resumen .

Las funciones de agregación más comunes incluyen:

Otros incluyen:

Nanmean (media que ignora los valores NaN, también conocida como "nil" o "null")
desviación estándar

Formalmente, una función agregada toma como entrada un conjunto , un multiconjunto (bolsa) o una lista de algún dominio de entrada $I$ y genera como salida un elemento de un dominio de salida $O.$ ^[1] Los dominios de entrada y salida pueden ser los mismos, como para , o SUMpueden ser diferentes, como para COUNT.

Las funciones agregadas aparecen comúnmente en numerosos lenguajes de programación , en hojas de cálculo y en el álgebra relacional .

La listaggfunción, tal como se define en el estándar SQL:2016 ^[2], agrega datos de varias filas en una única cadena concatenada.

En el diagrama de relación de entidades , la agregación se representa como se ve en la Figura 1 con un rectángulo alrededor de la relación y sus entidades para indicar que se la está tratando como una entidad agregada. ^[3]

Funciones agregadas descomponibles

Las funciones agregadas presentan un cuello de botella , ya que potencialmente requieren tener todos los valores de entrada a la vez. En la computación distribuida , es deseable dividir dichos cálculos en partes más pequeñas y distribuir el trabajo, generalmente computando en paralelo , a través de un algoritmo de divide y vencerás .

Algunas funciones agregadas se pueden calcular calculando el agregado para subconjuntos y luego agregando estos agregados; los ejemplos incluyen COUNT, MAX, MINy SUM. En otros casos, el agregado se puede calcular calculando números auxiliares para subconjuntos, agregando estos números auxiliares y finalmente calculando el número total al final; los ejemplos incluyen AVERAGE(seguimiento de suma y recuento, división al final) y RANGE(seguimiento de máximo y mínimo, resta al final). En otros casos, el agregado no se puede calcular sin analizar todo el conjunto a la vez, aunque en algunos casos se pueden distribuir aproximaciones; los ejemplos incluyen DISTINCT COUNT( Problema de recuento distinto ), MEDIANy MODE.

Estas funciones se denominan funciones de agregación descomponibles ^[4] o funciones agregadas descomponibles . Las más simples pueden denominarse funciones de agregación autodescomponibles , que se definen como aquellas funciones $f$ tales que existe un operador de fusión ⁠ ⁠ $\diamante$ tal que

f(X\uplus Y)=f(X)\diamante f(Y)

donde ⁠ ⁠ $\uplus$ es la unión de multiconjuntos (ver homomorfismo monoide ).

Por ejemplo, SUM:

\operatorname {SUMA} ({x})=x

, para un singleton;

\operatorname {SUMA} (X\umás Y)=\operatorname {SUMA} (X)+\operatorname {SUMA} (Y)

, lo que significa que la fusión es simplemente

\diamante

una adición.

COUNT:

\operatorname {CONTAR} ({x})=1

\operatorname {CONTAR} (X\umás Y)=\operatorname {CONTAR} (X)+\operatorname {CONTAR} (Y)

MAX:

\operatorname {MAX} ({x})=x

\operatorname {MAX} (X\uplus Y)=\max {\bigl (}\operatorname {MAX} (X),\operatorname {MAX} (Y){\bigr )}

MIN:

{\estilo de texto \nombre del operador {MIN} ({x})=x}

, ^[2]

\operatorname {MIN} (X\uplus Y)=\min {\bigl (}\operatorname {MIN} (X),\operatorname {MIN} (Y){\bigr )}

Téngase en cuenta que las funciones de agregación autodescomponibles se pueden combinar (formalmente, tomando el producto) aplicándolas por separado, de modo que, por ejemplo, se pueden calcular SUMy COUNTal mismo tiempo, rastreando dos números.

De manera más general, se puede definir una función de agregación descomponible $f$ como aquella que se puede expresar como la composición de una función final $g$ y una función de agregación autodescomponible $h$ , . Por ejemplo, = / y = − . $f=g\circ h,f(X)=g(h(X))$ AVERAGESUMCOUNTRANGEMAXMIN

En el marco de MapReduce , estos pasos se conocen como InitialReduce (valor en un registro individual/conjunto singleton), Combine (fusión binaria en dos agregaciones) y FinalReduce (función final en valores auxiliares), ^[5] y mover la agregación descomponible antes de la fase Shuffle se conoce como un paso InitialReduce, ^[6]

Las funciones de agregación descomponibles son importantes en el procesamiento analítico en línea (OLAP), ya que permiten que las consultas de agregación se calculen en los resultados precalculados en el cubo OLAP , en lugar de en los datos base. ^[7] Por ejemplo, es fácil admitir COUNT, MAX, MINy SUMen OLAP, ya que se pueden calcular para cada celda del cubo OLAP y luego resumir ("acumular"), pero es difícil admitir MEDIAN, ya que se debe calcular para cada vista por separado.

Otras funciones agregadas descomponibles

Para calcular la media y la desviación típica de los datos agregados, es necesario disponer para cada grupo: el total de valores (Σx _i = SUMA(x)), el número de valores (N=CONTAR(x)) y el total de cuadrados de los valores (Σx _i² =SUMA(x ² )) de cada grupo. ^[8]

AVG : o bien, sólo si CONTAR(X)=CONTAR(Y) : La suma de los cuadrados de los valores es importante para calcular la desviación típica de los grupos : Para una población finita con probabilidades iguales en todos los puntos, tenemos ^[9]^[^{referencia circular}^] $\operatorname {AVG} (X\uplus Y)={\bigl (}\operatorname {AVG} (X)*\operatorname {COUNT} (X)+\operatorname {AVG} (Y)*\operatorname {COUNT} (Y){\bigr )}/{\bigl (}\operatorname {COUNT} (X)+\operatorname {COUNT} (Y){\bigr )}$
$\operatorname {AVG} (X\uplus Y)={\bigl (}\operatorname {SUMA} (X)+\operatorname {SUMA} (Y){\bigr )}/{\bigl (}\operatorname {CONTAR} (X)+\operatorname {CONTAR} (Y){\bigr )}$
$\operatorname {AVG} (X\uplus Y)={\bigl (}\operatorname {AVG} (X)+\operatorname {AVG} (Y){\bigr )}/2$
SUM(x²)
$\operatorname {SUMA} (X^{2}\uplus Y^{2})=\operatorname {SUMA} (X^{2})+\operatorname {SUMA} (Y^{2})$
STDDEV
$\operatorname {STDDEV} (X)=s(x)={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}}={\sqrt {{\frac {1}{N}}\left(\sum _{i=1}^{N}x_{i}^{2}\right)-({\overline {x}})^{2}}}={\sqrt {\operatorname {SUM} (x^{2})/\operatorname {COUNT} (x)-\operatorname {AVG} (x)^{2}}}$

Esto significa que la desviación estándar es igual a la raíz cuadrada de la diferencia entre el promedio de los cuadrados de los valores y el cuadrado del valor promedio. $\operatorname {STDDEV} (X\uplus Y)={\sqrt {\operatorname {SUM} (X^{2}\uplus Y^{2})/\operatorname {COUNT} (X\uplus Y)-\operatorname {AVG} (X\uplus Y)^{2}}}$ $\operatorname {STDDEV} (X\uplus Y)={\sqrt {{\bigl (}\operatorname {SUM} (X^{2})+\operatorname {SUM} (Y^{2}){\bigr )}/{\bigl (}\operatorname {COUNT} (X)+\operatorname {COUNT} (Y){\bigr )}-{\bigl (}(\operatorname {SUM} (X)+\operatorname {SUM} (Y))/(\operatorname {COUNT} (X)+\operatorname {COUNT} (Y)){\bigr )}^{2}}}$

Véase también

Referencias

^ Jesús, Baquero & Almeida 2011, 2 Definición del problema, págs.3.
^ ab Winand, Markus (15 de mayo de 2017). "Grandes novedades en bases de datos: nuevo estándar SQL, guerras en la nube y ACIDRain (primavera de 2017)". DZone. Archivado desde el original el 27 de mayo de 2017. Consultado el 10 de junio de 2017. En diciembre de 2016, ISO lanzó una nueva versión del estándar SQL . Presenta nuevas características como coincidencia de patrones de filas, listagg, formato de fecha y hora y compatibilidad con JSON.
^ Elmasri, Ramez (2016). Fundamentos de los sistemas de bases de datos. Sham Navathe (Séptima edición). Hoboken, NJ. p. 133. ISBN 978-0-13-397077-7. OCLC 913842106.{{cite book}}: CS1 maint: location missing publisher (link)
^ Jesús, Baquero y Almeida 2011, 2.1 Funciones descomponibles, págs.
^ Yu, Gunda e Isard 2009, 2. Agregación distribuida, págs.
^ Yu, Gunda & Isard 2009, 2. Agregación distribuida, p. 1.
^ Zhang 2017, pág. 1.
^ Ing. Óscar Bonilla, MBA
^ Desviación estándar#Identidades y propiedades matemáticas

Literatura

Grabisch, Michel; Marichal, Jean-Luc; Mesiar, Radko; Pap, Endre (2009). Funciones de agregación . Enciclopedia de matemáticas y sus aplicaciones. Vol. 127. Cambridge: Cambridge University Press . ISBN. 978-0-521-51926-7.Zbl 1196.00002 .
Funciones agregadas de Oracle: ejemplos de MAX, MIN, COUNT, SUM y AVG

Yu, Yuan; Gunda, Pradeep Kumar; Isard, Michael (2009). Agregación distribuida para computación paralela de datos: interfaces e implementaciones. Simposio ACM SIGOPS 22 sobre principios de sistemas operativos. ACM . págs. 247–260. doi :10.1145/1629575.1629600.
Jesús, Paulo; Baquero, Carlos; Almeida, Paulo Sergio (2011). "Una encuesta sobre algoritmos de agregación de datos distribuidos". arXiv : 1110.0725 [cs.DC].
Zhang, Chao (2017). Función agregada simétrica y asimétrica en computación masivamente paralela (informe técnico).

Enlaces externos

Funciones agregadas (Transact-SQL)