Promedios móviles Promedios móviles Con conjuntos de datos convencionales, el valor medio suele ser el primero, y uno de los más útiles, estadísticas de resumen para calcular. Cuando los datos están en forma de series temporales, la media de la serie es una medida útil, pero no refleja la naturaleza dinámica de los datos. Los valores medios calculados en periodos de cortocircuito, ya sea antes del período actual o centrados en el período actual, suelen ser más útiles. Debido a que tales valores medios variarán, o se moverán, a medida que el período actual se desplaza desde el tiempo t2, t3, etc., se conocen como medias móviles (Mas). Un promedio móvil simple es (típicamente) el promedio no ponderado de k valores previos. Una media móvil exponencialmente ponderada es esencialmente la misma que una media móvil simple, pero con contribuciones a la media ponderada por su proximidad al tiempo actual. Debido a que no hay una, sino toda una serie de promedios móviles para cualquier serie dada, el conjunto de Mas puede ser trazado en gráficos, analizado como una serie, y utilizado en el modelado y la predicción. Una gama de modelos puede ser construida usando medias móviles, y éstos se conocen como modelos del MA. Si estos modelos se combinan con modelos autorregresivos (AR), los modelos compuestos resultantes se conocen como modelos ARMA o ARIMA (el I es para integrado). Promedios móviles simples Puesto que una serie temporal puede considerarse como un conjunto de valores, t 1,2,3,4, n se puede calcular el promedio de estos valores. Si asumimos que n es bastante grande, y seleccionamos un entero k que es mucho menor que n. Podemos calcular un conjunto de promedios de bloques, o medias móviles simples (de orden k): Cada medida representa el promedio de los valores de datos sobre un intervalo de k observaciones. Obsérvese que la primera MA posible de orden k gt0 es que para t k. De forma más general, podemos eliminar el subíndice extra en las expresiones anteriores y escribir: Esto indica que la media estimada en el tiempo t es el promedio simple del valor observado en el tiempo t y los pasos de tiempo anteriores k -1. Si se aplican pesos que disminuyen la contribución de las observaciones que están más lejos en el tiempo, se dice que el promedio móvil se alisa exponencialmente. Los promedios móviles se usan a menudo como una forma de pronóstico, por lo que el valor estimado para una serie en el tiempo t 1, S t1. Se toma como la MA para el período hasta e incluyendo el tiempo t. p. ej. La estimación de hoy se basa en un promedio de valores anteriores registrados hasta e incluyendo ayer (para datos diarios). Los promedios móviles simples pueden ser vistos como una forma de suavizado. En el ejemplo ilustrado a continuación, el conjunto de datos sobre contaminación atmosférica que se muestra en la introducción a este tema se ha aumentado con una línea de 7 días de media móvil (MA), que se muestra aquí en rojo. Como se puede ver, la línea de MA suaviza los picos y valles en los datos y puede ser muy útil para identificar las tendencias. La fórmula estándar de cálculo de forward significa que los primeros k -1 puntos de datos no tienen ningún valor MA, pero a partir de entonces los cálculos se extienden hasta el punto final de datos de la serie. Una razón para calcular promedios móviles simples de la manera descrita es que permite calcular los valores para todos los intervalos de tiempo desde el tiempo tk hasta el presente, y A medida que se obtiene una nueva medida para el tiempo t1, se puede añadir el MA del tiempo t1 al conjunto ya calculado. Esto proporciona un procedimiento sencillo para conjuntos de datos dinámicos. Sin embargo, hay algunos problemas con este enfoque. Es razonable argumentar que el valor medio en los últimos 3 períodos, digamos, debería estar situado en el tiempo t -1, no en el tiempo t. Y para una MA sobre un número par de períodos tal vez debería estar situado en el punto medio entre dos intervalos de tiempo. Una solución a este problema es usar cálculos de MA centrados, en los que la MA en el tiempo t es la media de un conjunto simétrico de valores alrededor de t. A pesar de sus obvios méritos, este enfoque no se utiliza generalmente porque requiere que los datos estén disponibles para eventos futuros, lo que puede no ser el caso. En casos donde el análisis es enteramente de una serie existente, el uso de Mas centrado puede ser preferible. Los promedios móviles simples pueden considerarse como una forma de suavizado, eliminando algunos componentes de alta frecuencia de una serie temporal y destacando (pero no eliminando) las tendencias de manera similar a la noción general de filtrado digital. De hecho, las medias móviles son una forma de filtro lineal. Es posible aplicar un cálculo del promedio móvil a una serie que ya ha sido suavizada, es decir, suavizar o filtrar una serie ya suavizada. Por ejemplo, con un promedio móvil de orden 2, podemos considerar que se calcula usando pesos, por lo que la MA en x 2 0,5 x 1 0,5 x 2. Igualmente, la MA en x 3 0,5 x 2 0,5 x 3. Si Aplicar un segundo nivel de suavizado o filtrado, tenemos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 es decir, el filtro de 2 etapas Proceso (o convolución) ha producido una media móvil simétrica ponderada variablemente, con pesos. Las convoluciones múltiples pueden producir promedios móviles ponderados bastante complejos, algunos de los cuales se han encontrado de uso particular en campos especializados, como en los cálculos del seguro de vida. Medias móviles se pueden utilizar para eliminar los efectos periódicos si se calcula con la longitud de la periodicidad como un conocido. Por ejemplo, con datos mensuales, las variaciones estacionales pueden ser eliminadas (si este es el objetivo) aplicando una media móvil simétrica de 12 meses con todos los meses ponderados igualmente, excepto el primero y el último que se ponderan en 1/2. Esto es porque habrá 13 meses en el modelo simétrico (tiempo actual, t. / - 6 meses). El total se divide por 12. Se pueden adoptar procedimientos similares para cualquier periodicidad bien definida. Promedios móviles ponderados exponencialmente (EWMA) Con la fórmula del promedio móvil simple: todas las observaciones son igualmente ponderadas. Si llamamos a estos pesos iguales, alfa t. Cada uno de los k pesos sería igual a 1 / k. Por lo que la suma de los pesos sería 1, y la fórmula sería: Ya hemos visto que las aplicaciones múltiples de este proceso resultan en los pesos que varían. Con las medias móviles exponencialmente ponderadas, se reduce la contribución al valor medio de las observaciones que se eliminan más en el tiempo, haciendo hincapié en los acontecimientos más recientes (locales). Esencialmente se introduce un parámetro de suavizado, 0lt alfa lt1, y la fórmula se revisa a: Una versión simétrica de esta fórmula sería de la forma: Si los pesos en el modelo simétrico son seleccionados como los términos de los términos de la expansión binomial, (1/21/2) 2q. Se sumarán a 1, y cuando q se haga grande, se aproximará a la distribución Normal. Esta es una forma de peso del núcleo, con el binomio actuando como la función del núcleo. La convolución de dos etapas descrita en la subsección anterior es precisamente esta disposición, con q1, dando los pesos. En el suavizado exponencial es necesario utilizar un conjunto de pesos que suman a 1 y que se reducen en tamaño geométricamente. Los pesos utilizados son típicamente de la forma: Para mostrar que estos pesos suman a 1, considere la expansión de 1 / como una serie. Podemos escribir y expandir la expresión entre paréntesis usando la fórmula binomial (1-x) p. Donde x (1-) y p -1, lo que da: Esto proporciona entonces una forma de media móvil ponderada de la forma: Esta suma puede escribirse como una relación de recurrencia: lo que simplifica enormemente el cálculo y evita el problema de que el régimen de ponderación Debe ser estrictamente infinito para que los pesos sumen a 1 (para valores pequeños de alfa, esto no suele ser el caso). La notación utilizada por diferentes autores varía. Algunos usan la letra S para indicar que la fórmula es esencialmente una variable suavizada y escriben: mientras que la literatura de la teoría de control usualmente usa Z en lugar de S para los valores exponencialmente ponderados o suavizados (véase, por ejemplo, Lucas y Saccucci, 1990, LUC1 , Y el sitio web del NIST para más detalles y ejemplos trabajados). Las fórmulas citadas anteriormente derivan del trabajo de Roberts (1959, ROB1), pero Hunter (1986, HUN1) utiliza una expresión de la forma: que puede ser más apropiada para su uso en algunos procedimientos de control. Con alfa 1, la estimación media es simplemente su valor medido (o el valor del elemento de datos anterior). Con 0.5 la estimación es el promedio móvil simple de las mediciones actuales y anteriores. En los modelos de predicción el valor, S t. Se utiliza a menudo como estimación o valor de pronóstico para el siguiente período de tiempo, es decir, como la estimación de x en el tiempo t 1. Así, tenemos: Esto muestra que el valor pronosticado en el tiempo t 1 es una combinación de la media móvil ponderada exponencial anterior Más un componente que representa el error de predicción ponderado, epsilon. En el tiempo t. Suponiendo que se da una serie de tiempo y se requiere una predicción, se requiere un valor para alfa. Esto puede estimarse a partir de los datos existentes mediante la evaluación de la suma de los errores de predicción al cuadrado obtenidos con valores variables de alfa para cada t 2,3. Estableciendo la primera estimación como el primer valor de datos observado, x 1. En aplicaciones de control, el valor de alfa es importante porque se usa en la determinación de los límites de control superior e inferior y afecta a la longitud de ejecución media (ARL) esperada Antes de que estos límites de control se rompen (bajo el supuesto de que las series temporales representan un conjunto de variables independientes aleatorias, distribuidas de forma idéntica con varianza común). En estas circunstancias, la varianza de la estadística de control es (Lucas y Saccucci, 1990): Los límites de control se establecen usualmente como múltiplos fijos de esta varianza asintótica, p. / - 3 veces la desviación estándar. Si alfa 0.25, por ejemplo, y se supone que los datos que se están supervisando tienen una distribución Normal, N (0,1), cuando están en control, los límites de control serán / - 1.134 y el proceso alcanzará uno u otro límite en 500 Pasos en promedio. Lucas y Saccucci (1990 LUC1) derivan los ARLs para una amplia gama de valores alfa y bajo diversas suposiciones usando procedimientos de cadena de Markov. Ellos tabulan los resultados, incluyendo el suministro de ARLs cuando la media del proceso de control ha sido desplazada por un múltiplo de la desviación estándar. Por ejemplo, con un cambio de 0.5 con alfa 0.25 el ARL es menos de 50 pasos de tiempo. Los enfoques descritos anteriormente se conocen como suavizado exponencial simple. Ya que los procedimientos se aplican una vez a la serie temporal y luego los procesos de análisis o control se llevan a cabo en el conjunto de datos suavizado resultante. Si el conjunto de datos incluye una tendencia y / o componentes estacionales, se puede aplicar el suavizado exponencial de dos o tres etapas como un medio para eliminar (modelar explícitamente) estos efectos (véase más adelante la sección sobre Pronóstico y el ejemplo trabajado del NIST ). CHA1 Chatfield C (1975) El Análisis de la Serie de Tiempos: Teoría y Práctica. Chapman y Hall, Londres HUN1 Hunter J S (1986) La media móvil exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de control del promedio móvil ponderado exponencialmente: Propiedades y mejoras. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Pruebas de gráficos de control basadas en medias móviles geométricas. Technometrics, 1, 239-250David, Sí, MapReduce está diseñado para operar en una gran cantidad de datos. Y la idea es que en general, el mapa y las funciones de reducción no deberían cuidar cuántos mapeadores o cuántos reductores hay, esa es sólo la optimización. Si piensas cuidadosamente sobre el algoritmo que publiqué, puedes ver que no importa qué asignador obtiene qué partes de los datos. Cada registro de entrada estará disponible para cada operación de reducción que lo necesite. Ndash Joe K Sep 18 12 at 22:30 En el mejor de mi entendimiento el promedio móvil no está bien mapas al paradigma de MapReduce ya que su cálculo es esencialmente la ventana deslizante sobre datos ordenados, mientras que MR es el procesamiento de los rangos no intersectados de los datos ordenados. Solución que veo es como sigue: a) Para implementar particionador personalizado para poder hacer dos particiones diferentes en dos ejecuciones. En cada ejecución, los reductores obtendrán diferentes rangos de datos y calcularán el promedio móvil cuando sea apropiado. Voy a tratar de ilustrarlo: En la primera ejecución, los datos de los reductores deberían ser: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Aquí usted cacluate el promedio móvil para algunos Qs. En la próxima ejecución, los reductores deberían obtener datos como: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Y caclular el resto de promedios móviles. A continuación, tendrá que agregar los resultados. Idea de particionista personalizado que tendrá dos modos de funcionamiento - cada vez que se divide en rangos iguales, pero con algún cambio. En un pseudocódigo se verá así. Partición (keySHIFT) / (MAXKEY / numOfPartitions) donde: SHIFT se tomará de la configuración. MAXKEY valor máximo de la clave. Supongo que por simplicidad empiezan con cero. RecordReader, IMHO no es una solución ya que se limita a la división específica y no se puede deslizar sobre el límite de divisiones. Otra solución sería implementar la lógica personalizada de dividir datos de entrada (es parte del InputFormat). Se puede hacer para hacer 2 diapositivas diferentes, similar a la partición. Responde Sep 17 12 at 8: 59Method of Moving Averages Los comentarios están apagados Supongamos que hay períodos de tiempo denotados por y los valores correspondientes de la variable son. En primer lugar tenemos que decidir el período de las medias móviles. Para series cortas de tiempo, usamos el período de 3 o 4 valores. Para series largas de tiempo, el período puede ser 7, 10 o más. Para las series de tiempo trimestrales, siempre calculamos promedios tomando 4 cuartos a la vez. En series mensuales, se calculan los promedios móviles 12-mensuales. Supongamos que la serie temporal dada es en años y hemos decidido calcular una media móvil de 3 años. Los promedios móviles denotados por se calculan como a continuación:
No comments:
Post a Comment