AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la...

14
AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE HIDRÁULICA CARTAGENA DE INDIAS COLOMBIA, SEPTIEMBRE 2008 APLICACIÓN DE LA DISTRIBUCIÓN GENERALIZADA DE PARETO PARA LA DETECCIÓN DE COLAS PESADAS EN CAUDALES MÁXIMOS EN RÍOS DEL AMAZONAS Y DE LA ZONA ANDINA COLOMBIANA Juan Mauricio Bedoya Soto, Germán Poveda Jaramillo Escuela Geociencias y Medio Ambiente, Facultad de Minas, Universidad Nacional de Colombia, Medellín, Colombia [email protected] , [email protected] RESUMEN: Se analiza la posible existencia de colas pesadas en las funciones de distribución de probabilidades de series de caudales máximos en ríos de la cuenca Amazónica y de la región Andina de Colombia. Para ello se usan las metodologías POT (Peaks Over Treshold) y de la Distribución Generalizada de Pareto. Se utiliza información de 44 estaciones de registro de caudales diarios, 10 de ellas localizadas en la cuenca Amazónica y 34 en la zona Andina de Colombia.. Se encuentra que no es posible aceptar la hipótesis de existencia de colas pesadas en ninguna de las series de caudales de la cuenca Amazónica. Se conjetura que la hipótesis es rechazada en las estaciones de la cuenca Amazónica debido a sus grandes áreas de drenaje y grandes llanuras de inundación que definen un flujo bi-dimensional con alto amortiguamiento de las inundaciones en épocas de altos caudales. Para la gran mayoría (29 de 34) de las series de caudales máximos anuales de los ríos en la región Andina de Colombia, tampoco se acepta la hipótesis de existencia de colas pesadas. Para aquellos casos en los cuales sí se pudo aceptar la hipótesis de existencia de colas pesadas (5 de 34), el modelo es suficientemente capaz de representar en forma adecuada los eventos extremos que históricamente se han registrado, por lo que es posible predecir con un buen grado de confianza cuantiles asociados a altos periodos de retorno. En general, el ajuste de los datos a la distribución Generalizada de Pareto presenta una alta sensibilidad a la elección del umbral a partir del cual se realiza la modelación. ABSTRACT: The authors investigate the possible occurrence of heavy tails distributions in the flood probability distribution of some Amazon’s Basin rivers and Andean Basin of Colombian’s rivers. The peaks over threshold method (POT) and Generalized Pareto Distribution (GPD) has been used. Information about 44 daily discharge series is analyzed, 10 of them are localized in the Amazon Basin and the 34 correspond to Andean Colombia Region. It is found is not possible to accept the hypothesis of heavy tails existence on Amazon’s Rivers information analyzed, it is believed that is due to the large drainage basin and large flood plains areas found in that region.. Those features define a bi-dimensional flow that is able to absorb floods in higher discharge seasons. In most of the flood data stations localized in the Andean region of Colombia (29 of 34) is not possible to accept the hypothesis neither. While the hypothesis of heavy tails occurrence was accepted (5 of 34), the model is able enough to represent the historic flood events registered, for that reason it is possible to predict quantiles related to high return periods. In general, it has been detected a high sensitive to threshold choice when the data are fitted to the Generalized Pareto Distribution. PALABRAS CLAVES: Generalizada de Pareto, Caudales Máximos, Colas pesadas

Transcript of AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la...

Page 1: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE HIDRÁULICA CARTAGENA DE INDIAS COLOMBIA, SEPTIEMBRE 2008

APLICACIÓN DE LA DISTRIBUCIÓN GENERALIZADA DE PARETO PARA LA DETECCIÓN DE COLAS PESADAS EN CAUDALES MÁXIMOS

EN RÍOS DEL AMAZONAS Y DE LA ZONA ANDINA COLOMBIANA

Juan Mauricio Bedoya Soto, Germán Poveda Jaramillo Escuela Geociencias y Medio Ambiente, Facultad de Minas, Universidad Nacional de Colombia, Medellín, Colombia

[email protected], [email protected] RESUMEN: Se analiza la posible existencia de colas pesadas en las funciones de distribución de probabilidades de series de caudales máximos en ríos de la cuenca Amazónica y de la región Andina de Colombia. Para ello se usan las metodologías POT (Peaks Over Treshold) y de la Distribución Generalizada de Pareto. Se utiliza información de 44 estaciones de registro de caudales diarios, 10 de ellas localizadas en la cuenca Amazónica y 34 en la zona Andina de Colombia.. Se encuentra que no es posible aceptar la hipótesis de existencia de colas pesadas en ninguna de las series de caudales de la cuenca Amazónica. Se conjetura que la hipótesis es rechazada en las estaciones de la cuenca Amazónica debido a sus grandes áreas de drenaje y grandes llanuras de inundación que definen un flujo bi-dimensional con alto amortiguamiento de las inundaciones en épocas de altos caudales. Para la gran mayoría (29 de 34) de las series de caudales máximos anuales de los ríos en la región Andina de Colombia, tampoco se acepta la hipótesis de existencia de colas pesadas. Para aquellos casos en los cuales sí se pudo aceptar la hipótesis de existencia de colas pesadas (5 de 34), el modelo es suficientemente capaz de representar en forma adecuada los eventos extremos que históricamente se han registrado, por lo que es posible predecir con un buen grado de confianza cuantiles asociados a altos periodos de retorno. En general, el ajuste de los datos a la distribución Generalizada de Pareto presenta una alta sensibilidad a la elección del umbral a partir del cual se realiza la modelación. ABSTRACT: The authors investigate the possible occurrence of heavy tails distributions in the flood probability distribution of some Amazon’s Basin rivers and Andean Basin of Colombian’s rivers. The peaks over threshold method (POT) and Generalized Pareto Distribution (GPD) has been used. Information about 44 daily discharge series is analyzed, 10 of them are localized in the Amazon Basin and the 34 correspond to Andean Colombia Region. It is found is not possible to accept the hypothesis of heavy tails existence on Amazon’s Rivers information analyzed, it is believed that is due to the large drainage basin and large flood plains areas found in that region.. Those features define a bi-dimensional flow that is able to absorb floods in higher discharge seasons. In most of the flood data stations localized in the Andean region of Colombia (29 of 34) is not possible to accept the hypothesis neither. While the hypothesis of heavy tails occurrence was accepted (5 of 34), the model is able enough to represent the historic flood events registered, for that reason it is possible to predict quantiles related to high return periods. In general, it has been detected a high sensitive to threshold choice when the data are fitted to the Generalized Pareto Distribution. PALABRAS CLAVES: Generalizada de Pareto, Caudales Máximos, Colas pesadas

Page 2: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

INTRODUCCIÓN El análisis probabilístico de eventos extremos de fenómenos naturales (sismos, inundaciones, etc.) tiene múltiples aplicaciones prácticas. Este interés se ha traducido en el desarrollo de la Teoría de Valores Extremos (TVE), que se ocupa de modelos y métodos paramétricos y no paramétricos con el objeto de describir, cuantificar y modelar los eventos raros, es decir aquellos que se distribuyen, no bajo la ‘ley de los grandes números’, sino bajo la ley de los pequeños números. La TVE ha experimentado un importante desarrollo en los últimos 50 años, gracias a su aplicabilidad a múltiples disciplinas, tales como mercados financieros, sector asegurador, ingenierías, biología, hidrología, medio ambiente, etc. (García, 2002). Muchas tareas de diseño en hidrología hacen uso de la estructura probabilística de las series de caudales extremos (máximos y mínimos) anuales. Por ello es necesario hacer una identificación y caracterización adecuada de la función de distribución de probabilidades (FDP) que represente de manera más adecuada la naturaleza aleatoria de los procesos hidrológicos. En particular, las colas de las FDP son de especial interés ya que definen la probabilidad de ocurrencia de eventos extremos, como es el caso de la cola derecha de la FDP para los caudales máximos diarios ó instantáneos anuales. Las FDP más ampliamente usadas para describir la distribución de caudales máximos son las distribuciones Weibull, Gamma, Gumbel, logNormal y Gamma logarítmica, entre otras. Hay evidencias de la existencia de colas pesadas (decaimiento potencial y no exponencial) en la FDP de los caudales máximos (Pisarenko et al., 2002; Bernardara et al., 2006). El objetivo de este trabajo es cuantificar la presencia de colas pesadas en las FDP de series de caudales máximos anuales en ríos localizados en la cuenca Amazónica y en la región Andina de Colombia y, dado el caso, estimar los parámetros asociados, haciendo uso de las metodologías conocidas como POT (“Peaks Over Treshold”) y la Distribución Generalizada de Pareto (DGP). En el numeral 2 se presentan los métodos de análisis y la información utilizada, en el numeral 3 se analizan los resultados encontrados en relación con para los planteamientos teóricos y metodológicos aplicados, y en la sección final se presentan las conclusiones. DATOS Y METODOS Para el análisis se utiliza información de registros limnigráficos y limnimétricos diarios correspondientes a 44 estaciones, de las cuales 10 están distribuidas en la cuenca Amazonia del Brasil, y 34 en la región Andina de Colombia. En el caso de la Amazonia, la información fue obtenida de la base de datos del WHYBAM (http://mercury.ornl.gov/metadata/lba/html/lba/lba.cptec.inpe.br_harvest_gcochonneau_metadata_whybam.html ) y del programa de investigacion LBA (http://lba.cptec.inpe.br). Las series de caudales medios anuales fueron extractadas del Atlas Hidrológico de la Hidrología de Colombia (HIDROSIG), cuyos detalles se discuten en los trabajos de Poveda et al. (2007a y 2007b). La información sobre las estaciones de registros usadas se detalla en las Tablas 1 y 2, así como en las Figuras 1 y 2. El criterio para la selección de estas estaciones fue disponer de un periodo mínimo de registro de 15 años.

Page 3: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

! !

!

!

!

!

!

!

!

!

-78 -66 -54

-18

-66

! Estaciones de estudio

Amazonia

.0 440 880 1320 1760220

km

Localización estaciones estudio - Amazonas

Georef. Lat-Long

Figura 1. Localización de estaciones limnimétricas de estudio, ubicada en la cuenca Amazónica con

georeferenciación Lat-Long.

Tabla 1. Detalle estaciones Amazonas ESTACION Corriente Área de la cuenca (km2) n (años)

11400000 Solimoes 990.781 28 11500000 Solimoes 1.134.540 29 13870000 Purus 220.351 35 14100000 Solimoes 2.147.740 30 14710000 Branco 124.980 34 15250000 Mamore 589.497 32 15400000 Madeira 954.285 35 15860000 Madeira 1.324.730 33 18850000 Xingu 446.203 34

19150000 Jari 51.340 30

ASPECTOS TEÓRICOS LEY GENERALIZADA DE PARETO Y EL MÉTODO DE EXCESOS POR ENCIMA DE UN UMBRAL (POT) La Teoría de Valores Extremos (TVE) utilizada en este trabajo es la denominada de “Excesos sobre un Umbral” (POT-Peaks Over a Threshold); la cual ofrece un método para estimar el tipo de cola de la FDP. La Distribución Generalizada de Pareto, (GPD, Generalized Pareto Distribution) puede contener a la gran mayoría de FDP continuas usada en estadística y ciencias (Normal, LogNormal, Chi-cuadrado, F, t de Student, Gamma, Exponencial, Uniforme, Beta, etc.), para un umbral (u) suficientemente alto.

Page 4: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

!

!

!

!

!

!!

!

!

! !!!

!!! !

!!!

!

!!

!!

!!

!

!

!! !

!

!

!

!

!

! !!

!

!

!!

!

800000 1400000

4000

0010

0000

016

0000

0

µ130 0 130 260 390 52065

km

mdtValue

High : 5628

Low : 1

! EstacionesCaudal

Localización estaciones estudio - Colombia

Escala Figura 2. Localización de estaciones

limnimétricas de estudio, ubicadas en el territorio Colombiano con georeferenciación Bogotá.

Adicionalmente, el método requiere que exista una cantidad suficiente de datos que estén por encima de dicho umbral. Si estas dos condiciones se cumplen, la metodología de POT permite usar la GPD como una herramienta adecuada para modelar los eventos extremos. Sea X1,…,Xn, secuencia de observaciones independientes e idénticamente distribuidas (i.i.d.) con una función de distribución desconocida, F. Estamos interesados en los valores extremos por encima de un umbral alto, u. Se denota como x0 el punto límite derecho de la distribución F, es

CODIGO CORRIENTE DEP COTA Periodo Registro

1104701 ATRATO CHOC 27 1974 1998

1606701 CATATUMBO NORT 45 1971 1998

2109707 MAGDALENA HUIL 430 1961 1995

2121719 Q_PERLAS TOLI 1760 1972 1994

2306702 NEGRO CUND 286 1980 1994

2308703 Q_LA_MOSCA ANTI 2080 1955 1990

2312702 CARARE SANT 92 1969 1998

2406701 SOGAMOSO SANT 192 1969 1998

2602705 CAUCA CAUC 1070 1947 1993

2612704 LA_VIEJA VALL 914 1971 1998

2612709 BARBAS RISA 1162 1978 1994

2612710 BARBAS RISA 1350 1979 1994

2613711 OTUN RISA 1530 1972 1994

2614704 RISARALDA CALD 1140 1966 1994

2614705 RISARALDA CALD 1183 1970 1994

2614713 MAPA CALD 1080 1978 1994

2614714 RISARALDA CALD 920 1975 1994

2616706 TAPIAS CALD 800 1978 1994

2616707 CAUCA CALD 775 1972 1994

2617701 SUPIA CALD 1200 1978 1994

2617703 CAUCA RISA 900 1969 1994

2618704 ARMA CALD 580 1974 1994

2618711 CAUCA CALD 560 1969 1994

2701703 GRANDE ANTI 2160 1956 1991

2701709 Q_PIEDRAS_B ANTI 2352 1936 1948

2701736 PORCE ANTI 1055 1973 1994

2701789 Q_LOS_PINOS ANTI 1770 1977 1992

2703701 NECHI ANTI 33 1969 1998

3502714 GUAYURIBA META 520 1969 1994

3506704 GUAVIO CUND 1620 1963 1996

3507708 SOMONDOCO BOYA 1350 1974 1989

3507712 GARAGOA BOYA 1283 1974 1989

3510704 UPIA CASA 325 1975 1989

5201701 PATIA NARI 463 1967 2000

Page 5: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

decir { } ∞≤<ℜ∈= 10 F(x)xsupx : . Se define la función de distribución de los excesos sobre un umbral como:

{ })(1

)()()(uF

uFuyFuXyuXPyFu −−+

=>≤−= (1)

para uxx −≤≤ 00 , donde )(xFu es la probabilidad que una observación exceda el umbral, u, en no mas de una cantidad x, si el umbral es excedido. Pickands et al. (1975), mediante un resultado límite, concluyen que la distribución de los excesos puede ser aproximada en forma adecuada a la Función Generalizada de Pareto, una distribución de dos parámetros, de la forma: (2) Cuando el parámetro de forma o índice de cola, k , es positivo indica que la FDP subyacente pertenece a la familia de distribuciones de cola pesada, o aquellas que están en el domino de máxima atracción de la función de distribución Frechet dado que la cola de la distribución decae como una función potencial, kxxF −~)( (Pisarenko et al., 2002). De otro lado cuando 0k = se trata de una FDP con ley de decaimiento exponencial. Cuando 0k < se trata de una FDP limitada superior tal como la FDP Beta. Tanto el parámetro de forma, k , como el de escala, σ , deben ser determinados mediante el ajuste de la GPD a los datos reales. Para este trabajo, estos fueron estimados con métodos paramétricos y semiparamétricos que serán presentados en secciones posteriores. Las consideraciones teóricas expuestas sugieren que cuando se tiene datos cuyas distribuciones subyacentes son desconocidas, es posible aproximar en forma adecuada la distribución de los excesos sobre umbrales suficientemente altos con una distribución generalizada de Pareto, ( )xGk σ, para algunos valores de k y de σ . Cuando los parámetros de la GPD son estimados es posible calcular los cuantiles de la FDP, a partir de la ecuación (1) y notando que uyx += , es

[ ] )()()(1)( uFyFuFxF u +−= (3)

Teniendo un umbral apropiado u , el estimador empírico para ( )uFu es N

nNuF u−=)(ˆ donde N

es el número total de observaciones, y un representa la cantidad de datos que exceden el umbral. Para un umbral suficientemente grande (resultado límite), se puede asumir que la distribución de los excesos, ( )yFu , se comportará exactamente como la GPD. Si reemplazamos en la ecuación (3), se obtiene que:

[ ] ( ) )()(1)( , uFxGuFxF k +−= σ (4) Esta expresión se puede simplificar como

( )

,

⎪⎪⎪

⎪⎪⎪

−≤≤=−−

≥>⎟⎠⎞

⎜⎝⎛ +−

=

kx0kx

0x para0kxk

xG

k

k

/0),/exp(1

,,111

,

σσ

σ

σ

Page 6: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

κ

σκ /1

11)(−

⎟⎠⎞

⎜⎝⎛ +−= y

Nn

xF u (5)

Invirtiendo la expresión anterior es posible obtener una expresión para los cuantiles asociados a un nivel de confianza p.

⎟⎟

⎜⎜

⎛−⎟⎟

⎞⎜⎜⎝

⎛+=

1k

up p

nN

kuq σ

(6)

En resumen, el ajuste de la Distribución Generalizada de Pareto a un conjunto de observaciones implica dos cuestiones: la elección del umbral u y la estimación de los parámetros que definen la forma y escala de la función. Para un análisis previo y una estimación visual del signo del parámetro de forma, k , de una variable aleatoria X distribuida bajo la GPD, es conveniente graficar los valores de la muestra ix , versus el logaritmo negativo de la cola de la distribución,

[ ] . )F(x1ln i−− La función de distribución empírica acumulada )F(xi puede ser estimada con el método de Weibull Empírico. Este gráfico es llamado grafico exponencial debido a que este converge a una línea recta si para distribuciones que presentan un comportamiento exponencial en la cola ( 0k = ). Para la distribución Generalizada de Pareto con 0k > el gráfico exponencial crece mas rápido que una línea recta, mientras para 0k < este crece mas lentamente (Bernardara et al., 2006). En la Figura 3 se ilustran los resultados de para distintos valores de k.. Estimadores paramétricos y semiparamétricos

Después de una primera inspección visual, debe realizarse una estimación cuantitativa del comportamiento asintótico de la muestra. Para la estimación de los parámetros de la GPD ajustada a las series de datos analizados se usaron herramientas parámetricas y semiparamétricas. Para la utilización de herramientas parámetricas se elige un modelo de distribución a priori. Los estimadores paramétricos, así como el proceso de optimización para encontrar el mejor ajuste, tienen la ventaja de ser fácilmente definidos. La principal desventaja radica en que todas estas estimaciones son hechas con base en familias de probabilidad adoptadas a priori, y por ello están fuertemente influenciadas por esta elección.

Figura 3. Muestras extraídas desde tres distribuciones diferentes de la GPD con 0k > , 0k = y 0k <

respectivamente

Page 7: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

Como no se conoce con certeza la distribución exacta, hay un riesgo de elegir la distribución equivocada. Además, el proceso de optimización no puede seleccionar las observaciones mas relevantes, aunque pueden ser ponderadas en deferentes formas (Bernardara, 2007). De otro lado los estimadores semi-paramétricos intentan aproximar una función objetivo alrededor de un nivel local, en lugar de elegir un modelo de probabilidad a priori. Entre los estimadores semi-paramétricos el de Hill (Hill, 1975) fue el primero en ser utilizado para la estimación del parámetro de forma de una ley de Pareto. Este tiene la principal ventaja de estimar un solo parámetro de forma para las i observaciones extremas de la muestra de tamaño N )( Ni ≤ . Siguiendo una aproximación semi-paramétrica, se han propuesto diversas generalizaciones del estimador (Beirlant et al. 1996 en Bernardara et al., 2006). La familia de los estimadores de Hill ha sido aplicada a problemas geofísicos e hidrológicos debido a su capacidad de evaluar el comportamiento asintótico de una muestra únicamente sobre la base de las características de la cola. En este trabajo se utilizan dos métodos paramétricos del parámetro de forma de la distribución Generalizada de Pareto: el método de Máxima Verosimilitud (Pisarenko et al., 2002) y el de Momentos L (Hosking et al. 1990), así como dos estimadores semi-paramétricos del comportamiento asintótico de la muestra: Hill y Generalizado de Hill. Sea una variable aleatoria X con una función de densidad )( θxf conocida a priori, dado que θ representa el número de parámetros desconocidos. Una estimación de máxima verosimilitud de θ se obtienen por la maximización sobre θ de la función de verosimilitud, )(θL , definida como:

∏=

=N

jjxfL

1

)()( θθ , (7)

en donde N es el tamaño de la muestra. El estimador de máxima verosimilitud es una herramienta paramétrica asintótica de los parámetros de la GPD. Sin embargo, este estimador es poco confiable para muestras pequeñas (N<500) (Hosking et al. 1987). Para superar esta dificultad, Hosking (1990) introdujo el estimador de Momentos-L, el cual es eficiente en series cortas. Los Momentos –L han son definidos como combinación lineal de los momentos Ms de la FDP, de la forma

(8)

Donde, [ ]s

s XFXEM ))(1( −= (9) En una distribución GPD (Ec. 2), el parámetro k se define en términos de los dos primeros momentos:

221 −= LLkL (10)

Dado que los momentos teóricos y los Momentos-L de una distribución Generalizada de Pareto son infinitos cuando el orden es mayor que k/1 , la condición 1<k es una primera limitación,

⎪⎪⎩

⎪⎪⎨

−+−=+−=

−==

01234

0123

012

01

12302066

2

MMMMLMMML

MMLML

Page 8: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

asumiendo que la media de la población (L1) es finita. Además, la consistencia y normalidad asintótica de los momentos-L son garantizadas sólo para 5.0<k (Hosking et al., 1987). Para una estimación semi-paramétrica de la probabilidad de la cola, es conveniente organizar las observaciones en orden descendente: Ni xxxx >>>>> ......21 , donde N es el tamaño de la muestra; i es el orden descendente de las observaciones. El estimador de Hill es definido como:

N2,...,ixxi

ki

jijiH =−

−= ∑

=

1

1, )ln()ln(

11

(11)

La principal desventaja del estimador de Hill es que es únicamente es relevante para colas pesadas; cualquiera sea el signo real de k , este arroja una estimación positiva de él. Por ello, Beirlant et al. (1996) introdujeron el llamado gráfico cuantil generalizado de [ ] ) F(x)1ln vs.kx iHi −−,ln( y observaron un comportamiento asintótico lineal, cuya pendiente es el índice de valor extremo, k . Ellos mismos introdujeron el estimador Generalizado de Hill basados en el estimador de Hill (Ec. 10), para el gráfico del cuantil generalizado. Este estimador no está solo restringido a colas pesadas (Bernardara et al., 2006): :

N2,...,ixkxki

ki

jiiHjjHiGH =−

−= ∑

=

1

1,,, )ln()ln(

11

(12)

OTROS ASPECTOS METODOLÓGICOS Dado que la extracción de una muestra para un análisis POT (Picos por encima de un umbral) en hidrología, está relacionado con un valor fijo del número promedio de picos anuales Np, este deberia ser mayor que 1 cuando se tiene interés en el método del POT respecto al análisis de máximos anuales (Bernardaza, 2006; Pisarenko, 2002). El primer paso para la realización de este trabajo es la extracción de las series de caudales máximos para cada río, y para ello se utiliza el criterio recomendado por Bernardara (2006) de extraer un número fijo anual, Np=2. A partir de las series de caudales máximos en cada una de las estaciones se calculan las funciones de probabilidad empíricas y se realiza el ajuste exponencial para una primera inspección visual del comportamiento del índice de valor extremo, k . Posteriormente se realiza una cuantificación numérica de este índice bajo los métodos expuestos en el numeral anterior y se analiza la sensibilidad del comportamiento de k en relación con el número i de excesos, considerados en la metodología POT. Este análisis es útil para verificar el comportamiento de la cola y encontrar el número de excesos óptimo para el ajuste de los datos a la Distribución Generalizada de Pareto, usando el valor del parámetro para caracterizar las colas de la FDP. Luego de una estimación óptima de los parámetros para las series de caudales máximos, se analizan los gráficos de la función de distribución empírica versus la función de distribución ajustada, apoyados con gráficos probabilidad-probabilidad para verificar la bondad del ajuste. ANÁLISIS Y DISCUSIÓN DE RESULTADOS PARÁMETRO DE FORMA, k, EN LA CUENCA DEL RÍO AMAZONAS Al realizar la inspección visual en el ajuste exponencial (Figura 4) para las diferentes estaciones analizadas en la cuenca Amazónica se observa, en general, que el comportamiento de su cola

Page 9: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

superior tiende a ser lineal lo cual indica un comportamiento exponencial de las series de caudales máximos.

Figura 4. Gráficos exponenciales calculados para las estaciones de análisis en el Amazonas, además se señalan el área de cuenca asociada a cada estación.

En la Figura 5 se presenta un análisis de sensibilidad del comportamiento de k en relación con el valor de i para las estaciones de la cuenca Amazónica. Tal y como se mencionó, el estimador de Hill siempre arroja valores positivos para el índice de valor extremo k (línea verde en los gráficos de la Figura 5). El método de máxima verosimilitud no converge en muchos de los casos debido al comportamiento mismo de los datos en la función de la verosimilitud (Ec. 7). En general, a través de las estimaciones de los demás métodos empleados se presenta un comportamiento negativo de k para los diferentes excesos evaluados. Este resultado evidencia la ausencia de colas pesadas para las estaciones analizadas en la cuenca Amazónica, usando el método de ajuste discutido. Esto puede estar atribuido a la capacidad de amortiguamiento de los caudales máximos en las cuencas estudiadas de la Amazonía, dadas las grandes áreas de drenaje de los ríos estudiados, especialmente por las extensiones de sus llanuras de inundación.

Page 10: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

Figura 5. Estimación de k versus el número de excesos,i, para las estaciones localizadas en la cuenca del

río Amazonas. La línea azul representa la estimación de k por el método de los momentos-L, en fucsia se representa la estimación del método Generalizado de Hill, en verde la estimación por el método de

Hill y en puntos de color café se muestra la estimación por el método de máxima verosimilitud PARÁMETRO DE FORMA, k, EN RÍOS DE LA REGIÓN ANDINA DE COLOMBIA Los resultados para el parámetro de forma, k, en los ríos de Colombia muestran mayoritariamente que k<0 (29 de 34 series de caudales). Las cinco estaciones restantes para las cuales k>0 están ubicadas en Risaralda (3), Nariño (1) y Cundinamarca(1) (Figura 6). Por ejemplo, la estación 2306702 en el Río Negro (Cundinamarca) tiene un caudal medio anual de 73.9 m3/s y un caudal medio de la serie de caudales máximos anuales es de 480.4 m3/s. El número de observaciones es N=58 datos. En la Figura 7 se ilustra el análisis de sensibilidad de la relación entre el número de excesos, i, y el parámetro de forma, k . Se encuentra una concordancia entre los métodos para localizar un valor positivo de este parámetro para 33=i . Para este caso el umbral correspondiente es de 403.3 m3/s. Cabe anotar que después de realizar un análisis del ajuste de los datos empíricos para un número mayor de excesos se corroboró que el mejor resultado está asociado con el umbral presentado como óptimo. En la Tabla 3 se muestran los cálculos de los parámetros bajo las diferentes estimaciones realizadas y el error medio cuadrático correspondiente al grafico de probabilidad-probabilidad asociado (Figura 8). Se observa un error cuadrático menor para la estimación bajo la metodología Generalizada de Hill, pero en general los resultados son similares.

Page 11: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

!! !

!

!

800000 1400000

4000

0010

0000

016

0000

0

µ140 0 140 280 420 56070

km

mdtValue

High : 5628

Low : 1

Colas Pesadas verificadas

Escala

Figura 6. Ubicación de estaciones analizadas en donde fue verificada la existencia de colas pesadas en las distribuciones de probabilidad de caudales máximos bajo la metodología empleada

Figura 7. Estimación de k versus el número de excesos para la estación 2306702 en el río Negro (Cundinamarca). La línea azul representa la estimación de k por el método de los momentos-L, en fucsia se representa la estimación del método generalizado de Hill, en verde la estimación por el método de Hill y en color café, la estimación del método de máxima verosimilitud

Sin embargo, al calcular cuantiles extremos asociados con altos periodos de retorno (Figura 9), se confirman las características señaladas, dado que los estimadores de Hill predicen valores mas altos que los estimadores paramétricos, dado que éstos dependen mas claramente de las características de la cola de la distribución, que se ajustan mejor al cuerpo completo de la muestra. El estimador generalizado de Hill parece arrojar el estado promedio entre las diferentes predicciones analizadas. Es importante anotar que el modelo no es adecuado para predecir lo que sucede con probabilidades

Análisis i vs kest. 2306702

-1.0

-0.5

0.0

0.5

1.0

0 10 20 30 40 50 60i (No. excesos)

k (p

aram

etro

form

a D

GP)

HWMVHillGHill

Page 12: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

correspondientes a cuantiles por debajo del umbral seleccionado. Por ello, en la Figura 8 solo se grafican valores a partir de la probabilidad correspondiente al umbral, cuyo valor es aproximadamente de 0.4.

Tabla 2. Parámetros estimados bajo métodos estación 2306702 y error cuadrático medio asociado a relación P empírica vs. P teórica

Parámetros Estimados Métodos de Estimación

Mom-L Max Ver Hill Gener. Hill k 0.05 0.25 0.37 0.28

σ 206.29 166.68 148.17 148.17

Error Cuadrático medio grafico P-P 0.00335 0.00485 0.00297 0.00293

Cuantiles extremos calculados

0

5000

10000

100 1000 10000

T (años)

Q(m

3 /s)

Momentos-LMax. VerosimiltudHillGeneralizado Hill

Figura 8. Caudales máximos asociados a diferentes periodos de retorno asociados al ajuste realizado para

la estación 2306702 bajo los diferentes métodos CONCLUSIONES Se ha implementado una metodología para verificar la posible existencia de colas pesadas en las series de caudales máximos anuales en ríos de Colombia y de la cuenca Amazónica. Para ello se utiliza el método POT (Peaks Over a Treshold) para ajustar las observaciones a una distribución utilizada en la modelización de valores extremos denominada Distribución Generalizada de Pareto. Los resultados para los ríos localizados en la cuenca Amazónica indican que no es posible aceptar la hipótesis de colas pesadas en la FDP de tales series. Se conjetura que esto puede ser debido al poder de amortiguamiento de las grandes llanuras de inundación de estas cuencas en épocas de inundaciones. Igualmente, para la mayoría de las series de caudales máximos anuales (29 de 34), también se rechaza la existencia de colas pesadas. En sólo 5 de 34 series fue posible estimar valores de k>0 (colas pesadas) mediante los métodos utilizados. Para los casos en los cuales se detectó la existencia de colas pesadas, el modelo tuvo un buen ajuste a los datos empíricos lo cual brinda una buena confiabilidad para predecir cuantiles extremos. Es importante anotar que se trata de una metodología clara y sencilla. Sin embargo, el modelo presenta una gran dependencia de la elección del umbral.

Page 13: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

Figura 9. Distribuciones empíricas y ajustadas bajo los diferentes métodos para calcular el parámetro k

de la GPD y los correspondientes gráficos Probabilidad-Probabilidad. Las siglas HW corresponden a los Momentos-L y MV al método de máxima verosimilitud

Gráfico P-P para i=33 Estimación Ghill

R2 = 0.9065

0.4

0.6

0.8

1.0

0.4 0.6 0.8 1.0P Empírica

P te

óric

a

Est. 2306702Teórica GHill y empírica

0.4

500.4

1000.4

0.4 0.6 0.8 1.0 1.2F

Q

Gráfico P-P para i=33 Estimación Hill

R2 = 0.9748

0.40

0.60

0.80

1.00

0.4 0.6 0.8 1.0P Empírica

P te

óric

a

Est. 2306702Teórica Hill y empírica

0.0

500.0

1000.0

1500.0

0.4 0.6 0.8 1.0 1.2F

Q

Gráfico P-P para i=33 Estimación MV

R2 = 0.9688

0.4

0.6

0.8

1.0

0.4 0.6 0.8 1.0P Empírica

P te

óric

a

Est. 2306702Estimada MV y empírica

0.0

500.0

1000.0

1500.0

0.4 0.6 0.8 1.0 1.2F

QGráfico P-P para i=33

Estimación HW

R2 = 0.9534

0.4

0.6

0.8

1.0

0.4 0.6 0.8 1.0P Empírica

P te

óric

a

Est. 2306702Estimada HW y empírica

0.0

500.0

1000.0

1500.0

0.4 0.8 1.2F

Q

Page 14: AIHR AIIH XXIII CONGRESO LATINOAMERICANO DE … FDP más ampliamente usadas para describir la distribución de caudales máximos son las ... determinados mediante el ajuste de la GPD

Referencias Bibliográficas Beirlant J., Teugels J. L., Vynckiee P. (1996). Practical Analysis of Extreme Values. Leuven University Press, Leuven. Bernardara P., Schertzer D., Sauquet E., Tchiguirinskaia I., Lang M. (2006). “The flood probability distribution tail: how heavy is it? ”. Stoch Environ Res Ris Assess, 123, 16pp. Bryson, M. (1974). “Heavy-tailed distributions: Properties and tests”. Technometrics, Vol. 16, No. 1, 61-68. García A., (2002). La teoría del valor extremo: una aplicación al sector asegurador. Universidad de Alcalá de Henares. 30pp. Gasca A. y Almarza C., (2001). “Ajuste de la distribución de probabilidad de máxima precipitación diaria en Santa Cruz de Tenerife a la distribución Generalizada de Pareto”. Instituto Nacional de Meteorología. P. 263-270. Hosking J. R. M, y Wallis JR, (1987). “Parameter and quantile estimation for Generalized Pareto distribution”. Technometrics 29(3):339–349. Hill B.M., (1975). “A Simple General Approach to Inference About the Tail of a Distribution”. The Annals of Statistics 3 (5): 1163-1174. Hosking JRM (1990) “L-moments: analysis and estimation of distributions using linear combinations of order statistics”. J R Stat Soc Ser B (Methodological) 52(1):102–124 Mantilla, D. (2005). “Análisis del Precio Internacional del Petróleo con la Teoría del Valor Extremo”.Universidad de los Andes, Departamento de Ingeniería Industrial. 21pp. McNeil, A. J. (1999) “Extreme value theory for risk managers”. En Extremes and Integrated Risk Management, ed. P. Embrechts, Risk Books. Pisarenko V. F., Bolgov M. V., Osipova N. V., y Rukavishnikova T. A. (2002). “Application of the Theory of Extreme Events to Problems of Approximating Probability Distributions of Water Flow Peaks”. Water Resources, Vol. 29, No. 6, , pp. 593–604. Poveda, G., J. I. Vélez, O. J. Mesa, y co-autores. (2007a). “Linking Long-term Water Balances and Statistical Scaling to Estimate River Flows along the Drainage Network of Colombia.” Journal of Hydrologic Engineering, ASCE, 12 (1), 4-13, January-February. Poveda, G., O. J. Mesa, J. I. Vélez y co-autores, 2007b. “HidroSIG: An interactive digital atlas of Colombia’s hydro-climatology”, Journal of Hydroinformatics, 9 (2), 145–156,.