Verificación objetiva de predicciones...

$: Verificación objetiva de predicciones probabilísticascatedras.iic.uam.es/Publicaciones/2013_03.pdf · • E.g. evento {pcp>5mm} se ha dado en 16% de los casos, ha tenido ...$
UAM/IIC/CatedraAMYP/SFER/PredicciónProbabilística/03VerificaciónProbabilística 20130301 1

Verificación objetiva de predicciones probabilísticas

Carlos Santos BurgueteAEMET

Sesión Formativa IIC1 Marzo 2013


• La atmósfera y la teoría del caos. El sistema de Lorenz

• Sistemas de predicción por conjuntos para la predicción

probabilística del tiempo

• Verificación objetiva de predicciones probabilísticas• Aplicación de predicciones probabilísticas a problemas reales


Models are not perfect

BUTModels are only simulations of reality

Critical improvements• Technology• Data sources• Data assimilation• Model formulation

Verification

EPS


Are models perfect?


What about ensembles?


Contenido• Verificación determinista y probabilística

– Naturaleza– ¿Qué es una buena PDF?

• Consistencia– Consistencia ~ grado calibración– Rank histograms– Spread-error diagrams

• Respuesta a eventos binarios– Brier score– Distribución conjunta, Tablas de contingencia– Agudeza, fiabilidad, resolución– Discrmination (ROC)– Valor relativo

• Un ejemplo: AEMET SREPS


Forecast verificationForecast: of a future atmospheric state

Corresponding Observation: (or a good estimate of reality e.g. analysis)

Verification

• Verification procedures should be included in a prediction system to:

– Assess quality, accuracy, trends– Understand failures– Compare quality of different prediction

systems; e.g.: compare the current system with experimental improvements or other systems

• Administrative, scientific & economic (decision making)

• Quality: Agreement forecast - observation

• Value: helps the user take better decisions

Examples:Clear skies forecast over Sahara Desert during

dry season: high quality, little value

Isolated thunderstorms development forecast in a region without pointing the local areas, quality is poor bit it provides a high value to issue early warnings


• How did the model captured patterns / structures?• What range of scales was the forecast better / worse?• Intensity and / or location of events?• “Eye ball”

Subjective Verification 31Oct-01Nov 2008 AccPcp06-06 HIRLAM 31Oct-01Nov 2008 AccPcp07-07 Obs


Objective Verification • Comparison by pairs (fc,ob),

and study statistical properties of the set {(fc,ob)i}

• Score: metric related to some properties

• E.g.: bias = fc – ob; 2m T forecast in Sevilla was 4ºC and observed was 3ºC, then bias = 1ºC ¿What can we infer from that?

-18121318101623.....24

51091522131719.....23


Objective Verification Sampling: Accumulation vs StratificationSpatial scales: Point vs up-scalingDescriptive methodsScores: BIAS, ME, MAE, MSE, r…Scores: PC, POD, POFD, TSS, FBI…Spatial distributionTime seriesPredictability limit


Verificación Probabilística• Los sistemas de predicción probabilísticos dan como predicciones

probabilidades (PDFs) en vez de valores deterministas– Simulación de las incertidumbres (ccii + modelo)– PDF discreta o continua– E.g. sistemas probabilísticos: EPS, analogías

• Estos sistemas ofrecen herramientas probabilísticas– E.g.: mapas de probabilidad, EPS-gramas, etc.– E.g. cotidiano: “la probabilidad de que caigan más de 5mm es 30%”– ¿Cómo verificamos esto comparado con la observación: “cayeron 2mm”?– Si en los sistemas deterministas la significación estadística era importante y

así se deben tomar muestras grandes (aunque en principio puede compararse fc=0mm con ob=2mm), aquí el tomar muestras grandes es imprescindible (carece de sentido comparar P(>5)=0.3 con ob=2mm).

– E.g.: Monty-Hall

• ¿Qué es una buena PDF?– Es consistente con las observaciones: “captura” bien las observaciones porque

está bien calibrada (en tamaño y forma)– Tiene una buena respuesta para eventos binarios (fiabilidad, resolución,

discriminación, valor, etc)


Consistencia• Consistencia ~ grado de calibración

• La PDF es estadísticamente consistente con las observaciones, “captura” bien las observaciones (ver dibujo)

• Requisito mínimo: para variables sinópticas (Z500, T500, Pmsl…)

• Esta propiedad puede medirse mediante:• Histogramas de rango• Diagramas “spread-skill” (spread-error)


Consistencia: Rank histograms

• Rango de la observación• En un punto (observación o grid), el EPS predice N

valores que pueden ordenarse• La observación tendrá un rango relativo en esa lista

• E.g. • fcs = (18,16,14,13,15) → (13,14,15,16,18)• ob = 14.5• Rango Ob = 3

• Acumulando en el tiempo y/o espacio, resultaun histograma de rangos de la observación

• Hipótesis: los fcs y la ob son realizaciones independientes de una posibleatmósfera

• Criterio: si la PDF está calibrada, la observación debe ser indistinguible de los miembros del EPS y tener rangos equiprobables, así resulta un histograma plano.

PDF calibrada ↔ Rank histogram plano


Consistencia: Rank histograms: ejemplos

Bias Spread


Consistencia: Spread y ensemble mean error

• Spread ~ incertidumbre de la PDF del ensemble• Medida típica: sqrt (var)• Medida robusta y resistente: IQR• Crece con el alcance de las predicciones

• Ensemble mean error ~ incertidumbre de la PDF de atmósfera• Medida típica: RMSE del ensemble mean (también llamado EMSD)• Crece con el alcance de las predicciones


Consistencia: spread-skill (spread-error)

• Intuitivamente, debe haber un compromiso entre un spread suficiente y un error razonable. Aunque nadie ha demostrado aún una relación directa entre spread-skill, sí se cumple estadísticamente

• Se pinta en X el emsd, en Y el spread, según el alcance de la predicción.

• Si la simulación de la incertidumbre atmosférica es buena, el spread y el emsd deben parecerse, y su crecimiento según el alcance de la predicción debe ser similar. Esto se verifica a nivel de muestra (estadísticamente)

PDF calibrada ~ diagrama spread-error diagonal


Consistencia: spread-error: ejemplos

Sobre-dispersión Bien calibrado


Eventos binarios

• Evento binario X = {0,1}– En cada punto del dominio (espacio y tiempo)– E.g. X = { Precipitación acumulada en 24 horas >= 20mm }– E.g. Aparición de tornado

• Dos enfoques:– Brier score: generalización del MSE– Distributions-oriented verification: Distribución conjunta

descrita en Tablas de Contingencia– Conexión de ambos enfoques


Eventos binarios: Brier Score

• ¿Se parecen las probabilidades a las observaciones?

• Puede extenderse el concepto de MSE

fi = forecast pi = forecast probabilityoi = observation oi = “observation” = {0,1}

∑∑==

−=−=N

iii

N

iii op

NBSof

NMSE

1

2

1

2 )(1)(1


Eventos binarios: Brier score y Brier skill score

Score Cómputo Significado Rango Perf

Brier Análogo al MSEDiferencia entre predicción probabilística [0,1] y observación del evento binario {0,1}

[0,1] 0

Brier skillscore

Análogo al MSE_SSComparación con BS de referencia (persistencia, climatología, climatologíamuestral…)

(-∞,1] 1

∑=

−=N

iii op

NBS

1

2)(1

refBSBSBSS −= 1


Eventos binarios: Tabla contingencia determinista

Caracteriza completamente la distribución conjunta de unapredicción para un evento binario (X) sobre un total de N casos

fc(X) = {1,0}ob(X)= {1,0}

ob

1 0

fc

1 aAciertos

bfalsas

alarmas

a+b

0 cFallos

dnegativos correctos

a+d

a+c b+d a+b+c+d = N


Tabla de contingencia: derivados• Con la tabla de contingencia se construyen

numerosos scores derivados

Base Rate s ( a + c ) / nHit Rate H a / ( a + c )False Alarm Rate

F b / ( b + d )

False Alarm Ratio

FARatio b / ( a + b )

Proportion Correct

PC ( a + d ) / n

…

ob

1 0

fc 1 a b a+b0 c d a+d

a+c b+d a+b+c+d = N


Scores comunes

Score Cómputo Significado Rango PerfProportioncorrect

No es realmente indicativo (-∞,∞) 0

Base rate Mide la tasa del evento o “sample climatology” [0,1] -

Hit rate SIs: se predice el evento y se da [0,∞) 1

False alarmrate

NOs: se predice el evento pero no se da [0,∞) 0

True skillscore

Mide la habilidad para separar Sis y Nos, compara H y F

[-1,1] 0

Frequencybias index

Mide la proporción entre evento predicho y evento observado [0,∞) 1

dbb

caaTSS

+−

+=

dbbF+

=

Ncas +

=

NdaPC +

=

cabaFBI

++

=

caaH+

=

Ob

1 0

Fc 1 a b

0 c d


Eventos binarios: Distribución conjunta

• En un EPS (o una PDF genérica) tenemos una probabilidad de predicción del evento binario:

• Es decir, “casos favorables entre posibles”, e.g. si 15 de 50 miembros dan T>15ºC, entonces P(X)=0.3

• La respuesta de un EPS de N miembros frente a un evento binariopuede caracterizarse particionando la probabilidad de predicciónen N intervalos, y trabajando con cada intervalo con la tabla de contingencia

• Es decir, la distribución conjunta del EPS y las observaciones para el evento binario queda descrita en N Tablas de Contingencia

]1,0[)(}0,1{)()(

)( 1 ∈⇒==∑= XPXfcdondeN

XfcXP i

N

ii


El comportamiento del sistema predictivo, en el espacio de las probabilidades p, queda descrito completamente por las distribuciones n(p) frecuencia de prediccióny o(p) observación condicionada

Eventos binarios: Tablas de contingencia probabilísticas


Eventos binarios: Attributes diagram

Ni

baaqfNiq

ii

iii

i

...0)(

=

⎪⎪⎭

⎪⎪⎬

⎫

+=

=

No-resolution

No-skill

Perfec

t relia

bility

• X: Forecast probability pi• Y: Cond. obs frequency oi ( pi)

• Curva fiabilidad:( pi , oi (pi) ) i = 0…N

• Diagonal “perfect reliability”( pi , pi ) i = 0…N

• Horizontal “No-resolution”( pi , ō ) i = 0…N

• Bisectriz “No-skill”( pi , ō ) i = 0…N

• Inset “Sharpness”( pi , ni (pi) ) i = 0…N

Sharpness

Forecast probability

Con

ditio

nalo

bser

vatio

nfre

quen

cy


• Frecuencia neta de observaciónō (sin condicionar). Mide la frecuencia de observación (o climatología muestral). Basada únicamente en lasobservaciones

• E.g. evento {pcp>5mm} se ha dado en 16% de los casos, ha tenidoō = 0.16

• Horizontal “No-resolution”– ( ō ) i = 0…N

– Evento frecuente: arriba– Evento raro: abajo, etc.

NioNipi ...0=⎪⎭

⎪⎬⎫=

Eventos binarios: Base rate


• Distribución marginal de predicciones: distribución de frecuencias de intervalos de probabilidad de predicción ni ( pi). Mide la agudeza. Dependeúnicamente de las predicciones a priori, sin contar con las observaciones

• E.g.: interesa un EPS que prevea muchos 0,10,90,100 y pocos 40,50,60

• Sharpness histogram– ( pi , ni(pi) ) i = 0…N– Forma de U ~ Sistema que se moja– Forma plana ~ sistema ambiguo

Eventos binarios: Sharpness

Nibapn

Nip

iiii

i ...0)(

=⎪⎭

⎪⎬⎫

+=

=


Eventos binarios: Sharpness: ejemplos


• Frecuencia de observación oi (pi) condicionada, comparada con la frecuencia de predicción por intervalos de probabilidad ni(pi). Mide la fiabilidad. Basada en la distribución conjunta, predicciones y observaciones

• E.g. Si predecimos X con probabilidad P, estadísticamente X debería darseaproximadamente en un %P de esos casos

• Curva de fiabilidad– ( pi , oi(pi) ) i = 0…N– Diagonal: perfecta ( pi , pi )– Proximidad a la diagonal ~ fiabilidad

Ni

baapoNip

ii

iii

i

...0)(

=

⎪⎪⎭

⎪⎪⎬

⎫

+=

=

Eventos binarios: Reliability


Eventos binarios: Reliability: ejemplos


• Frecuencia de observación oi (pi) condicionada, comparada con la frecuencia neta de observaciónō (base rate). Mide la resolución en el espacio de las probabilidades, o “cuánto resuelve el sistema mejor que la climatología muestral”. Basada en la distribución conjunta, predicciones y observaciones

• E.g. Si damos probabilidades diversas y acertamos más o menos, yamejoramos a la climatología muestral

• Attributes diagram– Curva fiabilidad: ( pi , oi(pi) ) i = 0…N– Horizontal “No-resolution”: ( ō ) i = 0…N– Distancia entre ambas ~ Resolución

Ni

baapoNip

ii

iii

i

...0)(

=

⎪⎪⎭

⎪⎪⎬

⎫

+=

=

Eventos binarios: Resolution


Eventos binarios: El adivino

¿Qué curva de fiabilidadtendría un adivino queanticipase el sexo de un bebé (antes de sabersepor otros medios)?


Eventos binarios: Conexión Brier – D.C.

∑=

−=N

iii op

NBS

1

2)(1 ?


4342144 344 2144 344 21 yUncertaint

Resolution

2

1

yReliabilit

2

1

)1()(1)(1 oooonn

opnn

BS i

I

iiii

I

ii −+−−−= ∑∑

==

∑=

−=N

iii op

NBS

1

2)(1 ?

Eventos binarios: Conexión Brier – D.C.


I: número total de intervalosde probabilidad

4342144 344 2144 344 21 yUncertaint

Resolution

2

1

yReliabilit

2

1

)1()(1)(1BS oooonn

opnn i

I

iiii

I

ii −+−−−= ∑∑

==

Reliability Resolution Uncertainty[0,1] [0,s(1-s)] [0,0.25]

Correspondencia entre probabilidades de predicción y ocurrencias observadas

Discernimiento0: ambiguo, todas las probabilidades con la misma frecuencias(1-s): tajante, probabilidades con frecuencias 0 ó 1

Cercanía de ocurrencia del evento al 50%0: no se da0.25: se da 50%

∑∈

===iNkk

iii o

Npopo 1)|1(

Eventos binarios: Brier Score Decomposition


resrel BSSBSS −−= 1BSS

Eventos binarios: Conexión … : Brier Score Decomposition


Eventos binarios: Discrimination


• Basado en Teoría de la Detección de la señal X, para describir la predicción condicionadapor observación. Basada en acumulaciones de la distribución conjunta: tasas de aciertos Hiy falsas alarmas Hi.

• La relación H vs F mide la capacidad discriminativa del sistema de predicción, sucapacidad de discriminar entre la ocurrencia o no del evento.

• ROC curve– ( Fi , Hi ) i = 0…N– ROC Area ~ Discriminación del evento binario– ROC Area > 0.5 ~ aporta información wrt s. clim.– Cierta relación con la resolución

Ni

dbbF

caaH

ii

ii

ii

ii

...0=

⎪⎪⎭

⎪⎪⎬

⎫

+=

+=

Eventos binarios: Discrimination


Eventos binarios: Discrimination: ejemplos


• Teoría de la decisión– Usar predicción siempre Ef=aC+bC+cL– Predicción perfecta Ep=(a+c)C– Climatología muestral Ec=min(C,(a+b)L)

• Valor de la predicción: reducción económica comparandocon la climatología muestral

V = (Ef-Ec) / (Ep-Ec)

Eventos binarios: Valor relativo


V depende de:

• Calidad de la predicción: H (Hit rate) y F (False alarm rate)

• Usuario: C/L

• Evento:

( ) ( )

⎪⎪

⎩

⎪⎪

⎨

⎧

<⎟⎟⎠

⎞⎜⎜⎝

⎛ −⎟⎠⎞

⎜⎝⎛−

−

>−⎟⎟⎠

⎞⎜⎜⎝

⎛

−⎟⎠⎞

⎜⎝⎛ −

−−=

oLCsiFoo

LCLCH

oLCsiHoo

LCLCF

V/1

/1/

/11/

/11

NCAo +

=

Eventos binarios: Valor relativo


• Actuar cuando p exceda un ciertoumbral

• P depende del usuario, segúnsu C/L puededecidir simerece la pena

• Curvas de valor

Value

0

0.1

0.2

0.3

0.4

0.5

0.6

0 0.2 0.4 0.6 0.8 1

C/L

valu

e EPS(p=0.5)EPS(p=0.2)EPS(p=0.8)

Eventos binarios: Valor relativo: curvas


Valor económico: ejemplo


Ejemplo: ECMWF

Eventos binarios: Valor relativo: ejemplo

Control forecast: red lineEPS: blue line


• 72 hours forecast range• Twice a day (00,12 UTC)• 4LAMs x 5IcBc = 20 members• 0.25º

AEMET Multi-model LAM SREPS

• Multimodel


Tuning• Ensemble mean

(black) performs better than any member

MSLP

10mWS


• Added value w.r.t. our deterministic model?

• SREPS purpose: probabilistic forecasts

• Better performance measures:Better reliability & Resolution (BSS, Attr)Better discrimination (ROC)Higher relative Value (RV)

Synop 10m Winds > 10m/s Hirlam 0.16 SREPS

Added value w.r.t det. Hirlam

ROC

RV

BSS

Attr


• Added value w.r.t. ECMWF EPS?• SREPS covers the SHORT RANGE• Better performance due to resolution and ensemble features: using pcp

up-scaling over Europa and observational uncertainty method, SREPS shows better reliability, discrimination, etc.

Pcp24h > 1mm ECEPS20 ECEPS51 AEMET-SREPS

Added value w.r.t. ECMWF EPS

BSS


Conclusiones• Models (ensembles, observations) are not perfect

– Verification can reveal strong and weak points, assess quality and value, improve forecast guidance

• ¿Qué es una buena PDF?– Es consistente con las observaciones– Tiene una buena respuesta para eventos binarios

• Consistencia– Consistencia con las observaciones ~ PDF bien calibrada– Rank histogram plano– Diagrama spread-error diagonal

• Respuesta frente a eventos binarios– Brier score: generalización del MSE– Distribución conjunta de predicciones-observaciones: tablas de contingencia por intervalos de

probabilidad, diagrama de atributos– Agudeza ~ sistema que se moja– Fiabilidad ~ correspondencia probabilidades y frecuencias de observación– Resolución ~ capacidad de resolver mejor que la climatología muestral– Conexión Brier – distribución conjunta: Brier decomposition– Discriminación ~ discernimiento evento sí/no, curva ROC– Valor relativo ~ usando la predicción cf predicción de referencia o climatología muestral

• La predicción probabilística tiene valor si ayuda al usuario a tomar decisiones


ReferencesPalmer, T., and R. Hagedorn, 2006: Predictability ofWeather and Climate. Cambridge University Press, 718 pp.

García-Moya et al, 2011:Predictability of short-rangeforecasting: a multimodelapproach, Tellus-A

I.T. Jolliffe and D.B. Stephenson: Forecast Verification: A Practitioner's Guide in AtmosphericScience, John Wiley and Sons, Chichester (2003)


Thanks

Verificación objetiva de predicciones...

Documents

Transcript of Verificación objetiva de predicciones...