L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V...

38
L’Extensió de la Poisson-IGTruncada Marta Pérez-Casany 1 , Xavier Puig 2 , Josep Ginebra 2 1 Departament de Matemàtica Aplicada II i DAMA-UPC 2 Departament d’Estadística i Investigació Operativa Universitat Politècnica de Catalunya Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 1 / 38

Transcript of L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V...

Page 1: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

L’Extensió de la Poisson-IG Truncada

Marta Pérez-Casany1, Xavier Puig2, Josep Ginebra2

1 Departament de Matemàtica Aplicada II i DAMA-UPC2 Departament d’Estadística i Investigació Operativa

Universitat Politècnica de Catalunya

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 1 / 38

Page 2: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Objectiu

a) Posar de manifest que l’espai de paràmetres de la Poisson-IG potextendre’s quan es considera la seva versió zero-truncada.

b) Il.lustrar que l’extensió és útil quan es volen modelar dades ambuna elevada freqüència d’uns, i amb cues amb pes superior al casno extès.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 2 / 38

Page 3: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Índex de la Presentació

1 La Tipologia de les dades: freqüències de freqüències

2 Les distribucions Poisson, Inversa-Gaussiana i Poisson-IG

3 L’extensió

4 Exemples d’Aplicació

5 Extensió d’altres distribucions

6 Conclusions

7 Bibliografía

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 3 / 38

Page 4: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

1. Tipologia de les dades: freqüències de freqüències

Situacions:

1) observació d’espècies (Engen, 1974 i Sichel 1997). Es tractad’observar el nombre de vegades que apareix una determinadaespècie animal en una mostra.

2) estudis de compres repetides (Sichel, 1982). Es tracta d’observarel nombre de vegades que un client compra un producte al llargd’un període de temps determinat.

3) estudis de vocabulari (Sichel H.S., 1986a, 1986b, 1992). Es tractad’observar el nombre de vegades que apareix una parauladeterminada en un determinat text (capítol, plana, etc).

Observació: Tindrem una taula de freqüències d’una variable queobserva freqüències. La forma d’obtindre les observacions porta a lano observació del zero.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 4 / 38

Page 5: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Característiques d’aquest tipus de dades:

No contenen el zero;

Elevada freqüència de la unitat;

hi ha força paraules que apareixent només un cop.

Elevada assimetria, cua dreta amb un pes important;

hi ha poques paraules que apareixent moltes vegades.

Sovint són sobredispersionades;

Distribució de freqüències J-invertida.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 5 / 38

Page 6: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Exemple: Dades textuals del Tirant lo Blanc.

Novel.la caballeresca de finals del segle XV;

Major part escrita per Joanot Martorell;

Primera novel.la impresa en la península;

Obra mestra esmentada al Quixot.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 6 / 38

Page 7: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula de freqüències dels quatre primers capítols del Tirant

1 2 3 4 5 6 7 8 9 · · · 354 N VC 1 107 16 6 2 2 2 2 1 1 · · · 0 255 142C 2 172 26 19 7 2 2 2 2 1 · · · 0 476 239C 3 299 70 32 16 10 5 4 2 5 · · · 1 1174 459C 4 205 52 20 7 10 3 2 2 1 · · · 0 670 310

N és el nombre total de paraules del capítol (tokens)

V és el nombre total de paraules diferents (types)

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 7 / 38

Page 8: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula amb els principals estadístics.

x S2 S2/xC 1 1.80 8.33 4.64C 2 1.99 12.87 6.46C 3 2.56 36.28 14.19C 4 2.16 16.61 7.68

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 8 / 38

Page 9: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Quina és la distribució de probabilitat d’aquest tipus de dades?

Sigui pN la probabilitat d’observar una paraula concreta en un text delongitud N,

Sigui X la v. a. que ens diu el nombre d’aparicions de la paraula en eltext, té sentit pensar que

X ∼ Bin(N, pN).

Ara bé,

pN és molt petita (hi ha moltíssimes paraules) i pN →N→∞ 0.

té sentit pensar que N · pN tendeix a una constant quan Naugmenta.

Així doncs, té sentit assumir que

X ∼ Po(λ);

λ nombre d’aparicions esperat en un text de longitud infinita.Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 9 / 38

Page 10: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Ara bé, és difícil pensar que les diferents paraules tenen la mateixaprobabilitat de ser observades.

En textos escrits en anglès, la probabilitat estimada de the és 0.07, mentreque la probabilitat de les paraules menys freqüents és de l’ordre de 10−6

(Sichel, 1986a).

En conseqüència haurem d’assumir que X ∼ mixtura d’una Poisson

λ ∼ φ(λ); P(X = k) =

∫ ∞

0e−λ λk

k!φ(λ)dλ.

Per tal de tenir en compte que el zero no és observable, haurem deconsiderar la mixtura truncada en zero

P(X zt = k) =P(X = k)

1 − P(X = 0), ∀k ≥ 1.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 10 / 38

Page 11: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

2. Distribucions: Poisson, Inv.-Gaussiana i Poisson-IG

2.1 La Poisson

Una v.a. X té distribució de Poisson ssi ∃λ > 0 t. q.

P(X = k) = e−λ λk

k!, ∀k ∈ {0, 1, 2, · · · }

Moments E(X ) = Var(X ) = λ.

Si els esdeveniments es donen de forma independent i la població éshomogènia és útil per a:

modelar els esdeveniments ocurreguts en un interval de temps fix;

modelar els esdeveniments ocurreguts en una regió de l’espaifixada.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 11 / 38

Page 12: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

2.2 La Inversa-Gaussiana Generalitzada

Una v.a. X té distribució IGG ssi té funció de densitat de la forma:

f (x) = xγ−1e−ax−b/x · C ∀x > 0;

essent C la constant normalitzadora.

Tenim la següent partició tenint en comte l’espai de paràmetres

1) a > 0, b > 0, γ ∈ R (IGG de tres paràmetres);

2) a > 0, b = 0 i γ > 0 (és la Gamma(γ, a));

3) a = 0, b > 0 i γ < 0 (és la reciprocal gamma).

El cas particular de 1) amb γ = −1/2 és coneguda com laInv-Gaussiana de dos paràmetres.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 12 / 38

Page 13: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Pel que respecta a la de dos paràmetres,

rep aquest nom atès que la funció generatriu de cumulants és lainversa de la funció generatriu de cumulants de la Normal. Tambés’anomena distribució de Wald;

quan b tendeix a ∞ la distribució tendeix a la Normal;

és una família exponencial bi-paramètrica amb estadístic minimali suficient (x , 1/x);

els paràmetres són independents;

és la distribució del temps per arribar a un punt determinat en elmoviment Brownià.

Referència: Raj Chhikara R. i Folks L.(1989).

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 13 / 38

Page 14: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

2.3 La Poisson-IG

La Posson-IG és la mixtura d’una Poisson i una IGG.

Si suposem que el paràmetre de la Poisson és proporcional a lalongitud del text, N,;

Po − IGG(a, b, γ) = Po(λ · N)∧

λ

IGG(a, b, γ)

És útil per ajustar dades amb una elevada assimetria, en camps tantdiversos com:

lingüística;

bibliometria;

assegurances;

estudis de mercat, etc

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 14 / 38

Page 15: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Seguint la notació de Sichel (1986),

X ∼ Poisson-IGG(b, c, γ) sii

P(X = k) =[

(1 + c N)γ/2Kγ(b)]

−1 1k !

( b c N2(1 + c N)1/2

)kKk+γ

(

b(1 + c N)1/2];

on −∞ < γ < +∞, b > 0 i c > 0 essent Kγ(·) la funció de Besselmodificada de segona espècie d’ordre γ.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 15 / 38

Page 16: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Per γ = −1/2, K−1/2(z) =√

Π2 z e−z , i definint

α = b (1 + cN)1/2, θ =c N

1 + c N;

Poisson-IG(α, θ) té probabilitats:

P(X = k) = eα√

1−θ

2 α

Π

(1/2αθ)k

k!Kk− 1

2(α), , k = 0, 1, 2 · · · ....

Notar que:

1) l’espai de paràmetres ara és (0,+∞) × (0, 1)

2) la parametrització captura la depandència dels paràmetresrespecte de la longitud del text.

Comentari: Aquesta distribució es coneix com a distribució de Sichel.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 16 / 38

Page 17: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Tenint en compte que P(X = 0) = eα (√

1−θ−1), i notant perpk = P(X zt = k), la Po-IG zero-truncada té probabilitats:

pk =eα

eα[1−(1−θ)1/2] − 1

Π

(1/2αθ)k

k!Kk− 1

2(α) ∀k ≥ 1.

En particular,

p1 =12

αθ[exp(α (1 −√

1 − θ)) − 1]−1, i p2 =14

θ (1 + α) p1

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 17 / 38

Page 18: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Tenint en compte la recurrència:

Kν+1(z) =2 ν

zKν(z)

les probabilitats es poden calcular a partir de p1 i p2 i la fórmularecurrent

pk =(

1 − 32k

)

θ pk−1 +(0.5θα)2

k(k − 1)pk−2,∀k ≥ 3

on α > 0 i 0 < θ < 1.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 18 / 38

Page 19: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

3. L’extensió

La Po-IG zero-truncada té sentit en el domini α > −1 i 0 < θ < 1.

p1 =12

αθ[eα (1−√

1−θ) − 1]−1 i p2 =14

θ (1 + α) p1

compleixen:

si −1 < α < 0, p1 > 0 i p2 > 0;

si p2 < 1 per a α > 0, llavors p2 < 1 per a −1 < α < 0

p1 és una funció decreixent de α, donat que

limα→−1

p1 = −12

θ(

e√

1−θ−1 − 1)−1

< 1,

es conclou que p1 < 1 també per a valors d’α negatius.

Numèticament s’ha provat que la suma de probabilitats és 1 perα > −1.

Comentari: En l’espai ampliat, no es pot interpretar com una mixtura.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 19 / 38

Page 20: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0θ

α

P1:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P2:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P3:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P4:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P5:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P6:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P7:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P8:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P9:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P10:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P15:n(α, θ)

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

P20:n(α, θ)

Figura: Probabilitats com a funció d’α i θ per a diferents tamanys del text

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 20 / 38

Page 21: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Com estimem els paràmetres?

Els estimadors són els màxim versemblants, i els trobem maximitzant

l(α, θ) =

r∑

i=1

fa(i) · log pi ;

essent r el valor màxim observat, i fa(i) la freqüència observada de i .

El m.l.e. no es troba solucionant les equacions de versemblança sinoque es calcula a partir de tècniques de progamació no linealimplementades en R.

Per tal de veure que l’estimador és únic, prèviament dibuixem lescorbes de nivell de la log-versemblança.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 21 / 38

Page 22: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

4. Exemples d’aplicació

4.1 Dades del tirant

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

theta

alpha

capítulo 1

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

theta

alpha

capítulo 2

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

theta

alpha

capítulo 3

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

theta

alpha

capítulo 4

Figura: Contorns proporcionals a la log-versemblança, pel quatre primerscapítols del tirant

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 22 / 38

Page 23: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula ajustos primer capítol del Tirant

Frec. Obs. EsperatsPoisson Bin. Neg Sichel

1 107 68, 6 88,4 106,52 16 45,0 28,5 14,83 6 19,7 12,3 7,14 2 6,5 5,9 4,05 2 1,7 3,1 2,56 2 0,4 1,6 1,7

≥ 7 7 0,1 2,1 5,3χ2 637,014 26,665 2,045

g. ll. 5 4 4p-valor 0,00000 0,00002 0,72740

λ̂ = 1, 3124 k̂ = 8, 2e − 7 α̂ = −0, 3793p̂ = 0, 3546 θ̂ = 0, 8956

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 23 / 38

Page 24: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula ajustos segón capítol del Tirant

Frec. Obs. EsperatsPoisson Bin. Neg. Sichel

1 172 97,8 154,8 172,02 26 77,4 47,2 26,93 19 40,8 19,2 12,94 7 16,1 8,8 7,55 2 5,1 4,3 4,86 2 1,3 2,2 3,3

≥ 7 11 0,4 2,5 11,6χ2 408,375 42,156 5,081

g. ll. 5 4 4p-valor 0,00000 0,00002 0,27905

λ̂ = 1, 5824 k̂ = 2, 9e − 6 α̂ = −0, 3182p̂ = 0, 3900 θ̂ = 0, 9170

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 24 / 38

Page 25: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula ajustos tercer capítol del Tirant

Frec. Obs. EsperatsPoisson Bin. Neg. Sichel

1 299 117,5 200,7 297,42 70 135,2 86,3 60,43 32 103,8 49,5 28,94 16 59,7 31,9 17,55 10 27,5 22,0 11,46 5 10,5 15,7 8,1

≥ 7 27 4,8 52,8 35,6χ2 510,356 91,755 5,380

g. ll. 5 4 4p-valor 0,00000 0,00002 0,25045

λ̂ = 2, 3017 k̂ = 1, 6e − 6 α̂ = −0, 1435p̂ = 0, 1400 θ̂ = 0, 9486

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 25 / 38

Page 26: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Taula ajustos quart capítol del Tirant

Frec. Obs. EsperatsPoisson Bin. Neg. Sichel

1 205 110,1 197,3 204,62 52 99,4 61,8 44,03 20 59,8 25,8 20,14 7 27,0 12,1 11,55 10 9,8 6,1 7,46 3 2,9 3,2 5,1

≥ 7 13 1,0 3,8 17,3χ2 294,830 29,829 6,064

g. ll. 5 4 4p-valor 0,00000 0,00002 0,19438

λ̂ = 2, 2288 k̂ = 1, 4e − 6 α̂ = −0, 0583p̂ = 0, 3740 θ̂ = 0, 9141

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 26 / 38

Page 27: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

r

pro

babili

dad

empirica

poisson positiva

binomial negativa Positiva

Sichel Positiva

capítulo 1

1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

r

pro

babili

dad

empirica

poisson positiva

binomial negativa Positiva

Sichel Positiva

capítulo 2

1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

r

pro

babili

dad

empiricapoisson positiva

binomial negativa Positiva

Sichel Positiva

capítulo 3

1 2 3 4 5 6 70.0

0.2

0.4

0.6

0.8

1.0

r

pro

babili

dad

empiricapoisson positiva

binomial negativa Positiva

Sichel Positiva

capítulo 4

Figura: Distribució empírica i distribucions ajustades, pel quatre primerscapítols del Tirant.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 27 / 38

Page 28: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

0 1000 2000 3000 4000 5000 6000

-0.5

0.0

0.5

1.0

N

alpha

0.5 0.6 0.7 0.8 0.9 1.0

-0.5

0.0

0.5

1.0

thetaalpha

Figura: Estimador màxim versemblant de α, en funció de N i θ, per a tots elscapítols del Tirant de més de 200 paraules, en total 425 capítols.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 28 / 38

Page 29: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

4.2 Altres obres

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

αEassays on Bacon

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

War of the Worlds

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

Through the Looking

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

Max Havelaar

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

Alice in Wonderland

0.75 0.85 0.95

−1.0

−0.5

0.00.5

1.0

θ

α

Turkish Archeology

Figura: Corbes de nivell per a la log-versemblança associada a diferentsobres.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 29 / 38

Page 30: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Pel text turc d’arqueologia (Baayen, 2001) comparem els ajustos de laSichel Extesa amb la sichel no Extesa.

Sichel No Extesa Sichel Extesaα 0 -0.25θ 0.9 0.92χ2 103,03 66,39

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 30 / 38

Page 31: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Frec. Obs. Sichel No extesa Sichel Extesa1 2326 2167,2 2303,62 477 488,8 399,93 178 220,5 189,64 107 124.4 109.85 53 78,5 71,06 33 53,1 49,27 22 37,7 35,78 26 27,6 26,89 7 20,8 20,6

10 7 15,9 16,211 12 12,4 12,912 8 9,8 10,413 4 7,8 8,514 3 6,3 7,0

15-16 9 9,3 10,717-18 6 6,3 7,619-20 1 4,3 5,521-23 6 4,2 5,624-29 4 4,1 6,0> 29 13 2,8 5,4

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 31 / 38

Page 32: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Preguntes:

Què determina que α sigui negativa?

Si trunquessim en un valor a > 0, podriem extendre encara mésl’espai de paràmetres?

És possible extendre l’espai de paràmetres d’altres mixturestruncades?

Podriem extendre l’espai de paràmetres si primer trunquessim idesprés barregessim?

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 32 / 38

Page 33: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

5. Extensió d’altres distribucions

La Beta-Binomial (BB) truncada en zero admet també unaextensió de l’espai de paràmetres (Griffiths, 1973).

Si parametritzem la BB truncada mitjançant

π =α

α + β, θ =

1α + β

,

per tal de tenir una distribució de probabilitat, n’hi haprou amb que θ > 0 i π > −θ.

Ara bé, el resultat no es demostra, i les dades analitzades enl’article corresponen al nombre de malalts d’una família degrandària N, i per a tots els conjunts de dades π pren valorspositius.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 33 / 38

Page 34: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

La Binomial-Negativa (BN) truncada en zero admet també unaextensió de l’espai de paràmetres (Engen, 1974).

El paràmetre de forma k de la BN zero-truncada que enprincipi es pren positiu, n’hi ha prou amb que siguik > −1 per tal de definir una distribució de probabilitat.

En aquest cas sí que es demostra el resultat, i es posa unexemple de dades corresponents a insectes que dónen lloc a unaestimació negativa del paràmetre de forma.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 34 / 38

Page 35: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

6. Conclusions

Hem vist que la Poisson-IG zero-truncada admet una extensió del’espai de paràmetres.

L’estimador màxim versemblant dels paràmetres cau en la zonaampliada quan la freqüència del zero i la probabilitat de la cua sónsuperiors als respectius valors del model no extès.

Hem provat que l’extensió és útil per a modelar freqüències deparaules de textes en llegua no anglesa.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 35 / 38

Page 36: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

7. Bibliografía

Baayen H. (2001) Word frequency distributions, Dordretch: Kluwer.

Chou, C. W. and Huang, W.J . (2004) On characterizations of thegamma and generalized inverse Gaussian distributions, Statistics andProbability Letters, 69, 381-388.

Engen, S. (1974) On species frequency models, Biometrika 61,263-270.

Griffiths D.A. (1973). Maximum likelihood estimation for thebeta-binomial distribution and an application to the householddistribution of the total of cases of a disease. Biometrics, 29, 637-648.

Johnson, N.L., Kotz, S. y Kemp, A.W. (1992). Univariate DiscreteDistributions, Jhon Wiley & sons, INC.

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 36 / 38

Page 37: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

Puig, X. Ginebra, J. Pérez-Casany, M. (2007) Extended truncatedInverse Gaussian Poisson model en procés de revisió.

Riba, A. y Ginebra, J. (2005). Diversity of vocabulary and homogeneityof literary style. To appear in Journal of Applied Statistics.

Sichel, H.S. (1975). On a distribution law for words frequencies. J.Amer. Statist. Ass. , 70, 542-547.

Sichel, H.S. (1986). Word frequency distributions and Type-Tokencharacteristics. Mathematical Scientist, 11, 45-72.

Yule, GU (1944). The Statistical Study of Literary Vocabulary. London,Cambridge University Press.

Zipf, GK (1932). Selected Studies of the Principle of RelativeFrequency in Language, Cambridge, Harvard University Press

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 37 / 38

Page 38: L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei

MOLTES GRÀCIES!!!!!!

Marta Pérez-Casany (UPC) Servei d’Estadística UAB Març 2008 38 / 38