1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

50
1 metodológicos do método de linkage probabilístico

Transcript of 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

Page 1: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

1

Aspectos metodológicos do

método de linkage probabilístico

Carla Jorge Machado - UFMG

Page 2: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

2

Roteiro para apresentação1. Motivações

1. Breve Histórico

1. O relacionamento de registros: Determinístico Probabilístico

1. Metodologia – Relacionamento probabilístico

1. Desafios

Page 3: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

3

1. MOTIVAÇÃO

• Estudo de coortes reais ao longo do tempo.

• Estudo de associações de exposição com doença/morte

• Recuperar informação, em caso de informação não declarada

Page 4: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

4

1. MOTIVAÇÃO

• Correção da informação quando acredita-se na validade desta em um banco de dados, mas não na validade desta em outro.

• Adicionar informação de um banco de dados a outro banco de dados.

Page 5: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

5

2. HISTÓRICO

• O Relacionamento de dados não é uma idéia recente

• No Século XVIII, Edward Jenner descobriu a associação entre a varíola bovina e a varíola humana através do relacionamento de registros.

Page 6: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

6

2. HISTÓRICO

• Jenner relacionou as vacas de todos os tipos às pessoas, após injetar material bovino nos seres humanos.

Page 7: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

7

2. HISTÓRICO

• Os registros de dados relacionados de Jenner foram utilizados como forma de evidência de que a intervenção havia sido eficaz.

Page 8: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

8

2. HISTÓRICO

• No Século XX, o termo relacionamento de registros (record linkage) apareceu pela primeira vez na literatura em Dunn(1946) - AJPH.

• Os estudos utilizando relacionamento de registros começam a surgir na literatura com mais freqüência a partir da década dos 80.

Page 9: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

9

3. RELACIONAMENTO DETERMINÍSTICO

• O Relacionamento Determinístico implica a procura de concordância exata no processo de pareamento de registros.

• Por exemplo, se temos acesso ao CPF ou RG dos indivíduos em dois ou mais bancos de dados podemos relacionar esses indivíduos com base nessa informação.

Page 10: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

10

3. RELACIONAMENTO DETERMINÍSTICO

• Um problema é que se o identificador (CPF e/ou RG) está em erro em um banco de dados nós refutamos pares que podem pertencer a mesmos indivíduos.

Page 11: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

11

3. RELACIONAMENTO DETERMINÍSTICO

• Além disso, acesso à informações deste tipo em larga escala é difícil.

• Pode-se dizer, então, que se um registro concordar com outro com base em identificadores gerais (sexo, idade, data de nascimento, estado civil) considera-se o par de registros como de um mesmo indivíduo.

Page 12: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

12

3. RELACIONAMENTO DETERMINÍSTICO

• Problema: O relacionamento determinístico (exato), é incapaz de levar em conta incertezas que podem existir para alguns pares relacionados:

-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.

-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.

Page 13: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

13

3. RELACIONAMENTO Determinístico X Probabilístico

• Logo, a solução...

Relacionamento Probabilístico de

RegistrosRelacionamento Probabilístico de

Registros

Page 14: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

14

3. RELACIONAMENTO PROBABILÍSTICO

• Utiliza-se o relacionamento probabilístico para ponderar diferentemente as informações utilizadas no pareamento.

• Essas diferenças na ponderação são inviáveis no caso de relacionamento determinístico.

Page 15: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

15

3. RELACIONAMENTO PROBABILÍSTICO

• Intuitivamente, na busca de evidência se o pareamento se refere ao mesmo indivíduo....

Page 16: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

16

3. RELACIONAMENTO PROBABILÍSTICO

• ... a concordância no identificador ‘sexo’ não adiciona tanta informação quanto às concordâncias nos identificadores ‘nome’ ou ‘CPF’, ou seja...

Page 17: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

17

3. RELACIONAMENTO PROBABILÍSTICO

• ... Concordâncias em ‘nome’ ou CPF são mais sugestivas de um pareamento correto do que concordância em ‘sexo’.

Page 18: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

18

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Howard Newcombe e colaboradores (Newcombe et al, 1959) publicaram um artigo em 1959 na Revista Science.

• A primeira menção de registro probabilísitico na literatura.

Page 19: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

19

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Os autores relacionaram dados de trabalhadores expostos a baixos níveis de radiação para estudar:

–causas de mortalidade

–impactos na fecundidade

–deformações genéticas posteriores

Page 20: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

20

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Dez anos mais tarde Fellegi & Sunter - estatísticos Canadenses - publicaram um artigo no JASA

• Estabeleceram as bases matemáticas e estatísticas para o relacionamento probabilístico de registros (Fellegi & Sunter, 1969).

Page 21: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

21

4. RELACIONAMENTO PROBABILÍSTICO

METODOLOGIA (clássica)

Page 22: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

22

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(1)

A freqüência de ocorrência de uma característica deveria ser utilizada para computar um escore para cada par formado;

Page 23: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

23

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(2)

Pares podem ser caracterizados em pares corretos, pares incorretos e pares possíveis, que requerem algum tipo de revisão;

Page 24: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

24

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS(3)

Na procura de pares os registros devem ser comparados apenas se concordarem em um identificador, válido e altamente discriminatório.

Page 25: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

25

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(4)

A idéia é de se particionar ambos os arquivos em sub-conjuntos exclusivos e e exaustivos e procurar pares dentro de cada sub-conjunto.

–Essa estratégia é chamada de blocagem

Page 26: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

26

4. RELACIONAMENTO PROBABILÍSTICO

- METODOLOGIA -

O processo de estimação dos escores para cada identificador

utilizado na comparação

Page 27: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

27

Quando um identificador concorda (em um bloco) atribuímos o seguinte escore (wi)

wi = log2(m/u) =

log2((probabilidade de concordância do identificador dado que o pareamento é correto) / (probabilidade de concordância do identificador, dado que o pareamento é incorreto))

Page 28: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

28

Quando um identificador NÃO concorda (em um bloco) atribuímos o seguinte escore (wi)

wi =

log2(1-m/1-u) = log2(probabilidade de discordância do identificador dado que o pareamento é correto) / (probabilidade de discordância do identificador, dado que o pareamento é incorreto))

Page 29: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

29

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Considere sexo

fácil de codificar, mas......discrimina pouco

Page 30: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

30

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em sexo

quando 2 registros pareados se referem ao mesmo indivíduo...

...estimada em torno de 0,95

Probabilidade M = 0,95Probabilidade M = 0,95

Page 31: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

31

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em sexo

quando 2 registros pareados não se referem ao mesmo indivíduo...

...estimada em torno de 0,50

Probabilidade U = 0,50Probabilidade U = 0,50

Page 32: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

32

4. RELACIONAMENTO PROBABILÍSTICO

- Estimação dos Parâmetros: Exemplo com sexo

wi para concordância = log2(m/u) =

log2(0,95/0,5)

= 0,93wi para discordância =

log2[(1-m)/(1-u)] =log2(0,05/0,5)

= -3,32

Page 33: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

33

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Considere nome raro

mais difícil de codificar, mas......discrimina mais

Page 34: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

34

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em nome

raro

quando 2 registros pareados se referem ao mesmo indivíduo

estimada em torno de 0,85

Probabilidade M = 0,85Probabilidade M = 0,85

Page 35: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

35

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em nome

raro

quando 2 registros pareados não se referem ao mesmo indivíduo

estimada em torno de 0,01

Probabilidade U = 0,01Probabilidade U = 0,01

Page 36: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

36

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Exemplo com nome raro

wi para concordância = log2(m/u) =

log2(0,85/0,01)

= 6,41wi para discordância =

log2[(1-m)/(1-u)] =log2(0,15/0,99)

= -2,72

Page 37: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

37

4. RELACIONAMENTO PROBABILÍSTICO Possibilidades

• Par 1: Concorda em sexo, não concorda em nome raro.

• + 0,93 + (-2,72) =

-1,80 (escore par 1)

• Par 2: Concorda em nome raro, não concorda em sexo

• + 6,41 + (-3,32) =

+3,09 (escore par 2)

Se eu tenho que escolher, fico com o Par 2

Page 38: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

38

4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA

Log na Base 2...A Idéia das Urnas

Idênticas

Page 39: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

39

Page 40: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

40

A diferença é que...

Page 41: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

41

• Só argolas brancas

• Argolas brancas e vermelhas

Page 42: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

42

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2?

O Evento de Interesse é

o número consecutivo de bolas brancas retiradas

Page 43: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

43

• 2 hipóteses sobre o conteúdo da urna: todas são brancas / metade é branca.

• Bolas brancas retiradas → Evidência → urna é de argolas brancas

• A razão de verossimilhança de ‘todas brancas’ em relação a ‘metade brancas’: (1)b/(1/2)b = 2b

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

Page 44: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

44

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Uma razão de verossimilhança de x corresponde a b bolas brancas da seguinte maneira

xlogln2

lnxb

ou

2x

2

b

Page 45: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

45

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Considere então que:

(m)/(u) x onde

xlogln2

lnxwb

:então

wb

2i

i

Page 46: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

46

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Por exemplo: Concordância em sexo e nome raro com peso 6;

• ‘6’ representa evidência favorecendo ‘todas brancas’ versus ‘metade brancas’ em 6 bolas brancas consecutivas retiradas.

Page 47: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

47

Escores limiares, curva bimodal: zona cinzenta

Gráfico freqüência dos escores X escores

4. RELACIONAMENTO PROBABILÍSTICO

0

10

20

30

40

50

60

70

80

90

1 4 7 10 13 16 19 22

Page 48: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

48

Análise de Dados Pareados (o fantasma da incerteza...)

um estimador da incerteza que possa ser incorporarado no modelo de análise de resultados

5. DESAFIOS

Page 49: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

49

“O Relacionamento Probabilístico de Registros pode auxiliar uma sociedade no sentido de avançar no conhecimento sobre o bem-estar e saúde de seus cidadãos. A literatura epidemiológica é repleta de estudos sobre saúde que fazem uso dos mais variados procedimentos de relacionamento de registro para produzir Ciência.”(Scheuren, 1997)

Page 50: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

50