M´etodos para Classifica¸c˜ao de Texto de Etiqueta...
Transcript of M´etodos para Classifica¸c˜ao de Texto de Etiqueta...
![Page 1: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/1.jpg)
Metodos para Classificacao de Texto de Etiqueta Unica
(Improving Methods for Single-label Text Categorization)
Ana Cardoso Cachopo
Instituto Superior Tecnico — Universidade Tecnica de Lisboa / INESC-ID
8 de Outubro de 2007
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 1 / 38
![Page 2: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/2.jpg)
Estrutura
Estrutura
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 2 / 38
![Page 3: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/3.jpg)
Introducao
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 3 / 38
![Page 4: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/4.jpg)
Introducao
Introducao e Objectivos
Introducao
Classificacao de Texto
Documentos de Etiqueta Unica
Classificacao Semi-supervisionada
Objectivos
Melhorar a qualidade dos resultados atraves da combinacao declassificadores.
Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38
![Page 5: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/5.jpg)
Introducao
Introducao e Objectivos
Introducao
Classificacao de Texto
Documentos de Etiqueta Unica
Classificacao Semi-supervisionada
Objectivos
Melhorar a qualidade dos resultados atraves da combinacao declassificadores.
Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38
![Page 6: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/6.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 7: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/7.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 8: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/8.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 9: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/9.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 10: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/10.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 11: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/11.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 12: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/12.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 13: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/13.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 14: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/14.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 15: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/15.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 16: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/16.jpg)
Introducao Classificacao de Texto
Peso dos Termos dos Documentos
Os documentos sao representados por vectores p-dimensionais.
Os termos sao pesados de acordo com a sua importancia.
Pesos binariostfidf
wij =freqij
maxl(freqlj)× log
|D|nti
tdwtdijk = wij × icsdα
i × csdβik × sdγ
i
Os vectores sao normalizados para terem comprimento unitario.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38
![Page 17: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/17.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Ter
mo1
Termo2
Doc2
Doc1
Query
αβ sim(
−→dj ,
−→q ) =
−→dj · −→q
||−→dj || × ||−→q ||
Considera a semelhanca entre os vectores que representam os documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38
![Page 18: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/18.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Ter
mo1
Termo2
Doc2
Doc1
Query
αβ sim(
−→dj ,
−→q ) =
−→dj · −→q
||−→dj || × ||−→q ||
Considera a semelhanca entre os vectores que representam os documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38
![Page 19: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/19.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Ter
mo1
Termo2
Doc2
Doc1
Query
αβ sim(
−→dj ,
−→q ) =
−→dj · −→q
||−→dj || × ||−→q ||
Considera a semelhanca entre os vectores que representam os documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38
![Page 20: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/20.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Ter
mo1
Termo2
Doc2
Doc1
Query
αβ sim(
−→dj ,
−→q ) =
−→dj · −→q
||−→dj || × ||−→q ||
Considera a semelhanca entre os vectores que representam os documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38
![Page 21: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/21.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Considera a classe do documento mais proximo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38
![Page 22: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/22.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Considera a classe do documento mais proximo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38
![Page 23: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/23.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Vector
Considera a classe do documento mais proximo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38
![Page 24: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/24.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
k-NN
Considera os k vizinhos mais proximos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38
![Page 25: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/25.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
k-NN
Considera os k vizinhos mais proximos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38
![Page 26: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/26.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
Considera o centroide de cada classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38
![Page 27: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/27.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
x
x
Considera o centroide de cada classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38
![Page 28: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/28.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
x
x
Considera o centroide de cada classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38
![Page 29: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/29.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
Sum: −→ck =∑
−→dj ∈Dck
−→dj
Average: −→ck =1
|Dck|·
∑−→dj ∈Dck
−→dj
NormSum: −→ck =1
‖∑−→dj ∈Dck
−→dj ‖
·∑
−→dj ∈Dck
−→dj
Rocchio: −→ck = β · 1
|Dck|·
∑−→dj ∈Dck
−→dj − γ · 1
|D − Dck|·
∑−→dj /∈Dck
−→dj
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38
![Page 30: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/30.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
Sum: −→ck =∑
−→dj ∈Dck
−→dj
Average: −→ck =1
|Dck|·
∑−→dj ∈Dck
−→dj
NormSum: −→ck =1
‖∑−→dj ∈Dck
−→dj ‖
·∑
−→dj ∈Dck
−→dj
Rocchio: −→ck = β · 1
|Dck|·
∑−→dj ∈Dck
−→dj − γ · 1
|D − Dck|·
∑−→dj /∈Dck
−→dj
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38
![Page 31: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/31.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
Sum: −→ck =∑
−→dj ∈Dck
−→dj
Average: −→ck =1
|Dck|·
∑−→dj ∈Dck
−→dj
NormSum: −→ck =1
‖∑−→dj ∈Dck
−→dj ‖
·∑
−→dj ∈Dck
−→dj
Rocchio: −→ck = β · 1
|Dck|·
∑−→dj ∈Dck
−→dj − γ · 1
|D − Dck|·
∑−→dj /∈Dck
−→dj
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38
![Page 32: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/32.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Centroid
Sum: −→ck =∑
−→dj ∈Dck
−→dj
Average: −→ck =1
|Dck|·
∑−→dj ∈Dck
−→dj
NormSum: −→ck =1
‖∑−→dj ∈Dck
−→dj ‖
·∑
−→dj ∈Dck
−→dj
Rocchio: −→ck = β · 1
|Dck|·
∑−→dj ∈Dck
−→dj − γ · 1
|D − Dck|·
∑−→dj /∈Dck
−→dj
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38
![Page 33: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/33.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Naive Bayes
P(ck |−→dj ) =
P(ck)P(−→dj |ck)
P(−→dj )
≈|T |∑i=1
wij logPik(1− Pik)
Pik(1− Pik)
Considera a probabilidade de um documento pertencer a uma determinadaclasse.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38
![Page 34: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/34.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Naive Bayes
P(ck |−→dj ) =
P(ck)P(−→dj |ck)
P(−→dj )
≈|T |∑i=1
wij logPik(1− Pik)
Pik(1− Pik)
Considera a probabilidade de um documento pertencer a uma determinadaclasse.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38
![Page 35: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/35.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
Naive Bayes
P(ck |−→dj ) =
P(ck)P(−→dj |ck)
P(−→dj )
≈|T |∑i=1
wij logPik(1− Pik)
Pik(1− Pik)
Considera a probabilidade de um documento pertencer a uma determinadaclasse.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38
![Page 36: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/36.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
LSIp
Ter
mos
r Docs
p × r
=
p × c
T0
×
c × c
S0
×
c × r
D0
≈X
X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal
Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38
![Page 37: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/37.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
LSIp
Ter
mos
r Docs
p × r
=
p × c
T0
×
c × c
S0
×
c × r
D0
≈X
X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal
Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38
![Page 38: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/38.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
LSIp
Ter
mos
r Docs
p × r
=
p × c
T0
×
c × c
S0
×
c × r
D0
≈X
X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal
Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38
![Page 39: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/39.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
LSIp
Ter
mos
r Docs
p × r
=
p × c
T0
×
c × c
S0
×
c × r
D0
≈X
X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal
Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38
![Page 40: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/40.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
SVM
Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38
![Page 41: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/41.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
SVM
Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38
![Page 42: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/42.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
SVM
Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38
![Page 43: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/43.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
SVM
Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38
![Page 44: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/44.jpg)
Introducao Classificacao de Texto
Metodos de Classificacao
SVM
minimizar −n∑
i=1
αi +1
2
n∑i ,j=1
αiαjyiyj ∗ K (di , dj)
tal quen∑
i=1
αiyi = 0 e ∀iαi ≥ 0
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 14 / 38
![Page 45: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/45.jpg)
Introducao Classificacao de Texto
Medidas de Avaliacao
Accuracy
Accuracy =#Documentos correctamente classificados
#Total de documentos
MRR
MRR(n) =
∑#Total queriesi=1 (( 1
ranki) or 0)
#Total queries
onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38
![Page 46: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/46.jpg)
Introducao Classificacao de Texto
Medidas de Avaliacao
Accuracy
Accuracy =#Documentos correctamente classificados
#Total de documentos
MRR
MRR(n) =
∑#Total queriesi=1 (( 1
ranki) or 0)
#Total queries
onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38
![Page 47: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/47.jpg)
Ambiente Experimental
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 16 / 38
![Page 48: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/48.jpg)
Ambiente Experimental
Conjuntos de Dados
Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe
Bank37 928 463 1391 5 346
20Ng 11293 7528 18821 628 999
R8 5485 2189 7674 51 3923
R52 6532 2568 9100 3 3923
Web4 2803 1396 4199 504 1641
Cade12 27322 13661 40983 625 8473
Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38
![Page 49: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/49.jpg)
Ambiente Experimental
Conjuntos de Dados
Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe
Bank37 928 463 1391 5 346
20Ng 11293 7528 18821 628 999
R8 5485 2189 7674 51 3923
R52 6532 2568 9100 3 3923
Web4 2803 1396 4199 504 1641
Cade12 27322 13661 40983 625 8473
Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38
![Page 50: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/50.jpg)
Ambiente Experimental
Conjuntos de Dados
Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe
Bank37 928 463 1391 5 346
20Ng 11293 7528 18821 628 999
R8 5485 2189 7674 51 3923
R52 6532 2568 9100 3 3923
Web4 2803 1396 4199 504 1641
Cade12 27322 13661 40983 625 8473
Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38
![Page 51: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/51.jpg)
Ambiente Experimental
Conjuntos de Dados
Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe
Bank37 928 463 1391 5 346
20Ng 11293 7528 18821 628 999
R8 5485 2189 7674 51 3923
R52 6532 2568 9100 3 3923
Web4 2803 1396 4199 504 1641
Cade12 27322 13661 40983 625 8473
Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38
![Page 52: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/52.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 53: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/53.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 54: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/54.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 55: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/55.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 56: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/56.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 57: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/57.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 58: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/58.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 59: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/59.jpg)
Ambiente Experimental
IREP
Pre-processa os documentos e passa-os para os metodos.
Usa as mesmas medidas de avaliacao com todos os metodos.
Permite uma facil incorporacao de novos metodos.
Permite uma facil combinacao dos metodos existentes.
Permite uma facil mudanca dos parametros para cada metodo.
Pode ser chamado repetidamente a partir de uma shell.
Produz resultados num formato compreensıvel.
IREP
e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38
![Page 60: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/60.jpg)
Comparacao dos Metodos Existentes
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 19 / 38
![Page 61: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/61.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 62: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/62.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 63: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/63.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 64: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/64.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 65: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/65.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 66: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/66.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
Centroid
SVMN-Bayes
k-NN
LSI
Vector
Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38
![Page 67: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/67.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
Dos varios metodos baseados em centroides, C-NormSum e o melhor.
A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.
C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.
Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38
![Page 68: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/68.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
Dos varios metodos baseados em centroides, C-NormSum e o melhor.
A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.
C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.
Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38
![Page 69: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/69.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
Dos varios metodos baseados em centroides, C-NormSum e o melhor.
A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.
C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.
Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38
![Page 70: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/70.jpg)
Comparacao dos Metodos Existentes
Desempenho dos Metodos Existentes
Dos varios metodos baseados em centroides, C-NormSum e o melhor.
A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.
C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.
Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38
![Page 71: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/71.jpg)
Combinacoes entre Metodos
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 22 / 38
![Page 72: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/72.jpg)
Combinacoes entre Metodos
Metodos de Classificacao Existentes
Espaco de termosp dimensional
Espaco de conceitoss << p dimensional
LSI
SVM
k-NN
VectorSimilaridade do Coseno
k-NN + Similaridade do Coseno
Kernel + Estrategia de Votacao
SVD Similaridade do Coseno
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38
![Page 73: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/73.jpg)
Combinacoes entre Metodos
Metodos de Classificacao Existentes
Espaco de termosp dimensional
Espaco de conceitoss << p dimensional
LSI
SVM
k-NN
VectorSimilaridade do Coseno
k-NN + Similaridade do Coseno
Kernel + Estrategia de Votacao
SVD Similaridade do Coseno
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38
![Page 74: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/74.jpg)
Combinacoes entre Metodos
Metodos de Classificacao Existentes
Espaco de termosp dimensional
Espaco de conceitoss << p dimensional
LSI
SVM
k-NN
VectorSimilaridade do Coseno
k-NN + Similaridade do Coseno
Kernel + Estrategia de Votacao
SVD Similaridade do Coseno
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38
![Page 75: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/75.jpg)
Combinacoes entre Metodos
Combinacoes com LSI
Espaco de termosp dimensional
Espaco de conceitoss << p dimensional
SVD
k-NN-LSI
SVM-LSI
k-NN + Similaridade do Coseno
Kernel + Estrategia de Votacao
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38
![Page 76: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/76.jpg)
Combinacoes entre Metodos
Combinacoes com LSI
Espaco de termosp dimensional
Espaco de conceitoss << p dimensional
SVD
k-NN-LSI
SVM-LSI
k-NN + Similaridade do Coseno
Kernel + Estrategia de Votacao
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38
![Page 77: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/77.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 78: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/78.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 79: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/79.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 80: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/80.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 81: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/81.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 82: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/82.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
0.0
0.2
0.4
0.6
0.8
1.0
Bank37 20Ng R8 R52 Web4 Cade12
k-NN
SVM
LSI
k-NN-LSI
SVM-LSI
Valores de Accuracy para os seis conjuntos de dados usando cada metodo.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38
![Page 83: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/83.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.
SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38
![Page 84: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/84.jpg)
Combinacoes entre Metodos
Desempenho das Combinacoes entre Metodos
k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.
SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38
![Page 85: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/85.jpg)
Utilizacao de Documentos Nao Etiquetados
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 27 / 38
![Page 86: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/86.jpg)
Utilizacao de Documentos Nao Etiquetados
Utilizacao de Documentos Nao Etiquetados
Quando usar documentos nao etiquetados:
Quando existem pequenas quantidades de documentos etiquetados.
Quando existem muitos documentos nao etiquetados.
Quando e difıcil ou “caro” classificar mais documentos.
Como incorporar a informacao dos documentos nao etiquetados:
Usando EM.
Incrementalmente.
Porque usar um metodo baseado em centroides:
Porque e rapido.
Porque tem uma boa Accuracy.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38
![Page 87: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/87.jpg)
Utilizacao de Documentos Nao Etiquetados
Utilizacao de Documentos Nao Etiquetados
Quando usar documentos nao etiquetados:
Quando existem pequenas quantidades de documentos etiquetados.
Quando existem muitos documentos nao etiquetados.
Quando e difıcil ou “caro” classificar mais documentos.
Como incorporar a informacao dos documentos nao etiquetados:
Usando EM.
Incrementalmente.
Porque usar um metodo baseado em centroides:
Porque e rapido.
Porque tem uma boa Accuracy.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38
![Page 88: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/88.jpg)
Utilizacao de Documentos Nao Etiquetados
Utilizacao de Documentos Nao Etiquetados
Quando usar documentos nao etiquetados:
Quando existem pequenas quantidades de documentos etiquetados.
Quando existem muitos documentos nao etiquetados.
Quando e difıcil ou “caro” classificar mais documentos.
Como incorporar a informacao dos documentos nao etiquetados:
Usando EM.
Incrementalmente.
Porque usar um metodo baseado em centroides:
Porque e rapido.
Porque tem uma boa Accuracy.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38
![Page 89: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/89.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 90: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/90.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 91: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/91.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 92: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/92.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 93: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/93.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 94: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/94.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 95: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/95.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Usando EM
Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38
![Page 96: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/96.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 97: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/97.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 98: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/98.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 99: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/99.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 100: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/100.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 101: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/101.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 102: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/102.jpg)
Utilizacao de Documentos Nao Etiquetados
Incorporar a Informacao Incrementalmente
Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.
Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:
Classificar dj de acordo com a sua semelhanca a cada um doscentroides.
Actualizar os centroides com o novo documento dj classificado nopasso anterior.
Saıdas: Para cada classe cj , o centroide −→cj .
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38
![Page 103: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/103.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
0 5 10 15 20 25 30 35 40
Acc
ura
cy
Documentos etiquetados para cada classe
R8
CentroidC-EMC-Inc
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 31 / 38
![Page 104: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/104.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0 10 20 30 40 50 60 70
Acc
ura
cy
Documentos etiquetados para cada classe
20Ng
CentroidC-EMC-Inc
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 32 / 38
![Page 105: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/105.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0 10 20 30 40 50 60 70
Acc
ura
cy
Documentos etiquetados para cada classe
Web4
CentroidC-EMC-Inc
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 33 / 38
![Page 106: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/106.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 10 20 30 40 50 60 70
Acc
ura
cy
Documentos etiquetados para cada classe
Cade12
CentroidC-EMC-Inc
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 34 / 38
![Page 107: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/107.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.
Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.
Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38
![Page 108: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/108.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.
Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.
Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38
![Page 109: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/109.jpg)
Utilizacao de Documentos Nao Etiquetados
Desempenho da Utilizacao de Docs Nao Etiquetados
A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.
Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.
Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38
![Page 110: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/110.jpg)
Contribuicoes
Outline
1 Introducao
2 Ambiente Experimental
3 Comparacao dos Metodos Existentes
4 Combinacoes entre Metodos
5 Utilizacao de Documentos Nao Etiquetados
6 Contribuicoes
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 36 / 38
![Page 111: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/111.jpg)
Contribuicoes
Contribuicoes Principais
Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.
Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.
Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.
Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.
Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38
![Page 112: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/112.jpg)
Contribuicoes
Contribuicoes Principais
Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.
Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.
Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.
Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.
Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38
![Page 113: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/113.jpg)
Contribuicoes
Contribuicoes Principais
Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.
Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.
Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.
Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.
Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38
![Page 114: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/114.jpg)
Contribuicoes
Contribuicoes Principais
Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.
Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.
Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.
Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.
Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38
![Page 115: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/115.jpg)
Contribuicoes
Contribuicoes Principais
Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.
Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.
Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.
Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.
Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38
![Page 116: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´](https://reader034.fdocuments.co/reader034/viewer/2022051823/5fed13666304836fad702d71/html5/thumbnails/116.jpg)
Obrigada.
(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 38 / 38