Análisis de la expresión de los ARF y Aux/IAA durante la ...
Paper de iaa
-
Upload
cindhy-celi -
Category
Lifestyle
-
view
2.516 -
download
3
Transcript of Paper de iaa
RECONOCIMIENTO DE PATRONES PARA MEDIR LA
USUABILIDAD DE LAS HERRAMNIENTAS WEB 2.0
Vanessa Cindhy Celi Loja, Ecuador
Ing. Nelson Piedra
Ing. Nelson Piedra
Loja, Ecuador
RESUMEN
En Inteligencia Artificial (IA) utiliza varios métodos
entre la cuáles podemos encontrar árboles de
clasificación, redes bayecianas, redes neuronales y
modelos ocultos de Markov.
El objetivo de este proyecto es encontrar un patrón
de comportamiento para medir la usabilidad de las
herramientas Web.2.0 .
Términos Generales
Algoritmos, Finanzas, Experimentación, Verificación.
Palabras claves
Arboles de clasificación.
Inteligencia Artificial.
1.INTRODUCCIÓN
Para medir la usabilidad nos basamos en ciertos
criterios y estándares que debe cumplir una pagina
Web . Para esto es necesario definir las variables
predoctoras o independientes para realizarlo
mediante redes bayecianas que se fundamentan en
la teoría de probabilidades, y combinan la potencia
del teorema de Bayes con la expresividad semántica
de los grafos dirigidos, estos permiten representar un
modelo casual por medio de una representación
gráfica.
Motivación
El uso de la Inteligencia Artificial (IA) en
aplicaciones de clasificación es un tema muy
importante ayudando a que las técnicas de IA se
adapten a los problemas reales, esto es lo que ha
motivado el trabajo investigativo con el objetivo de
comprender la importancia que representa la
inteligencia artificial para ayudar en la toma de
decisiones a través de técnicas de minería de datos
[10] e inteligencia artificial.
Los patrones de reconocimiento nos ayudarían a
reducir el tiempo en medir la usabilidad de la página
Web
Planteamiento del problema
Hoy en día las herramientas Web 2.0 han alcanzado
un gran auge por eso es importante la usabilidad de
cada una de ellas ya que la mayoría de personas
acceden a estas herramientas por lo tanto, existen
algunas técnicas que permiten encontrar patrones de
comportamiento basados en un conjunto de variables
independientes, que se pueden aplicar para medir la
usabilidad como son las redes bayecianas.
Objetivo
El objetivo principal del presente trabajo es
primeramente definir las características principales o
el reconocimiento de patrones que permitan mejorar
el proceso de medición de la usabilidad de las
herramientas Web 2.0
1ESTADO DEL ARTE
1.1Como medir la usabilidad
Para medir la usabilidad de las herramientas Web 2.0
he utilizado una serie de parámetros obtenida a
partir de los estándares ISO 9241 y la ISO 9126 .
De toda esta lista de parámetros se escoge los más
representativos para las diferentes audiencias que
ingresan a las herramientas Web 2.0.
1.2 Fundamentos de reconocimiento de patrones
1.2.1Reconocimiento de patrones
Tomado de [3], un patrón es una entidad a la que se
puede dar un nombre y que está representada por un
conjunto de propiedades medidas y las relaciones
entre ellas (vector de características). Por ejemplo, un
patrón puede ser una señal sonora y su vector de
características el conjunto de coeficientes espectrales
extraídos de ella.
Reconocimiento de patrones lo define el autor de esta
investigación [3] como: “La categorización de datos
de entrada en clases identificadas, por medio de la
extracción de características significativas o atributos
de los datos extraídos de un medio ambiente que
contiene detalles irrelevantes”.
El reconocimiento de patrones [11], tienes un punto
esencial que es la clasificación que permite clasificar
clases de acuerdo a sus características, el objetivo es
clasificar patrones con base en un conocimiento a
priori o información estadística extraída de los
patrones. Los patrones a clasificar suelen ser grupos
de medidas u observaciones.
Para la clasificación se puede usar un conjunto de
aprendizaje, del cual ya se conoce la clasificación de
la información a priori y se usa para entrenar al
sistema, siendo la estrategia resultante conocida como
aprendizaje supervisado.
En wikipedia se listan algunas de las aplicaciones
donde se aplica reconocimiento de patrones, entre
ellas: reconocimiento de voz, la clasificación de
documentos (por ejemplo spam/no spam), el
reconocimiento de escritura, reconocimiento de caras
humanas y muchas más, derivándose las dos últimas
del análisis de imágenes.
1.2.2 Redes Bayesianas
Las redes bayesianas conforman una manera práctica
y compacta de representar el conocimiento incierto
basada en esta idea.
Las redes bayesianas modelan un fenómeno mediante
un conjunto de variables y las relaciones de
dependencia entre ellos.
Las redes bayesianas son una presentación gráfica
de dependencias directas entre ellas.
Las redes bayesianas también se las conoce con el
nombre:
. Redes de creencias
. Redes probabilísticas
. Redes casuales.
. Mapas de conocimiento.
Imagen 1. Ejemplo de Redes Bayesianas [13]
1.2.3.1Aprendizaje Automático de la red Bayesianas
Si se toma un sistema experto que constituye una
rede bayesiana esta debe cambiar conforme
aumentan los datos concretos o casos, así en sus
primeros pasos las red bayesiana puede ser construida
según la opinión de los expertos o bien según la
información de la que se parte o teniendo en cuenta
ambas cosas. Conforme vamos añadiendo
información al red se va modificando tanto su
estructura como los parámetros mediante un proceso
de aprendizaje
1.2.4 Clasificadores Bayesianos
El clasificador bayesiano es una función que se
asigna al valor que tiene un atributo discreto que
toma el nombre de clase o instancia. Un sistema
experto puede tomar la misma actividad que un
clasificador.
En el caso que la base de conocimientos sea una red
bayesianas, la función de clasificación estará
definida atreves de probabilidades condicionadas.
1.2.5Descripción de los Algoritmos de aprendizaje
Clasificador Naive Bayes.- Este clasificador es el
que se utiliza es el que se utiliza en el teorema de
Bayes en conjunción con la hipótesis de
independencia condicional de las variables
predictoras
1.3MINERIA DE DATOS
La minería de datos[8],[9] es una parte de todo el
proceso de la extracción del conocimiento útil y
comprensible, previamente desconocido, desde bases
de datos heterogéneas, la minería de datos se encarga
de reunir ventajas de varias áreas como la Estadística,
la Inteligencia Artificial, la Computación Gráfica, las
Bases de Datos y el Procesamiento Masivo.
Por lo general la definición más común de minería de
datos es: Un proceso no trivial de identificación
válida, novedosa, potencial útil y entendible de
patrones comprensibles que se encuentran ocultos en
los datos [8]. Sin embargo existen definiciones
enfocadas hacia otros puntos de vista como el
enfoque empresarial que es: La integración de un
conjunto de áreas que tienen como propósito la
identificación de un conocimiento obtenido a partir
de las bases de datos que aporten un
2.DESARROLLO E IMPLEMENTACIÓN
2.1Identificación de las variables
Para la identificación de las variables se realizó un
estudio de los estándares que se utilizan para medir la
usabilidad de una página tomando las variables con
mayor poder predictivo. En Tabla 1 se muestra un
listado y descripción de las mismas:
Tabla 1. Descripción de las variables predictoras
NOMBRE
VARIABLE
DESCRIPCIÓN
REQUISITOS
ESTUDIANTE/GARANTE
Facilidad de Esto se refiera si que
los programas son lo
aprendizaje más intuitivo posible
Navegabilidad
de la página
principal
Un sitio debe ser
cómodo para el usuario,
debe ser fácilmente
navegable. El usuario
tiene que poder ir de un
lado a otro del sitio
rápidamente y sin
perderse.
Atractividad
del sitio
Que la interfaz del sitio
sea amigable al usuario
Calidad de
ayuda
Que tenga temas
concretos y que sea fácil
de entender
Audiencia Los usuarios que tiene
el sitio
2.2Metodología
La metodología aplicada en la investigación es:
Seleccionar las variables predictoras más
importantes.
Descripción de las variables predictoras y la
variable clase.
Aplicación del las redes bayesianas
Analizar el resultado
3.2.1Adquisición y proceso de datos
Se ha tomado como muestra datos en base a los
requerimientos necesarios para medir la usabilidad de
un sitio para obtener el crédito. En la Tabla 2 se
muestra los datos tomados como muestra de las
características principales.
Las variables tomadas en cuenta para el diseño del
modelo se describen en la Tabla 2,
Tabla 2. Datos iniciales de prueba
Tomando en cuenta los requisitos más importantes
para medir la usabilidad de un sitio se ha creado la
tabla de datos que se muestra en Tabla 2 que serán
como datos de entrada, donde las variables más
decisivas para medir la usabilidad son :
Herramientaweb {Wiki, Música, Documentos,
AgregaciónVideo, Video, Fotos, Locación,
ClientesServicioRed, NichosRed, RedesSociales,
MensajeríaVoz, Podcasting, MarcadoresSociales,
Micromedia, ComunidadesBlog, ConversaciónBlog,
PlataformasBlogs, VideoBlogs}
Facilidadaprendizaje numeric
navegabilidaddelapaginaprincipal numeric
atractividaddelsitio numeric
Calidaddeayuda numeric
Audiencia numeric
usabilidad {si,no}
Para su posterior ejecución se ha creado un archivo
de datos .arff, denominado herramientasweb2.0.arff
con un total de 84 instancias, a continuación una
muestra:
@attribute Herramientaweb {Wiki,
Música, Documentos, AgregaciónVideo,
Video, Fotos, Locación,
ClientesServicioRed, NichosRed,
RedesSociales, MensajeríaVoz,
Podcasting, MarcadoresSociales,
Micromedia, ComunidadesBlog,
ConversaciónBlog, PlataformasBlogs,
VideoBlogs}
@attribute Facilidadaprendizaje
numeric
@attribute
navegabilidaddelapaginaprincipal
numeric
@attribute atractividaddelsitio
numeric
@attribute Calidaddeayuda numeric
@attribute Audiencia numeric
@attribute usabilidad {si,no}
@data
Wiki, 0.90, 0.90, 0.90, 0.90, 0.90,
si
Música, 0.45, 0.30, 0.56, 0.35,
0.25, no
Documentos, 0.90, 0.90, 0.90, 0.90,
0.90, si
AgregaciónVideo, 0.70, 0.70, 0.70,
0.70, 0.70, si
Video, 0.85, 0.75, 0.85, 0.70, 0.85,
si
Fotos, 0.90, 0.90, 0.90, 0.90, 0.90,
si
Locación, 0.45, 0.30, 0.56, 0.35,
0.25, no
ClientesServicioRed, 0.90, 0.90,
0.90, 0.90, 0.90, si
NichosRed, 0.70, 0.70, 0.70, 0.70,
0.70, si
RedesSociales, 0.85, 0.75, 0.85,
0.70, 0.85, si
MensajeríaVoz, 0.45, 0.30, 0.56,
0.35, 0.25, no
Podcasting, 0.90, 0.90, 0.90, 0.90,
0.90, si
MarcadoresSociales, 0.90, 0.90,
0.90, 0.90, 0.90, si
Micromedia, 0.70, 0.70, 0.70, 0.70,
0.70, si
ComunidadesBlog, 0.85, 0.75, 0.85,
0.70, 0.85, si
ConversaciónBlog, 0.90, 0.90, 0.90,
0.90, 0.90, si
PlataformasBlogs, 0.45, 0.30, 0.56,
0.35, 0.25, no
VideoBlogs, 0.90, 0.90, 0.90, 0.90,
0.90, si
2.3Herramientas a utilizar
2.3.1Weka
Imagen 2. Interfaz Weka
La herramienta que se ha elegido para el trabajo es
Weka [6], es una colección de algoritmos de
aprendizaje automático para tareas de minería de
datos. Los algoritmos pueden ser aplicados
directamente a un conjunto de datos o llamada de su
propio código Java. Weka contiene herramientas de
datos pre-procesamiento, clasificación, regresión,
clustering, reglas de asociación y visualización.
También es muy apropiada para el desarrollo de
nuevos sistemas de aprendizaje automático. Se ha
tomado en cuenta esta herramienta porque presenta la
utilización de algoritmos de clasificación mediante el
uso de redes bayesianas.
3.RESULTADOS
3.1 Árbol de clasificación
Imagen 3. Árbol generado con el algoritmo J48
En la
Imagen 3 se muestra el gráfico que vota el algoritmo
bayes net
Para obtener los patrones de comportamiento se
tomará la información de cada variable con la
respectiva clasificación de cada nodo final o nodo
hoja a partir del árbol mostrado en la
Imagen 3.
3.1.1Algoritmo Bayesnet
Los resultados obtenidos en el algoritmo de bayesnet
son los siguientes:
3.2Validación de resultados
3.2.1Algoritmo de árbol J48
A continuación se evalúa la capacidad de confianza
del algoritmo de bayesnet para ver si las herramientas
cumple con los estándares de seguridad, teniendo
como resultados instancias correctamente clasificadas
18 con un porcentaje de 100% y 0 instancias
incorrectamente clasificadas con porcentaje de 0%.
Imagen 4. Resultados de la clasificación de
instancias
En la
Imagen 5, se muestra la matriz de confusión, con
respecto a la clase si tiene un error de 0 ya que el
valor correcto sería 14, con la clase no tiene un error
de 4 ya que debería ser 4.
Imagen 5. Matriz de confusión bayesnet
3.2.2Algoritmo de neivesbayetnet
Para evaluar los resultados con el algoritmo bsyesnet
se ha tomada la matriz de confusión
En la Imagen 6, se muestra la matriz de confusión de
JRip, con respecto a la clase si tiene un error de 5 ya
que el valor correcto sería 36, en la clase no tiene un
error de 1 ya que debería ser 48.
Imagen 6. Matriz de neivebayesnet
3.3Comparación de los algoritmos
A continuación se hace una comparación de los 2
algoritmos aplicados en base a los resultados
obtenidos.
Los mejores resultados los ofrece el algoritmo de
reglas de decisión J48 ya que define de una manera
más precisa los patrones de comportamiento, de
acuerdo a la clasificación de instancias y a los valores
de la matriz de confusión.
Tabla 3. Comparación de bayesnet y
neivebayesnet
COMPARACIÓN DE LOS ALGORITMOS
ALGORITM
O
Instancias
correctament
e clasificadas
Instancias
correctament
e clasificadas
%
Error
bayesnet 18100% 00% 0%
neivebayesnet 18100% 00 21,1
%
3.4 Clementine 12.0
Clementine es una herramienta de data mining que
permite desarrollar de forma rápida modelos
predictivos y desplegarlos para mejorar la toma de
decisiones. Clementine es conocida mundialmente
como la herramienta líder de data mining, ya que
entrega el máximo retorno de inversión de sus datos
en poco tiempo. A diferencia de otras herramientas de
data mining – que fracasan en el soporte del ciclo de
negocio completo de data mining y se centran
simplemente en modelos para destacar el rendimiento
– Clementine apoya el ciclo completo de data mining
para reducir el tiempo hasta la solución final.
Clementine está diseñada considerando los estándares
de la industria del data mining – CRISP-DM (CRoss
Industry Standard Process for Data Mining). CRISP-
DM hace de data mining un proceso de negocio al
enfocar la tecnología de data mining en resolver
problemas de negocio específicos.
3.5 Desarrollo
Disponemos de los datos acerca de la usabilidad de
las herramientas web 2.0 dependiendo de diversas
variables El objetivo es poder medir la usabilidad de
las herramientas web 2.0. Los datos están en el
fichero: “basededatos.txt” y son los siguientes:
3.6 Entorno
En esta imagen se puede observar los datos la tabla
el tipo y el modelo a escoger,
El modelo que se escogió es bayes net con la
finalidad de comparar los resultados obtenidos en
ambas herramientas
3.7 Red bayesiana y probabilidad condicional del
sitio
Las variables predictoras son las que se encuentran
de color azul y la variable de salida es la de color
rojo
La red es creada mediante este cuadro de padres y
probabilidades dentro de la usabilidad cuando es
menor a 0.662 el uno significa no y cero si mediante
estas probabilidades se va creando la rede bayesianas
3.8 Matriz
Al comparar los resultados con weka son los mismos existe 18
instancias correctas con un 100%
3.9 Tabla de auditoría de datos
En esta tabla de auditoría nos da una breve información del
proyecto nos presenta gráfico
4.CONCLUSIONES
El uso de los algoritmos bayesnet,
neivebayesnet y la herramienta weka son de
mucha utilidad ya que permiten tomar
decisiones al momento de analizar cada caso,
identificando cuales son las características
más relevantes medir la accesibilidad de las
herramientas , a través de clasificación y
visualización de datos.
El numero de datos tanto para la base de
datos como para la de entrenamiento tiene
que ser representativa para obtener los
resultados más aproximados.
Los resultados presentados son una
aproximación a la realidad ya que se ha
tomado una muestra de los posibles casos que
pueden ocurrir.
Los algoritmos de clasificación pueden ser
aplicados en diferentes campos donde se
requiera clasificar un conjunto de datos,
tomando en cuenta las diferentes variables
aplicadas.
Luego de los resultados obtenidos de cada
algoritmo se concluye con certeza que el
algoritmo neivebayesnet tiene un nivel de
confianza más aproximado que bayesnet.
5.REFERENCIAS
María Del Carmen Sosa Sierra, “Inteligencia
artificial en la gestión financiera empresarial”,
http://ciruelo.uninorte.edu.co/pdf/pensamiento_ge
stion/23/6_Inteligencia%20artificial.pdf
Carlos J. Alonso González, Departamento de
Informática, “Inducción de Reglas
Proposicionales”,
http://www.infor.uva.es/~calonso/IAII/Aprendizaj
e/InduccionReglasProposicionales.pdf
Jesús Walter Salinas Flores, “Reconocimiento de
patrones de morosidad para un producto
crediticio usando la técnica de árbol de
clasificación CART”,
http://www.cybertesis.edu.pe/sisbib/2005/salinas
_fj/html/index-frames.html
María José Vázquez Cueto, Dolores Gómez
Domínguez, “Arboles de clasificación: una
metodología para el análisis de crisis bancarias”,
2009,
http://www.asepelt.org/ficheros/File/Anales/2005
%20-
%20Badajoz/comunicaciones/%E1rboles%20de
%20clasificaci%F3n....pdf
Eduardo Morales Manzanares, 2005,
“Escalamiento de Algoritmos”,
http://ccc.inaoep.mx/~emorales/Cursos/KDD03/n
ode54.html
Alejandro Boris Valiente y Zaida Cebrián
Jiménez, “Inteligencia en Redes de
Comunicaciones: Practica Weka, Diagnostico y
Cardiología”
http://www.it.uc3m.es/jvillena/irc/practicas/05-
06/12mem.pdf
F. Valenga, I. Perversi, E. Fernández, H. Merlino,
D. Rodríguez, P. Britos y R. García Martínez,
“Aplicacion de mineria de datos para la
exploracion y deteccion de patrones delictivos en
Argentina”,
http://www.itba.edu.ar/archivos/secciones/98JIISI
C-08-31-39.pdf
Inflexa, “Qué es Minería de Datos”,
http://www.inflexa.com/inflexa/soluciones/mineri
adedatos/
Olmos Pineda “Minería de datos”, Instituto
Tecnológico de Puebla, México, 1992.
http://www.itpuebla.edu.mx/Eventos/Memoriasy
ResSemanaInformatica2007/02-
%20IvanOlmosPineda.pdf,
Instituto Ecuatoriano de Crédito Educativo y
Becas, http://www.iece.fin.ec/LaInstitucion.aspx
Wikipedia, “Reconocimiento de patrones,
”http://es.wikipedia.org/wiki/Reconocimiento_de
_patrones
Pablo Lázaro Grande Benito, 2008,
http://recuperacion-organizacion-
informacion.atspace.com/extraccion_informacion
_clasificacion_supervisada/arboles-decision.html
http://farm4.static.flickr.com/3249/2747320896_1
738560745_o.jpg
Aitor Puerta Goicoechea, “Imputación basada en
árboles de clasificación”, 2002,
http://www.eustat.es/document/datos/ct_04_c.pdf
http://www.um.es/geograf/sigmur/teledet/tema09.
Wikipedia, Algoritmo ID3,
http://es.wikipedia.org/wiki/Algoritmo_ID3
Basilio Sierra Araujo, Aprendizaje Automático:
conceptos básicos y avanzados, Aspectos básicos
utilizando en software WEKA, Universidad del
País Vasco, 2006
Sofía J. Vallejos, Minería de Datos, Argentina,
2006,
http://exa.unne.edu.ar/depar/areas/informatica/Sis
temasOperativos/Mineria_Datos_Vallejos.pdf
Carlos Damián Mirabella, “Descubrimiento del
conocimiento en bases de datos”,
http://www.exa.unicen.edu.ar/catedras/dbdiscov/
mirabella.pd
ANEXOS
Como anexos se ha añadido la corrida de los
algoritmos en la herramienta Weka.
En la Ilustración 1, se puede contemplar la vista de la
herramienta weka, donde se muestra todos los
atributos (variables) del archivo
IECEEntrenamiento.arff utilizado para la obtención
de los patrones.
Ilustración 1. Vista principal: Atributos
En la
Ilustración 2, se visualiza los datos creados en el
archivo IECEEntrenamiento.arff
Ilustración 2. Datos en Weka
En la
Ilustración 3, se muestra los resultados visuales de los
datos de todas las variables, ingresados en el archivo
Herramientasweb2.0.arff.
Ilustración 3. Visualización de todas las variables