ANÁLISIS MULTIVARIADO DE DATOS - …myuvmcollege.com/uploads/lectura2011-05/CAPÍTULO 5-182.pdf ·...
Transcript of ANÁLISIS MULTIVARIADO DE DATOS - …myuvmcollege.com/uploads/lectura2011-05/CAPÍTULO 5-182.pdf ·...
5.1 Análisis
multivariado de datos
• Los procedimientos multivariados
son herramientas poderosas para
analizar los diversos tipos de
datos de investigación de
mercados
5.1 Análisis de
regresión múltiple
• El análisis de regresión
múltiple es la técnica
multivariada adecuada cuando
el investigador desea
examinar la relación entre dos
o más variables métricas para
predicción (independientes) y
una variable métrica
dependiente (criterio)
• Al ser una extensión de la
regresión bivariada, en vez de
adaptar una línea recta a
observaciones en un espacio
bidimensional, dicho análisis
adapta un plano a las
observaciones realizadas en el
espacio multidimensional
• Los resultados y la
interpretación de la regresión
múltiple es fundamentalmente
iguales que en la regresión
bivariada
• La ecuación general para la
regresión múltiple es:
Y = a + b1 X1 + b2 X2 + b3 X3 +….+ bn Xn
donde
Y = Variable dependiente o de criterio
a = Constante estimada
b1-n =
Coeficientes asociados con las variables para predicción, de manera
que una modificación de una unidad en X provoque un cambio en b1
unidades en Y; los valores de los coeficientes se estiman mediante
análisis de regresión
X1-n = Variables para predicción (independientes) que influyen en la
variable dependiente
EJEMPLO:
• Considere la siguiente
ecuación de regresión
(observe que los valores de a,
b1 y b2se estiman por análisis
de regresión):
Y = 200 + 17X1 + 22X2
donde
Y = Ventas estimadas en unidades
X1 = Gastos publicitarios
X2= Cantidad de vendedores
• Esta ecuación indica que las
ventas se incrementan 17
unidades por cada aumento
de un dólar en publicidad y 22
unidades por cada aumento
de una unidad en el número
de vendedores
Y = 200 + 17X1 + 22X2
Posibles aplicaciones de
la regresión múltiple
• Estimar los efectos de diversas
variables de la mezcla de
mercado en las ventas o en la
participación de mercado
• Estimar la relación entre diversos
factores demográficos o
psicográficos y la frecuencia de
las visitas a los restaurantes de
comida rápida o a otros negocios
de servicios
• Determinar la influencia
relativa de los elementos de
satisfacción individual sobre la
satisfacción general
• Cuantificar la relación entre
diversas variables de
clasificación como edad e
ingresos, y la actitud general
hacia un producto o servicio
• Determinar las variables que
permiten predecir las ventas
de determinado producto o
servicio
• El análisis de regresión múltiple
se emplea con uno de dos
objetivos básicos o una
combinación de ambos: predecir
el nivel de la variable dependiente
con base en determinados
niveles de las variables
predictoras o comprender la
relación entre las variables
independientes y la variable
dependiente
Medidas del análisis de
regresión múltiple
• Coeficiente de determinación, o
R2: Es preferible que su valor sea
cercano a 1
• Los valores de b, o coeficientes
de regresión, indican el efecto
de cada variable independiente
en la variable dependiente
Variables artificiales
• El analista necesita incluir
variables independientes con
escala nominal como género,
estado civil, ocupación o raza en
el análisis de regresión múltiple,
para lo cual crea las variables
artificiales o dummy
• Las variables independientes
dicótomas de escala nominal
se transforman en variables
artificiales mediante la
codificación de un valor (por
ejemplo, sexo femenino) como
0 y el otro (digamos, sexo
masculino) como 1
• Para variables nominales de
escala independiente que pueden
adoptar más de dos valores, se
requiere un método un tanto
distinto
• Considere el problema de grupos
raciales con tres posibles
respuestas: afroestadounidenses,
hispánicos o caucásicos
• Para efectuar la codificación
de variables artificiales o
binarias de las respuestas, se
emplean dos variables
artificiales Xl y X2, que se
pueden codificar como sigue:
Xl X2
Si la persona es afroestadounidense 1 0
Si la persona es hispánica 0 1
Si la persona es caucásica 0 0
Problemas potenciales
en el uso e
interpretación del
análisis de regresión
múltiple
Colinearidad
• Cuando los datos del análisis
de regresión no tiene relación
entre si
Causalidad
• La correlación ni demuestra
causalidad, es sólo un indicador
Escalas de coeficientes
• Para efectuar comparaciones
directas entre los coeficientes
de regresión, todas las
variables independientes
deben medirse en las mismas
unidades
Ejemplo:
Y = 50 + 20X1 + 20X2
donde
Y = Volumen estimado de ventas
X1 = Gastos publicitarios en miles de dólares
X2= Cantidad de vendedores
• Parece que el dinero que se gasta en
publicidad y el vendedor adicional
ejercen igual efecto en las ventas. Sin
embargo, consideraciones más
amplias revelan que esto es falso
porque Xl y X2 se midieron con
distintos tipos de unidades
• La estandarización se lleva a cabo
tomando cada número de la serie, se
le resta la media de la serie y el
resultado se divide entre la
desviación estándar de dicha serie.
A continuación se da la ecuación para
el proceso:
donde
Xi = Número individual de una serie de números
X = Media de la serie
= Desviación estándar de la media
Tamaño de la muestra
• El valor de R2 depende de la cantidad
de variables para predicción en
relación con el tamaño de la muestra.
• Diversas reglas empíricas, las cuales
sugieren que la cantidad de
observaciones debe ser igual por lo
menos a 10 o 15 veces el valor de las
variables para predicción.
5.2 Análisis
discriminatorio
• Es similar al análisis de regresión
múltiple; sin embargo, existen ciertas
diferencias importantes entre ambos
• Primero, en el análisis de regresión
múltiple la variable dependiente debe
ser métrica; en el análisis
discriminatorio múltiple puede ser de
naturaleza nominal o categórica
• Las variables independientes pueden
incluir diversas mediciones métricas
como edad, ingresos, escolaridad, etc.
Los objetivos del análisis
discriminatorio múltiple son:• Determinar si hay diferencias estadísticamente
significativas entre los perfiles de calificación
discriminatoria promedio de dos o más grupos
(en este caso, usuarios y no usuarios).
• Establecer un modelo para clasificar a los
individuos u objetos en grupos con base en los
valores de las variables independientes.
• Establecer hasta qué grado se explica la
diferencia en los perfiles de calificación
promedio de dos o más grupos mediante cada
variable independiente.
Ecuación general:
Z = a + b1 X1 + b2 X2 + …. + b3 Xn
donde
Z = Calificación discriminatoria
b1- n = Pesos discriminatorios
X1- n = Variables independientes
La calificación discriminatoria
• O calificación Z, se deriva para
cada individuo u objeto
mediante la ecuación
• Dicha calificación constituye
la base para predecir a qué
grupo pertenece cierto objeto
o individuo
• El tamaño del peso discriminatorio (o
coeficiente) que se asocia con una
variable independiente en particular,
se determina por la estructura de
varianza de las variables en la
ecuación
• Las variables independientes con alta
potencia discriminatoria (diferencias
grandes entre los grupos) tendrán
pesos altos y aquéllas con potencia
discriminatoria pequeña, pesos bajos
• El objetivo del análisis
discriminatorio es predecir una
variable categórica
• El analista debe decidir qué
variables espera que estén
asociadas con la probabilidad de
que un objeto o persona se
encuentre dentro de alguna de
las diversas categorías de
grupos.
• En sentido estadístico, el
problema al analizar la naturaleza
de las diferencias de grupo
consiste en encontrar una
combinación lineal de variables
independientes (la función
discriminatoria) que muestre
grandes diferencias en las
medias del grupo
Posibles aplicaciones del
análisis discriminatorio• ¿En qué difieren los consumidores que
compran las diferentes marcas de los que
no las compran?
• ¿En qué difieren los consumidores con
alta probabilidad de compra del nuevo
producto de los consumidores con baja
probabilidad de compra en cuanto a
características demográficas y de estilo de
vida?
• ¿En qué difieren los consumidores que
asisten a X restaurante de comida rápida
con mayor frecuencia respecto a los
consumidores que asisten a otro
restaurante de comida rápida en cuanto a
características demográficas y de estilo de
vida?
• ¿En qué difieren los consumidores que
han elegido el seguro de gastos médicos
mayores individuales o familiares respecto
a su uso de cuidados para la salud,
percepciones y actitudes?
ESTADÍSTICOS
ASOCIADOS CON EL
ANÁLISIS DISCRIMINANTE
• Correlación canónica: mide el grado de
asociación entre las calificaciones
discriminantes y los grupos
• Centroide: es la media de las
calificaciones discriminantes de un grupo
particular.
• Matriz de clasificación: llamada a veces
también matriz de conclusión o de
predicción. contiene el número de casos
cuya clasificación fue correcta e
incorrecta.
• Coeficientes de la función discriminante: los
coeficientes (no estandarizados) de la función
discriminante son los multiplicadores de las variables
• Calificaciones de discriminación: los coeficientes
no estandarizados se multiplican por los valores de las
variables.
• Valor propio: para cada función discriminante, el
valor propio es la razón de la suma de cuadrados
entre grupos e intragrupos.
• Valores F y su significancia: se calculan en un
ANOVA de una vía. donde la variable de
agrupamiento funge como variable independiente
categórica.
• Medias y desviaciones estándar de los grupos: secalculan para cada predictivo en cada grupo
• Estructura de correlaciones: conocida también comocargas discriminantes. Representa las correlacionessimples entre los predictivos y la función discriminante.
• Matriz de correlación total: si se trata a los casoscomo si pertenecieran a una sola muestra y se calculanlas correlaciones, se obtiene una matriz de correlacióntotal.
• l de Wilks: conocida también como estadístico U. La lde Wilks de cada predictivo es la razón entre la suma delos cuadrados intragrupo y la suma total de loscuadrados. Su valor fluctúa entre 0 y l. Los valoresgrandes de l (cerca de l) indican que parece no haberdiferencia entre las medias del grupo. Los valorespequeños de l (cerca de 0) indican que parece haberdiferencia entre las medias del grupo.
REALIZACIÓN DE UN ANÁLISIS
DISCRIMINANTE
Un complemento:
El Modelo Logit
• Trata el problema de que tan
probable es que una observación
pertenezca a cada grupo.
• El modelo calcula la probabilidad
de que una observación pertenezca
a un grupo específico
La probabilidad de éxito puede
modelarse usando el modelo logit como:
O bien
O bien
Donde
P = probabilidad de éxito
X¡ = variable independiente i
a¡ = parámetro que debe calcularse
5.3 Análisis de
conglomerados o
clusters
• Conjunto de técnicas para
identificar objetos o personas
similares en cuanto ciertas
variables o mediciones
OBJETIVO:
• Clasificar los objetos o personas en
diversos grupos mutuamente exclusivos y
exhaustivos, de manera que las personas
incluidas en el grupo tengan el máximo de
semejanza entre ellas
• Los grupos deben ser de alta
homogeneidad interna (dentro del grupo) y
de alta heterogeneidad externa (entre
grupos)
Procedimientos para formar
grupos• Medir las semejanzas entre las personas
u objetos con respecto a los valores de las
variables que se emplean para formar
grupos
• La semejanza de personas u objetos que
se agrupan se determina de acuerdo con
algún tipo de medida de distancia
• Este método se ilustra mejor de manera
gráfica
Análisis grupal basado en
dos variables
Calificaciones promedio de
atributos: 3 grupos
5.4 Análisis factorial
ANÁLISIS FACTORIAL
• Clase de procedimientos que
se usan sobre todo para
resumir y reducir los datos
Técnica de independencia
• Técnica estadística
multivariada en la cual se
examina todo el conjunto de
relaciones interdependientes
Factores
• Dimensión subyacente que
explica las correlaciones entre
un conjunto de variables
El análisis factorial se utiliza en
las siguientes circunstancias:
• Para identificar las dimensiones subyacentes, ofactores, que explican las correlaciones entre unconjunto de variables.
• Para identificar un conjunto nuevo y más reducidode variables no correlacionadas que reemplacenal conjunto original de variables correlacionadasen el análisis multivariado posterior (regresión oanálisis discriminante)
• Identificar un conjunto más reducido de variablesque sobresalen en un conjunto mayor para utilizarluego en el análisis multivariado.
Factores psicográficos y estilos
de vida subyacentes
seleccionados
MODELO DE ANÁLISIS
FACTORIAL
Xi = Ai1Fi + Ai2F2 + Ai3F3 + … + AimFm ViUi
donde :
Xi = i-ésima variable estandarizada
Aij = coeficiente estandarizado de regresión múltiple de la variable i en un factor común
j
F = factor común
Vi = coeficiente estandarizado de regresión de la variable i en un factor único i
Ui = factor único de la variable i
m = número de factores comunes
Los factores comunes pueden expresarse
como combinaciones lineales de las
variables observadas
F1 = Wi1Xi + Wi2X2 + Wi3X3 + … + WikXk
Fi = estimación del i-ésimo factor
Wi = peso o coeficiente de la calificación del factor
k = número de variables
ESTADÍSTICOS
ASOCIADOS CON EL
ANÁLISIS FACTORIAL
Prueba de esfericidad de
Bartlett• Prueba estadística que se utiliza para
examinar la hipótesis de que las variables
no están correlacionadas en la población
• La matriz de correlación de la población
es una matriz de identidad; cada variable
tiene una correlación perfecta consigo
misma (r = 1), pero no se correlaciona con
las demás variables (r = 0)
Matriz de correlación
• Matriz triangular inferior que
muestra las correlaciones
simples, r, entre todos los pares
posibles de variables incluidas en
el análisis. Por lo regular, se
omiten los elementos de la
diagonal que son todos iguales a
1
Contribución común
• Es la cantidad de varianza que
una variable comparte con
todas las otras variables
consideradas. También es la
proporción de la varianza
explicada por los factores
comunes
• Valor propio. Representa la varianza totalexplicada por cada factor.
• Cargas de los factores. Son correlacionessimples entre las variables y los factores.
• Gráfica de las cargas de los factores. Esuna gráfica de las variables originales queusa las cargas de los factores comocoordenadas.
• Matriz factorial. Contiene las cargas de losfactores de todas las variables en todos losfactores extraídos.
• Puntuaciones de los factores. Soncalificaciones compuestas que se calculanpara cada encuestado en los factoresderivados.
Medida de lo apropiado del
muestreo de Kaiser-Meyer-Olkin
(KMO)• Es un indicador que sirve para
examinar si el análisis factorial es
adecuado
• Los valores altos (entre 0.5 y 1.0)
indican que el análisis factorial es
apropiado
• Valores inferiores a 0.5 implican que el
análisis factorial quizá no sea
adecuado.
• Porcentaje de varianza. Es el porcentaje
de la varianza total atribuida a cada factor.
• Residuales. Son las diferencias entre las
correlaciones observadas (tal como se
presentan en 1a matriz de correlaciones
de entrada) y las correlaciones
reproducidas, (tal como se calcularon a
partir de la matriz factorial).
• Gráfica de sedimentación. Es una
gráfica de los valores propios contra el
número de factores en orden de
extracción.
REALIZACIÓN DE UN ANÁLISIS
FACTORIAL
5.5 Diagramació
Preceptúales
• Son representaciones visuales de
las ideas del consumidor con
respecto a un producto, marca,
compañía o cualquier otro objeto
en dos o más dimensiones
• Tienen los extremos de las
dimensiones en los ejes X e Y
Algunos ejemplos son servicio
rápido y servicio lento en los
extremos del eje X y buen valor por
el dinero y mal valor por el dinero
en los extremos del eje Y
Muestra de mapas
perceptuales
Calificaciones factoriales para
cuatro conceptos del automóvil
Atributo Cadillac Seville Lincoln
Continental BMW 535 Chrysler LHS
Viaje cómodo 4.50 4.17 2.00 1.67
Viaje silencioso 3.83 3.50 1.83 1.83
Aceleración 2.33 4.00 4.17 2.17
Manejo 1.50 3.83 4.00 1.83
Calificación 1 3.07 2.87 1.53 1.22
Calificación 2 1.71 3.17 3.57 1.66
Mapa percepctual: Promedio de
calificaciones factoriales para cuatro
conceptos automotrices
5.6 Análisis de
conjunto o conjoint
CONCEPTOS BÁSICOS• El escalamiento multidimensional (EMD) es una
clase de procedimientos para hacer una
representación espacial de las percepciones y
preferencias de los encuestados, por medio de una
presentación visual
• Las relaciones percibidas o psicológicas entre
estímulos se representan como relaciones
geométricas entre puntos de un espacio
multidimensional. Esas representaciones
geométricas suelen denominarse mapas espaciales.
• Se supone que los ejes del mapa espacial denotan
las bases psicológicas o las dimensiones
subyacentes que usan los encuestados para formar
percepciones y preferencias de los estímulos
El EMD se utiliza en el marketing
para identificar:
1. El número y la naturaleza de las
dimensiones que usan los consumidores
para percibir diferentes marcas en el
mercado
2. El posicionamiento de las marcas
actuales en tales dimensiones
3. El posicionamiento de la marca ideal de
los consumidores en esas dimensiones
La información proporcionada por el EMD se
emplea en diversas aplicaciones de
marketing que incluyen:
• Medición de la imagen. Comparar las percepciones de laempresa que tienen clientes y no clientes con las percepcionesque tiene la empresa de sí misma, e identificar de esta maneralas discrepancias perceptuales
• Segmentación del mercado. Colocar en el mismo espacio amarcas y consumidores, para identificar de este modo grupos deconsumidores con percepciones relativamente homogéneas
• Desarrollo de nuevos productos. Buscar lagunas en el mapaespacial que indiquen oportunidades potenciales para colocarnuevos productos. Además, evaluar los conceptos del nuevoproducto y las marcas existentes a manera de prueba, paradeterminar cómo perciben los consumidores los nuevosconceptos. La proporción de preferencias por cada nuevoproducto es un indicador de su éxito.
• Evaluar la eficacia de la publicidad. Los mapasespaciales pueden utilizarse para determinar si lapublicidad ha logrado el posicionamiento deseadode la marca.
• Análisis de precios. Pueden compararse mapasespaciales desarrollados con y sin informaciónsobre los precios para determinar su impacto.
• Decisiones de canales. Los juicios sobrecompatibilidad de marcas con diferentes tiendasdetallistas pueden originar mapas espacialesútiles para tomar decisiones sobre los canales.
• Elaboración de escalas de actitudes. Lastécnicas de EMD son útiles para desarrollar lasdimensiones y la configuración apropiadas para elespacio de las actitudes.
ESTADÍSTICOS Y TÉRMINOS
ASOCIADOS CON EL EMD• Juicios de semejanza. Los juicios de
semejanza son calificaciones en una escala tipo
Likert de todos los pares posibles de marcas u
otros estímulos en términos de su semejanza
• Ordenamientos de preferencias. Los
ordenamientos de preferencias son rangos
ordenados de las marcas u otros estímulos de
los más a los menos preferidos. Por lo general
se obtienen de los encuestados
• Estrés. Es la falta de ajuste de la medida: los
valores más altos de estrés indican un ajuste
más pobre
• R cuadrada. Es un índice de correlación elevadoal cuadrado, que indica la proporción de varianzade los datos escalados en forma óptima, quepuede explicarse mediante el procedimiento delEMD. Es una medida de la bondad del ajuste
• Mapa espacial. Las relaciones percibidas entremarcas u otros estímulos se representan enrelaciones geométricas entre puntos en unespacio multidimensional llamado mapa espacial
• Coordenadas. Indican el posicionamiento de lamarca o el estímulo en un mapa espacial
• Despliegue. Es la representación de marcas yencuestados como puntos en el mismo espacio
REALIZACIÓN DEL ESCALAMIENTO
MULTIDIMENSIONAL
Obtención de datos de
entrada
Muy
diferente
Muy
semejante Crest vs.
Colgate 1 2 3 4 5 6 7
Aqua-Fresh
vs. Crest 1 2 3 4 5 6 7
Crest vs. Aim 1 2 3 4 5 6 7
.
.
Colgate vs.
Agua-Fresh 1 2 3 4 5 6 7
Datos de entrada para el
escalamiento multidimensional
Calificaciones de semejanza para marcas de dentífricos
Aqua-Fresh Crest Colgate AIM Gleem Plus
White
Ultra
Brite Close-Up Pepsodent Sensodyne
Aqua-Fresh
Crest 5
Colgate 6 7
AIM 4 6 6
Gleem 2 3 4 5
Plus White 3 3 4 4 5
Ultra Brite 2 2 2 3 5 5
Close-Up 2 2 2 2 6 5 6
Pepsodent 2 2 2 2 6 6 7 6
Sensodyne 1 2 4 2 4 3 3 4 3
Gráfica de estrés frente a
dimensionalidad
Un mapa espacial de marcas de
dentífricos
Uso de los vectores de los atributos
para denominar las dimensiones
Evaluación de la estabilidad mediante la
supresión de una marca
Configuración espacial conjunta de marca de
automóviles y preferencias de los consumidores