ANÁLISIS MULTIVARIADO DE DATOS - …myuvmcollege.com/uploads/lectura2011-05/CAPÍTULO 5-182.pdf ·...

5.1 Análisis

multivariado de datos

• Los procedimientos multivariados

son herramientas poderosas para

analizar los diversos tipos de

datos de investigación de

mercados

5.1 Análisis de

regresión múltiple

• El análisis de regresión

múltiple es la técnica

multivariada adecuada cuando

el investigador desea

examinar la relación entre dos

o más variables métricas para

predicción (independientes) y

una variable métrica

dependiente (criterio)

• Al ser una extensión de la

regresión bivariada, en vez de

adaptar una línea recta a

observaciones en un espacio

bidimensional, dicho análisis

adapta un plano a las

observaciones realizadas en el

espacio multidimensional

• Los resultados y la

interpretación de la regresión

múltiple es fundamentalmente

iguales que en la regresión

bivariada

• La ecuación general para la

regresión múltiple es:

Y = a + b1 X1 + b2 X2 + b3 X3 +….+ bn Xn

donde

Y = Variable dependiente o de criterio

a = Constante estimada

b1-n =

Coeficientes asociados con las variables para predicción, de manera

que una modificación de una unidad en X provoque un cambio en b1

unidades en Y; los valores de los coeficientes se estiman mediante

análisis de regresión

X1-n = Variables para predicción (independientes) que influyen en la

variable dependiente

EJEMPLO:

• Considere la siguiente

ecuación de regresión

(observe que los valores de a,

b1 y b2se estiman por análisis

de regresión):

Y = 200 + 17X1 + 22X2

donde

Y = Ventas estimadas en unidades

X1 = Gastos publicitarios

X2= Cantidad de vendedores

• Esta ecuación indica que las

ventas se incrementan 17

unidades por cada aumento

de un dólar en publicidad y 22

unidades por cada aumento

de una unidad en el número

de vendedores

Y = 200 + 17X1 + 22X2

Posibles aplicaciones de

la regresión múltiple

• Estimar los efectos de diversas

variables de la mezcla de

mercado en las ventas o en la

participación de mercado

• Estimar la relación entre diversos

factores demográficos o

psicográficos y la frecuencia de

las visitas a los restaurantes de

comida rápida o a otros negocios

de servicios

• Determinar la influencia

relativa de los elementos de

satisfacción individual sobre la

satisfacción general

• Cuantificar la relación entre

diversas variables de

clasificación como edad e

ingresos, y la actitud general

hacia un producto o servicio

• Determinar las variables que

permiten predecir las ventas

de determinado producto o

servicio

• El análisis de regresión múltiple

se emplea con uno de dos

objetivos básicos o una

combinación de ambos: predecir

el nivel de la variable dependiente

con base en determinados

niveles de las variables

predictoras o comprender la

relación entre las variables

independientes y la variable

dependiente

Medidas del análisis de

regresión múltiple

• Coeficiente de determinación, o

R2: Es preferible que su valor sea

cercano a 1

• Los valores de b, o coeficientes

de regresión, indican el efecto

de cada variable independiente

en la variable dependiente

Variables artificiales

• El analista necesita incluir

variables independientes con

escala nominal como género,

estado civil, ocupación o raza en

el análisis de regresión múltiple,

para lo cual crea las variables

artificiales o dummy

• Las variables independientes

dicótomas de escala nominal

se transforman en variables

artificiales mediante la

codificación de un valor (por

ejemplo, sexo femenino) como

0 y el otro (digamos, sexo

masculino) como 1

• Para variables nominales de

escala independiente que pueden

adoptar más de dos valores, se

requiere un método un tanto

distinto

• Considere el problema de grupos

raciales con tres posibles

respuestas: afroestadounidenses,

hispánicos o caucásicos

• Para efectuar la codificación

de variables artificiales o

binarias de las respuestas, se

emplean dos variables

artificiales Xl y X2, que se

pueden codificar como sigue:

Xl X2

Si la persona es afroestadounidense 1 0

Si la persona es hispánica 0 1

Si la persona es caucásica 0 0

Problemas potenciales

en el uso e

interpretación del

análisis de regresión

múltiple

Colinearidad

• Cuando los datos del análisis

de regresión no tiene relación

entre si

Causalidad

• La correlación ni demuestra

causalidad, es sólo un indicador

Escalas de coeficientes

• Para efectuar comparaciones

directas entre los coeficientes

de regresión, todas las

variables independientes

deben medirse en las mismas

unidades

Ejemplo:

Y = 50 + 20X1 + 20X2

donde

Y = Volumen estimado de ventas

X1 = Gastos publicitarios en miles de dólares

X2= Cantidad de vendedores

• Parece que el dinero que se gasta en

publicidad y el vendedor adicional

ejercen igual efecto en las ventas. Sin

embargo, consideraciones más

amplias revelan que esto es falso

porque Xl y X2 se midieron con

distintos tipos de unidades

• La estandarización se lleva a cabo

tomando cada número de la serie, se

le resta la media de la serie y el

resultado se divide entre la

desviación estándar de dicha serie.

A continuación se da la ecuación para

el proceso:

donde

Xi = Número individual de una serie de números

X = Media de la serie

= Desviación estándar de la media

Tamaño de la muestra

• El valor de R2 depende de la cantidad

de variables para predicción en

relación con el tamaño de la muestra.

• Diversas reglas empíricas, las cuales

sugieren que la cantidad de

observaciones debe ser igual por lo

menos a 10 o 15 veces el valor de las

variables para predicción.

5.2 Análisis

discriminatorio

• Es similar al análisis de regresión

múltiple; sin embargo, existen ciertas

diferencias importantes entre ambos

• Primero, en el análisis de regresión

múltiple la variable dependiente debe

ser métrica; en el análisis

discriminatorio múltiple puede ser de

naturaleza nominal o categórica

• Las variables independientes pueden

incluir diversas mediciones métricas

como edad, ingresos, escolaridad, etc.

Los objetivos del análisis

discriminatorio múltiple son:• Determinar si hay diferencias estadísticamente

significativas entre los perfiles de calificación

discriminatoria promedio de dos o más grupos

(en este caso, usuarios y no usuarios).

• Establecer un modelo para clasificar a los

individuos u objetos en grupos con base en los

valores de las variables independientes.

• Establecer hasta qué grado se explica la

diferencia en los perfiles de calificación

promedio de dos o más grupos mediante cada

variable independiente.

Ecuación general:

Z = a + b1 X1 + b2 X2 + …. + b3 Xn

donde

Z = Calificación discriminatoria

b1- n = Pesos discriminatorios

X1- n = Variables independientes

La calificación discriminatoria

• O calificación Z, se deriva para

cada individuo u objeto

mediante la ecuación

• Dicha calificación constituye

la base para predecir a qué

grupo pertenece cierto objeto

o individuo

• El tamaño del peso discriminatorio (o

coeficiente) que se asocia con una

variable independiente en particular,

se determina por la estructura de

varianza de las variables en la

ecuación

• Las variables independientes con alta

potencia discriminatoria (diferencias

grandes entre los grupos) tendrán

pesos altos y aquéllas con potencia

discriminatoria pequeña, pesos bajos

• El objetivo del análisis

discriminatorio es predecir una

variable categórica

• El analista debe decidir qué

variables espera que estén

asociadas con la probabilidad de

que un objeto o persona se

encuentre dentro de alguna de

las diversas categorías de

grupos.

• En sentido estadístico, el

problema al analizar la naturaleza

de las diferencias de grupo

consiste en encontrar una

combinación lineal de variables

independientes (la función

discriminatoria) que muestre

grandes diferencias en las

medias del grupo

Posibles aplicaciones del

análisis discriminatorio• ¿En qué difieren los consumidores que

compran las diferentes marcas de los que

no las compran?

• ¿En qué difieren los consumidores con

alta probabilidad de compra del nuevo

producto de los consumidores con baja

probabilidad de compra en cuanto a

características demográficas y de estilo de

vida?

• ¿En qué difieren los consumidores que

asisten a X restaurante de comida rápida

con mayor frecuencia respecto a los

consumidores que asisten a otro

restaurante de comida rápida en cuanto a

características demográficas y de estilo de

vida?

• ¿En qué difieren los consumidores que

han elegido el seguro de gastos médicos

mayores individuales o familiares respecto

a su uso de cuidados para la salud,

percepciones y actitudes?

ESTADÍSTICOS

ASOCIADOS CON EL

ANÁLISIS DISCRIMINANTE

• Correlación canónica: mide el grado de

asociación entre las calificaciones

discriminantes y los grupos

• Centroide: es la media de las

calificaciones discriminantes de un grupo

particular.

• Matriz de clasificación: llamada a veces

también matriz de conclusión o de

predicción. contiene el número de casos

cuya clasificación fue correcta e

incorrecta.

• Coeficientes de la función discriminante: los

coeficientes (no estandarizados) de la función

discriminante son los multiplicadores de las variables

• Calificaciones de discriminación: los coeficientes

no estandarizados se multiplican por los valores de las

variables.

• Valor propio: para cada función discriminante, el

valor propio es la razón de la suma de cuadrados

entre grupos e intragrupos.

• Valores F y su significancia: se calculan en un

ANOVA de una vía. donde la variable de

agrupamiento funge como variable independiente

categórica.

• Medias y desviaciones estándar de los grupos: secalculan para cada predictivo en cada grupo

• Estructura de correlaciones: conocida también comocargas discriminantes. Representa las correlacionessimples entre los predictivos y la función discriminante.

• Matriz de correlación total: si se trata a los casoscomo si pertenecieran a una sola muestra y se calculanlas correlaciones, se obtiene una matriz de correlacióntotal.

• l de Wilks: conocida también como estadístico U. La lde Wilks de cada predictivo es la razón entre la suma delos cuadrados intragrupo y la suma total de loscuadrados. Su valor fluctúa entre 0 y l. Los valoresgrandes de l (cerca de l) indican que parece no haberdiferencia entre las medias del grupo. Los valorespequeños de l (cerca de 0) indican que parece haberdiferencia entre las medias del grupo.

REALIZACIÓN DE UN ANÁLISIS

DISCRIMINANTE

Un complemento:

El Modelo Logit

• Trata el problema de que tan

probable es que una observación

pertenezca a cada grupo.

• El modelo calcula la probabilidad

de que una observación pertenezca

a un grupo específico

La probabilidad de éxito puede

modelarse usando el modelo logit como:

O bien

Donde

P = probabilidad de éxito

X¡ = variable independiente i

a¡ = parámetro que debe calcularse

5.3 Análisis de

conglomerados o

clusters

• Conjunto de técnicas para

identificar objetos o personas

similares en cuanto ciertas

variables o mediciones

OBJETIVO:

• Clasificar los objetos o personas en

diversos grupos mutuamente exclusivos y

exhaustivos, de manera que las personas

incluidas en el grupo tengan el máximo de

semejanza entre ellas

• Los grupos deben ser de alta

homogeneidad interna (dentro del grupo) y

de alta heterogeneidad externa (entre

grupos)

Procedimientos para formar

grupos• Medir las semejanzas entre las personas

u objetos con respecto a los valores de las

variables que se emplean para formar

grupos

• La semejanza de personas u objetos que

se agrupan se determina de acuerdo con

algún tipo de medida de distancia

• Este método se ilustra mejor de manera

gráfica

Análisis grupal basado en

dos variables

Calificaciones promedio de

atributos: 3 grupos

5.4 Análisis factorial

ANÁLISIS FACTORIAL

• Clase de procedimientos que

se usan sobre todo para

resumir y reducir los datos

Técnica de independencia

• Técnica estadística

multivariada en la cual se

examina todo el conjunto de

relaciones interdependientes

Factores

• Dimensión subyacente que

explica las correlaciones entre

un conjunto de variables

El análisis factorial se utiliza en

las siguientes circunstancias:

• Para identificar las dimensiones subyacentes, ofactores, que explican las correlaciones entre unconjunto de variables.

• Para identificar un conjunto nuevo y más reducidode variables no correlacionadas que reemplacenal conjunto original de variables correlacionadasen el análisis multivariado posterior (regresión oanálisis discriminante)

• Identificar un conjunto más reducido de variablesque sobresalen en un conjunto mayor para utilizarluego en el análisis multivariado.

Factores psicográficos y estilos

de vida subyacentes

seleccionados

MODELO DE ANÁLISIS

FACTORIAL

Xi = Ai1Fi + Ai2F2 + Ai3F3 + … + AimFm ViUi

donde :

Xi = i-ésima variable estandarizada

Aij = coeficiente estandarizado de regresión múltiple de la variable i en un factor común

j

F = factor común

Vi = coeficiente estandarizado de regresión de la variable i en un factor único i

Ui = factor único de la variable i

m = número de factores comunes

Los factores comunes pueden expresarse

como combinaciones lineales de las

variables observadas

F1 = Wi1Xi + Wi2X2 + Wi3X3 + … + WikXk

Fi = estimación del i-ésimo factor

Wi = peso o coeficiente de la calificación del factor

k = número de variables

ESTADÍSTICOS

ASOCIADOS CON EL

ANÁLISIS FACTORIAL

Prueba de esfericidad de

Bartlett• Prueba estadística que se utiliza para

examinar la hipótesis de que las variables

no están correlacionadas en la población

• La matriz de correlación de la población

es una matriz de identidad; cada variable

tiene una correlación perfecta consigo

misma (r = 1), pero no se correlaciona con

las demás variables (r = 0)

Matriz de correlación

• Matriz triangular inferior que

muestra las correlaciones

simples, r, entre todos los pares

posibles de variables incluidas en

el análisis. Por lo regular, se

omiten los elementos de la

diagonal que son todos iguales a

1

Contribución común

• Es la cantidad de varianza que

una variable comparte con

todas las otras variables

consideradas. También es la

proporción de la varianza

explicada por los factores

comunes

• Valor propio. Representa la varianza totalexplicada por cada factor.

• Cargas de los factores. Son correlacionessimples entre las variables y los factores.

• Gráfica de las cargas de los factores. Esuna gráfica de las variables originales queusa las cargas de los factores comocoordenadas.

• Matriz factorial. Contiene las cargas de losfactores de todas las variables en todos losfactores extraídos.

• Puntuaciones de los factores. Soncalificaciones compuestas que se calculanpara cada encuestado en los factoresderivados.

Medida de lo apropiado del

muestreo de Kaiser-Meyer-Olkin

(KMO)• Es un indicador que sirve para

examinar si el análisis factorial es

adecuado

• Los valores altos (entre 0.5 y 1.0)

indican que el análisis factorial es

apropiado

• Valores inferiores a 0.5 implican que el

análisis factorial quizá no sea

adecuado.

• Porcentaje de varianza. Es el porcentaje

de la varianza total atribuida a cada factor.

• Residuales. Son las diferencias entre las

correlaciones observadas (tal como se

presentan en 1a matriz de correlaciones

de entrada) y las correlaciones

reproducidas, (tal como se calcularon a

partir de la matriz factorial).

• Gráfica de sedimentación. Es una

gráfica de los valores propios contra el

número de factores en orden de

extracción.

REALIZACIÓN DE UN ANÁLISIS

FACTORIAL

5.5 Diagramació

Preceptúales

• Son representaciones visuales de

las ideas del consumidor con

respecto a un producto, marca,

compañía o cualquier otro objeto

en dos o más dimensiones

• Tienen los extremos de las

dimensiones en los ejes X e Y

Algunos ejemplos son servicio

rápido y servicio lento en los

extremos del eje X y buen valor por

el dinero y mal valor por el dinero

en los extremos del eje Y

Muestra de mapas

perceptuales

Calificaciones factoriales para

cuatro conceptos del automóvil

Atributo Cadillac Seville Lincoln

Continental BMW 535 Chrysler LHS

Viaje cómodo 4.50 4.17 2.00 1.67

Viaje silencioso 3.83 3.50 1.83 1.83

Aceleración 2.33 4.00 4.17 2.17

Manejo 1.50 3.83 4.00 1.83

Calificación 1 3.07 2.87 1.53 1.22

Calificación 2 1.71 3.17 3.57 1.66

Mapa percepctual: Promedio de

calificaciones factoriales para cuatro

conceptos automotrices

5.6 Análisis de

conjunto o conjoint

CONCEPTOS BÁSICOS• El escalamiento multidimensional (EMD) es una

clase de procedimientos para hacer una

representación espacial de las percepciones y

preferencias de los encuestados, por medio de una

presentación visual

• Las relaciones percibidas o psicológicas entre

estímulos se representan como relaciones

geométricas entre puntos de un espacio

multidimensional. Esas representaciones

geométricas suelen denominarse mapas espaciales.

• Se supone que los ejes del mapa espacial denotan

las bases psicológicas o las dimensiones

subyacentes que usan los encuestados para formar

percepciones y preferencias de los estímulos

El EMD se utiliza en el marketing

para identificar:

1. El número y la naturaleza de las

dimensiones que usan los consumidores

para percibir diferentes marcas en el

mercado

2. El posicionamiento de las marcas

actuales en tales dimensiones

3. El posicionamiento de la marca ideal de

los consumidores en esas dimensiones

La información proporcionada por el EMD se

emplea en diversas aplicaciones de

marketing que incluyen:

• Medición de la imagen. Comparar las percepciones de laempresa que tienen clientes y no clientes con las percepcionesque tiene la empresa de sí misma, e identificar de esta maneralas discrepancias perceptuales

• Segmentación del mercado. Colocar en el mismo espacio amarcas y consumidores, para identificar de este modo grupos deconsumidores con percepciones relativamente homogéneas

• Desarrollo de nuevos productos. Buscar lagunas en el mapaespacial que indiquen oportunidades potenciales para colocarnuevos productos. Además, evaluar los conceptos del nuevoproducto y las marcas existentes a manera de prueba, paradeterminar cómo perciben los consumidores los nuevosconceptos. La proporción de preferencias por cada nuevoproducto es un indicador de su éxito.

• Evaluar la eficacia de la publicidad. Los mapasespaciales pueden utilizarse para determinar si lapublicidad ha logrado el posicionamiento deseadode la marca.

• Análisis de precios. Pueden compararse mapasespaciales desarrollados con y sin informaciónsobre los precios para determinar su impacto.

• Decisiones de canales. Los juicios sobrecompatibilidad de marcas con diferentes tiendasdetallistas pueden originar mapas espacialesútiles para tomar decisiones sobre los canales.

• Elaboración de escalas de actitudes. Lastécnicas de EMD son útiles para desarrollar lasdimensiones y la configuración apropiadas para elespacio de las actitudes.

ESTADÍSTICOS Y TÉRMINOS

ASOCIADOS CON EL EMD• Juicios de semejanza. Los juicios de

semejanza son calificaciones en una escala tipo

Likert de todos los pares posibles de marcas u

otros estímulos en términos de su semejanza

• Ordenamientos de preferencias. Los

ordenamientos de preferencias son rangos

ordenados de las marcas u otros estímulos de

los más a los menos preferidos. Por lo general

se obtienen de los encuestados

• Estrés. Es la falta de ajuste de la medida: los

valores más altos de estrés indican un ajuste

más pobre

• R cuadrada. Es un índice de correlación elevadoal cuadrado, que indica la proporción de varianzade los datos escalados en forma óptima, quepuede explicarse mediante el procedimiento delEMD. Es una medida de la bondad del ajuste

• Mapa espacial. Las relaciones percibidas entremarcas u otros estímulos se representan enrelaciones geométricas entre puntos en unespacio multidimensional llamado mapa espacial

• Coordenadas. Indican el posicionamiento de lamarca o el estímulo en un mapa espacial

• Despliegue. Es la representación de marcas yencuestados como puntos en el mismo espacio

REALIZACIÓN DEL ESCALAMIENTO

MULTIDIMENSIONAL

Obtención de datos de

entrada

Muy

diferente

Muy

semejante Crest vs.

Colgate 1 2 3 4 5 6 7

Aqua-Fresh

vs. Crest 1 2 3 4 5 6 7

Crest vs. Aim 1 2 3 4 5 6 7

.

.

Colgate vs.

Agua-Fresh 1 2 3 4 5 6 7

Datos de entrada para el

escalamiento multidimensional

Calificaciones de semejanza para marcas de dentífricos

Aqua-Fresh Crest Colgate AIM Gleem Plus

White

Ultra

Brite Close-Up Pepsodent Sensodyne

Aqua-Fresh

Crest 5

Colgate 6 7

AIM 4 6 6

Gleem 2 3 4 5

Plus White 3 3 4 4 5

Ultra Brite 2 2 2 3 5 5

Close-Up 2 2 2 2 6 5 6

Pepsodent 2 2 2 2 6 6 7 6

Sensodyne 1 2 4 2 4 3 3 4 3

Gráfica de estrés frente a

dimensionalidad

Un mapa espacial de marcas de

dentífricos

Uso de los vectores de los atributos

para denominar las dimensiones

Evaluación de la estabilidad mediante la

supresión de una marca

Configuración espacial conjunta de marca de

automóviles y preferencias de los consumidores

ANÁLISIS MULTIVARIADO DE DATOS - …myuvmcollege.com/uploads/lectura2011-05/CAPÍTULO 5-182.pdf ·...

Documents

Transcript of ANÁLISIS MULTIVARIADO DE DATOS - …myuvmcollege.com/uploads/lectura2011-05/CAPÍTULO 5-182.pdf ·...