Creación de un modelo pls sem con smart pls y análsiis de resultados

Creación de un modelo PLS-SEM con

SmartPLS y análisis de resultados

Vasilica Maria Margalina

Unidad Operativa de Desarrollo e Investigación –UODIDE

Facultad de Contabilidad y Auditoría

Universidad Técnica de Ambato

Julio 2016

SmartPLS

El software estadístico SmartPLS fue creado por los profesores

Christian M. Ringle, Sven Wende y Jan-Michael Becker de la

Universidad Técnica de Hamburgo, Alemania.

La primera versión SmartPLS 2 fue lanzada en el año 2005.

Con más de 2.500 citaciones en publicaciones académicas,

SmartPLS es uno de los softwares más utilizados para el modelado

de ecuaciones estructurales con el método de mínimos cuadrados

parciales (PLS-SEM).

Creación de un modelo PLS-SEM con SmartPLS y

análisis de resultados

PASOS:

1. Descargar el programa:

https://www.smartpls.com/

2. Preparar la base de datos:

- Codificación

- Guardar en formato .csv (valores separados por

coma)

3. Crear el proyecto y el modelo

4. Analizar e interpretar los resultados

https://www.smartpls.com/

Creación de un modelo PLS-SEM con SmartPLS

El modelo de ecuaciones estructurales se compone

de dos elementos:

1. El modelo de medida, en el cual se analizan las cargas factoriales

de las variables observables (indicadores) con relación a sus

correspondientes variables latentes (constructo). En esta estructura

se evalúa la fiabilidad y validez de las medidas del modelo teórico.

2. El modelo estructural en el cual se analizan las relaciones de

casualidad entre las variables latentes independientes y

dependientes.


Fuente: SmartPLS 3


Modelos reflectivos vs. modelos formativos


Indicadores formativos

Si los indicadores que causan la variable latente no son

intercambiables entonces estos son formativos.

Ejemplo: Un modelo formativo que mida la satisfacción en un hotel

podría contener las siguientes medidas: “La habitación está bien

equipada”, “Puedo encontrar silencio en este hotel”, “El gimnasio es

bueno”, “El personal es amigable” y “El servicio es bueno”.


Indicadores reflectivos

Cuando los indicadores son muy intercambiables y correlacionados,

entonces estos son reflectivos.

Ejemplo: Tomando el mismo ejemplo anterior del hotel, un modelo

reflectivo podría tener las siguientes medidas: “Me siento bien en

este hotel”, “Este hotel es uno de mis favoritos”, “Siempre estoy

contento de pasar la noche en este hotel”.



Los modelos reflectivos asumen que el factor (variable latente) es la

“realidad” y las variables medidas son una muestra de posibles

indicadores de esa realidad.

Si renunciamos a un indicador puede que no importe mucho, ya que

los demás indicadores son también representativos y la variable va

mantener su significado.

En los modelos formativos, cada indicador es una dimensión del

significado de la variable latente.

Los modelos formativos asumen que los indicadores son la

“realidad” y que son todos dimensiones del factor (variable latente).

Si renunciamos a un indicador el significado de la variable latente

va cambiar.



La eliminación de un indicador en un modelo formativo puede ser

un problema porque, al representar dimensiones diferentes, es

posible que los indicadores se correlacionen negativamente. Si

existe una relación negativa entre los indicadores, pero la relación

con la variable latente es positiva, la relación positiva del segundo

indicador podría ser anulada.

Es de esperar que exista una alta correlación entre los indicadores

en los modelos reflectivo, ya que representan medidas del mismo

fenómeno.

En cambio, en un modelo formativo los indicadores no deberían

estar altamente correlacionados, al menos de que existan diferentes

medidas para la misma dimensión.

Para saber si un modelo debería ser reflexivo o formativo debemos

observar las correlaciones entre los indicadores.


1. Dibujamos el modelo en SmartPLS y después testeamos la significancia

de las relaciones entre las variables utilizando la técnica de Bootstrapping.

2. Después lanzamos el Algoritmo PLS para evaluar la fiabilidad y validez del

modelo.

Análisis e interpretación de resultados con

SmartPLS

1. Estimar la significancia del modelo con el procedimiento de Bootstrapping.


SmartPLS

1. Estimar la significancia del modelo con el procedimiento de

Bootstrapping.

Como la distribución de PLS es desconocida no se puede testear la

significancia convencional.

A través de la técnica de bootstrapping se analiza la robustez de las

cargas de los indicadores y si las relaciones entre variables son

significativas.

Para que las cargas de los indicadores y las relaciones entre las

variables del modelo planteado sean significativas desde el punto

de vista estadístico el valor del t-Statistic debe ser superior al 1.96.


SmartPLS


El Bootstrapping requiere un

muestreo repetido de los

datos. El software ofrece un

muestreo de 500 por defecto

que sirve para propósitos

exploratorios. Para el análisis

final se recomienda un

número mayor (5.000, por

ejemplo).


SmartPLS


Estadísticos t ≥ 1.96

P Valores ≤ 0.05


SmartPLS

Estadístico “t”

Análisis e interpretación de resultados

con SmartPLS

El análisis y la interpretación de resultados se realiza en dos

etapas a partir de los datos obtenidos con el programa SmartPLS:

1. Fiabilidad y validez del modelo

2. Valoración del modelo estructural

Redacción del informe de resultados


SmartPLS

2. Evaluar la fiabilidad y validez del modelo

Fiabilidad y validez del modelo de medida

La fiabilidad y validez del modelo de medida se obtiene al realizar

el calculo con el algoritmo PLS, del cual además se obtienen los

coeficientes de trayectoria (camino).


SmartPLS

2. Evaluar la fiabilidad y validez del modelo

1. La esquema de ponderaciones

“camino” configurada por defecto

permite obtener los valores R2 más

altos.

2. El número de iteraciones máximas

configurado por defecto es 300, que

sirve para un análisis exploratorio. En

la etapa confirmatoria se recomienda

utilizar un número mayor, de 1.000 o

incluso 5.000.

3. El criterio de parada configurado

por defecto es de 10-7. Si tenemos

problemas de convergencia podemos

utilizar un número menor, como 10-5


Coeficientes de trayectoria (camino)

Los coeficientes de trayectoria varían

entre -1 y 1. Las ponderaciones

cercanas a 1 son las trayectorias más

fuertes y las que se acercan a 0 las más

débiles.



Los coeficientes de trayectoria deben superar el valor 0.20 para que sean

considerados validos.


R2 (el coeficiente de Pearson)

El coeficiente de correlación de Pearson (R2) es una medida de relación

lineal entre dos variables aleatorias cuantitativas.



R² Cuadrado de la

Variable

En este ejemplo, para la

variable endógena CSOR_G,

el R2 tiene un valor de 0.710,

significando que el 71% de la

varianza de esta variable está

explicada por el modelo.


F cuadrado (la distribución F)

La distribución f es una

distribución de probabilidad

continua.

Es una medida de los

cambios en el R2.

Un valor 0.03 representa

un efecto f bajo, un valor

0.15 representa un efecto

medio y 0.35 un efecto

alto.


Las cargas y los pesos del modelo externo

El modelo externo es el modelo de medida que formado por los

indicadores y las trayectorias que los conecta con sus respectivos

factores.

Las cargas de los modelos externos son el foco en el modelo

reflectivos, representando las trayectorias del factor hacia sus

indicadores. Las cargas externas representan la contribución

absoluta de un indicador en la definición de la variable. Latente.

Los pesos de los modelos externos son el foco en los modelos

formativos, representando las trayectorias desde el indicador hacia

la variable que componen. Los pesos externos representan la

contribución relativa de un indicador a la definición de su variable

correspondiente.


Cargas

Las cargas son pesos estandarizados

que conectan los indicadores a las

variables.

Las cargas varían entre 0 y 1, cuanto

más cerca son de 1 más fuertes son.

Por convención las cargas de los

modelos reflectivos deben superar el

valor 0.70. Este es nivel en el cual el

50% de la varianza del indicador está

explicada por su factor.

Si la carga de un indicador es entre 0.40

y 0.70 es recomendable renunciar al

indicador si así se mejora la fiabilidad

compuesta.


Cargas

Cargas


Pesos

Los pesos varían entre 0 y un valor

absoluto máximo de 1. Un valor bajo

de los pesos es el que se encuentra

por debajo de 0.50.

Si un peso es bajo, significa que el

indicador no es el la única dimensión

que podría ser importante en un modelo

formativo y se podría renunciar a él.


Existen tres tipos de medidas para evaluar la calidad del modelo:

Medidas de ajuste para el Modelo Reflectivo

Medidas de ajuste para el Modelo Formativo

Ajuste estructural: si en los dos primeros tipo se mide el ajuste del

modelo exterior, en el tercero se analiza el modelo interno.


Medidas de ajuste (calidad) para el modelo reflectivo

1. La validez discriminante Los indicadores observados no

correlacionan con otras medidas que

se saben que son independientes de la

variable que pretenden medir.


1. La validez discriminante

El criterio clásico utilizado es el de Fornell y Larcker (1981), que

recomiendan que la raíz cuadrada de la varianza media extraída

(AVE) sea mayor a las correlaciones que presentan un constructo

con el resto de constructos.


1. La Validez discriminante

Henseler, Ringle & Sarstedt (2014) han desarrollado otra

metodología para evaluar la validez discriminante, heterotrait-

monotrait (HTMT) y la han incluido en la nueva versión del

SmartPLS.

El criterio indica que existe validez discriminante cuando las

correlaciones entre los constructos son menores al valor 0.70. Es

un criterio recomendado sobre todo en el caso de las muestras

pequeñas.


1. La validez discriminante

Análisis de las cargas cruzadas

La carga del indicador debe ser la

más alta en la variable medida y

no en otra.


2. Medidas de calidad


2. Medidas de calidad

La consistencia interna de las variables es indicada por el Alfa de

Cronbachs y la Fiabilidad Compuesta, ambas que deben alcanzar un

valor mínimo de 0.70.

La validez divergente es medida por el AVE, que debe alcanzar un

valor mínimo de 0.50.

Las tres medidas mencionadas son las más importante. La versión

reciente del SmartPLS 3 ofrece también el coeficiente de correlación

de Spearman (rho).


La fiabilidad compuesta

La fiabilidad compuesta (FC) permite medir la consistencia interna de

los bloques de los indicadores. FC es una alternativa preferida al Alfa

de Cronbach ya que puede dar lugar a estimaciones más altas de la

verdadera fiabilidad.

FC varía entre 0 y 1. Para propósitos exploratorios se acepta un valor

de 0.6 (Chin, 1998). El valor 0.7 es el referente para un adecuado

modelo con fines confirmatorios (Henseler, Ringle & Sarstedt, 2009); y

el valor 0.8 o superior es considerado el adecuado para

investigaciones confirmatorias (Daskalis & Mantas, 2008).

Un FC > 0.90 puede indicar que los indicadores no son más que

diferentes versiones de lo mismo y puede que no sean muy

representativos para la variable que miden. O sólo puede ser el caso

de que los indicadores son altamente correlacionados.


La fiabilidad compuesta


El Alfa de Cronbach

El Alfa de Cronbach también indica la fiabilidad de los indicadores.

Por convención se utilizan las siguientes escalas: 0.80 para una

buena escala, 0.70 para una escala aceptable y 0.60 para fines

exploratorios.

El alfa de Cronbach da problemas con escalas cortas de dos o tres

componentes, por eso se prefiere la fiabilidad compuesta como

medida.


El Alfa de Cronbach


La varianza extraída media (AVE)

La AVE puede ser utilizada tanto como medida de validez

convergente como divergente.

La medida reflecta la comunalidad media para cada factor en un

modelo reflectivo.

El valor de la AVE debe ser mayo a 0.50 (Chin, 1998), lo que

significa que los factores deben explicar más de la mitad de la

varianza de sus respectivos indicadores. Un valor por debajo del

0.50 significa que la varianza del error es mayor que la varianza

explicada.


La varianza extraída media (AVE)


El coeficiente de correlación de Spearman (rho)

Es una medida de correlación entre dos variables aleatorias

continuas.

Su valor varia entre -1 y 1, indicando asociaciones negativas o

positivas.

Un valor 0 significa no correlación pero no independencia de las

variables.

Por convención se acepta el valor 0.70 como óptimo.


El coeficiente de correlación de Spearman (rho)


3. Medidas de ajuste del modelo

SmartPLS 3 ofrece las siguientes medidas para medir la calidad

(ajuste) :

SRMR La normalización de raíz cuadrada media

residual

d_ULS Distancia euclidiana al cuadrado

d_G Distancia geodésica

Chi-cuadrado La prueba de chi-cuadrado

NFI Índice normado Fit o el Índice de Bontler

y Bonett

RMS_theta La raíz cuadrada residual de la matriz de

los residuos del modelo externo



El SRMR es una medida del ajuste aproximado del

modelo. El indicador mide la diferencia entre la

matriz de correlación observada y la matriz de

correlaciones implícita del modelo. Por convención,

el modelo tiene un buen ajuste cuando el SRMR

toma valores por debajo del 0.08 (Hu & Bentler,

1998). Otros autores aceptan un valor menor a 0.10.

Los valores d_ULS y d_G son obtenidos del

procedimiento del Bootrapping. Las diferencias entre

las matrices de correlación no tienen que ser

significantes (p > 0.05), para que el modelo tenga un

buen ajuste.

La prueba del chi-cuadrado mide los grados de

libertad del modelo.



El índice normado Fit no es una medida

recomendada para modelo complejos. Los valores

por encima del 0.9 representan ajustes aceptables.

El RMS_theta es una medida utilizada solo en los

modelos reflectivos puros y mide el grado de

correlación de los residuos del modelo externo. Los

valores cercanos a 0 indican un buen ajuste del

modelo.


Las puntuaciones de los factores

Las observaciones coon

valores superiores a 1.96 son

considerados valores atípicos.

Cuantos más valores atípicos

hay en un modelo peor será

su ajuste.


La multicolinealidad en los modelos reflectivos

La colinealidad aumenta los

errores estándar. Una regla

común es que existe

multicolinealidad cuando el

factor de inflación de la

varianza (VIF) es mayor a

4.0 (otros utilizan el valor

5.0).


Medidas para los modelos formativos

La carga de los indicadores

El peso de los indicadores

Las cargas cruzadas

El R2

Las puntuaciones de los factores

SRMR

Los estadísticos de colinealidad (VIF)

Algoritmo PLS consistente

El PLS consistente fue diseñado como

un algoritmo destinado a producir

estimaciones consistentes y

asintomáticamente normales de las de

cargas de trayectoria y de las

correlaciones entre las variables

latentes de los modelos reflectivos.

El PLS consistente tiene el objetivo de

superar la incosistencía estadística del

algoritmo PLS tradicional.

La técnica del Bootstrapping puede ser

utilizada también con el PLS

consistente. El software oferece un

algoritmo de Bootstrapping consistente.

Algoritmo PLS consistente

Blindfolding

El Blinfolding es una técnica de re-uso de la

muestra que se inicia con el primer punto de

datos y omite los puntos de datos DTH en los

indicadores de los constructos endógenos.

El procedimiento estima los parámetros del

modelo PLS utilizando los puntos de data

restantes.

Los puntos de datos omitidos son

considerados valores faltantes y son tratados

como tal cuando se ejecuta al algoritmo SEM-

PLS. Las estimaciones resultados se utilizan

para predecir los puntos de datos omitidos. La

diferencia entre los verdaderos puntos de

datos y los estimados son utilizados para

calcular la medida Q2.

En un modelo estructural un valor Q2 mayor a

0 para cierta variable endógena latente indica

relevancia del modelo de trayectoria para este

constructo. Si el valor es 0 o negativo significa

que el modelo es irrelevante.

Análisis confirmatorio TETRAD (CTA)

El análisis TETRAD verifica la

hipótesis nula de que los indicadores

para el modelo son reflectivos . Si la

hipótesis es rechazada significa que se

debe utilizar un modelo formativo.

El testeo de la hipótesis se realiza con

el estadístico t y el p valor.

Análisis mapa de rendimiento-importancia

(IPMA)

Los resultados IPMA son dirigidos

para determinar la importancia

relativa de los constructos

(variables latentes) en el modelo

PLS.

El IPMA destaca dos dimensiones.

La importancia reflecta el efecto

total absoluto en la variable final

endógena. El rendimiento reflecta

el tamaño de las puntuaciones de

las variables latentes.

La segmentación latente Finite Mixture (FIMIX)

Si las variables no observadas

son importantes, tal vez hay

que diferir los grupos en

coeficientes PLS calculados

para ellos.

Segmentación orientada a la predicción

La segmentación orientada a la

predicción (POS) es un

alternativa al FIMIX para tratar

la heterogeneidad no

observada en nuestros datos.

Análisis multi-grupo (MGA)

El análisis PLS multi-grupo nos

permite analizar las diferencias

entre grupos (ejemplo: las

diferencias entre mujeres y

hombres).

Permutación

La permutación es una herramienta

que nos permite comparar grupos.

Presentación del informe de resultados

Estructura de un artículo científico:

1. Introducción

2. Marco teórico

3. Metodología de la investigación

4. Resultados y discusiones

5. Conclusiones

Metodología

Metodología

- ¿Cómo hemos obtenido la muestra?

- Si se trata de un cuestionario, ¿Cómo han sido medidas las

preguntas?

- Tamaño de la muestra: a cuantas personas se ha mandado el

cuestionario y cuantas respuestas se han recibido.

- Mencionar que para el estudio empírico se ha utilizado un modelo

de ecuaciones estructurales (SEM).

FICHA TÉCNICA

FICHA TÉCNICA

Universo: estudiantes y profesores de e-Learning de universidades y

empresas de España

Ámbito: España

Tamaño: 134 estudiantes; 38 profesores

Error muestral: +/- 8% (alumnos); +/- 15,82% (profesores) (P=Q=0,5)

Nivel de confianza: 95,5% (2 sigma)

Diseño de la muestra: una encuesta por persona

Fecha: entre febrero y mayo 2014

Resultados

- El modelo SEM ha sido estimado utilizando la técnica de mínimos

cuadrados parciales (PLS) con la ayuda del software SmartPLS 3.

- Mencionar que para la estimación de los parámetros del modelo se

hizo a través del procedimiento de bootstrapping para minimizar sus

errores estándar (Efron y Tibisharni, 1993; Hult et al., 2014).

- Mencionar que el modelo se estimó aplicando el procedimiento de

mínimos cuadrados parciales, porque el fenómeno estudiado es

relativamente nuevo, o porque la teoría del fenómeno estudiado

está en un estado insipiente, o porque la muestra es pequeña.

Existen recomendaciones mínimas relativas al tamaño de la

muestra y el algoritmo PLS converge en la mayoría de los casos

alcanzando gran potencia estadística incluso con muestras

pequeñas y es robusto frente a los datos faltantes (Henseler, Ringle

y Sinkovic, 2009).

Referencias

Chin, W. W. (1998). The partial least squares approach for structural equation modeling. Pp. 295-336

in Macoulides, G. A. , ed. Modern methods for business research. Mahwah, NJ: Lawrence

Erlbaum Associates.

Daskalakis, Stylianos & Mantas, John (2008). Evaluating the impact of a service-oriented framework

for healthcare interoperability. Pp. 285-290 in Anderson, Stig Kjaer; Klein, Gunnar O.; Schulz,

Stefan; Aarts, Jos; & Mazzoleni, M. Cristina, eds. eHealth beyond the horizon - get IT there:

Proceedings of MIE2008 (Studies in Health Technology and Informatics). Amsterdam,

Netherlands: IOS Press, 2008.

Efron, B., & Gong, G.1983. A Leisurely Look at the Bootstrap, the Jackknife and Cross-Validation. The

American Statistician, 37(1), 36-48.

Efron, B., & Tibishiarni, R.J.1993. An introduction to Bootstrap. New York: Addison Wesley.

Fornell, C., & Larcker, D.F. 1981. Evaluating structural equation models with unobservable variables

and measurement error. Journal of Marketing Research, 18, 39-50.

Henseler, J., Ringle, C.M., Sarstedt.M. (2015). A new criterion for assessing discriminant validity in

variance-based structural equation modeling. Journal of the Academic Marketing Science, 43,

115-135.

Henseler, J., Ringle, C.M., Sinkovics, R.R. (2009). The use of partial least squares path modelling in

international marketing. Advances in International Marketing, 20, 277-320.

Hult, G. T., Hair, J. F., Ringle, C. M., & Sarstedt, M. (2014): A Primer on Partial Least Squares

Structural Equation Modelling (PLS-SEM). Sage: Thousand Oaks.

Nunnally, J.C. 1978. Psychometric theory (2nd ed.). New York: McGraw-Hill.

Ringle, C. M., Wende, S., and Becker, J.-M. 2015. "SmartPLS 3." Boenningstedt: SmartPLS

GmbH, http://www.smartpls.com.

Ringle, C.M., Wnde, S., and Will, A. 2005. SmartPLS 2.0 M3. University of Hamburg. www.smartpls.de

http://www.smartpls.com/

http://www.smartpls.de/

Creación de un modelo pls sem con smart pls y análsiis de resultados

Education

Transcript of Creación de un modelo pls sem con smart pls y análsiis de resultados