Estadística Aplicada Usando SPSS Material.pdf

download Estadística Aplicada Usando SPSS Material.pdf

of 40

Transcript of Estadística Aplicada Usando SPSS Material.pdf

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    1/40

     

    1

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    INTRODUCCIÓN 

    La estadística es una herramienta que sirve de apoyo a distintas disciplinas interesadas en conocer

    regularidades de su objeto de estudio. La estadística es de suma utilidad para la construcción de modelos

    que permitan verificar las hipótesis planteadas, y además, desde una perspectiva aplicada, brinda soporte

    en la toma de decisiones.

    Este curso no requiere de mayores conocimientos estadísticos, informáticos o matemáticos. En esta

    oportunidad se hará uso del software de IBM Statistical Package for the Social Sciences (SPSS), una de las

    principales herramientas en el análisis estadístico en ciencias sociales. Dicho software se hará cargo de los

    cálculos matemáticos y de la construcción de los reportes numéricos y gráficos. Este curso será

    completamente teórico y práctico, y buscará desarrollar los distintos temas de manera incremental para

    facilitar el aprendizaje.

    El curso se ha dividido en cinco unidades básicas:

    1.  Gestión del conocimiento y limpieza de datos

    2.  Exploración Univariada

    3.  Análisis Bivariado

    4.  Técnicas multivariadas básicas: Análisis Factorial

    5.  Técnicas de regresión: Regresión binomial y logística

    Para el desarrollo del curso, se emplearán datos estadísticos acordes a los procedimientos a tratar.

    Además, cada sección práctica estará acompañada de videos instructivos que permitan revisar los

    procedimientos desarrollados en la clase.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    2/40

     

    2

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    UNIDAD 1:  GESTIÓN DEL CONOCIMIENTO 

    Para conocer el mundo de la estadística es necesario concebir en qué parte del proceso de gestión del

    conocimiento está contemplada. Cuando nosotros concebimos la realidad, no la vemos tal cual; puesto

    que, la complejidad de la misma nos impide tener una concepción sistémica. Es por ello que nuestro

    cerebro procesa la realidad a través de modelos.

    Estos modelos, o teorías, nos crean una concepción acerca de todo, desde cuestiones tan elementales

    como nuestra percepción acerca de lo bueno y malo, hasta asuntos complejos como lo políticamente

    correcto. Este mismo fenómeno se reproduce en las Ciencias Sociales. El ciclo escalonado del

    procesamiento de la información parte del hecho que los diferentes modelos o teorías pueden interactuar

    entre ellos para producir conocimiento. A este proceso se le conoce como gestión del conocimiento.

    Un modelo podrá ser aceptado dentro de la investigación cuantitativa cuando éste sea válido, confiable y

    factible. Por válido entendemos que el modelo puede ser generalizado; por confiable, que puede ser

    replicado; y por factible, que puede responder a las interrogantes que el modelo plantea.

    MODELO HIPÓTESISOPERACIONALIZACIÓN

    CONCEPTUAL

    ELECCIÓN DE DISEÑO DEINVESTIGACIÓN

    RECOLECCIÓN DE DATOSANÁLISIS DE DATOS

    REPORTE DE HALLAZGOS

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    3/40

     

    3

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    1.1 Modelamiento estadístico y metodología de la investigación

    Los modelos estadísticos son sumamente útiles para la prueba de hipótesis, etapa importante dentro de

    la metodología de la investigación. No obstante, llegar a probar una hipótesis no es un proceso sencillo;

    puesto que, existe una serie de pasos previos para lograr la formulación de una hipótesis adecuada. Eneste curso solo delinearemos la secuencia de la investigación para ubicar adecuadamente el momento en

    que la estadística es útil como herramienta apoyo.

    1.2 Esquema básico de investigación

    Cualquier investigación comienza cuando se percibe que una explicación no es satisfactoria. Este

    problema no es extraño, sin embargo, no siempre se presta suficiente interés. Es precisamente cuando se

    presta mayor atención que se decide estructurar el problema. Estas etapas son conocidas como los

    antecedentes del problema y la formulación de la pregunta de investigación.

    El desarrollo de una buena pregunta de investigación es primordial, dado que, será esta la que oriente el

    trabajo. En ella deberán estar contenidos los conceptos de interés que luego serán teóricamente

    analizados. Así pues, los conceptos de interés, al igual que las relaciones que se plantean en la pregunta,

    serán el punto de partida para confeccionar nuestro marco teórico.

    Una vez que se haya estructurado el tema de investigación de manera teórica se podrá plantear la

    hipótesis, que es básicamente, la respuesta a la pregunta inicialmente formulada. En la hipótesis deben

    estar claramente expuestos los conceptos de interés y la relación existente entre ellos propuesta. A partir

    de allí solo queda contrastar tal hipótesis con lo que sucede en la realidad. Hecho el análisis respectivo se

    podrá reportar si la hipótesis era sostenible y se redactarán las conclusiones.

    1.3 Concepto, definición, variable, caso y valor

    Existen algunos conceptos clave en las ciencias sociales: concepto, definición, variable, caso y valor. Cada

    uno de ellos representa ideas bastante complejas. Por ejemplo, diferenciemos el concepto democracia

    del concepto temperatura mediante sus definiciones. Empecemos por el concepto temperatura. La

    temperatura según la física, es el promedio de energía cinética en la materia. El concepto es entonces un

    modelo mental de algo que existe y le damos nombre (el término que denota al concepto, o significante)

    para conocerlo. Su definición es la explicitación del concepto que permite que este se diferencie de lo ya

    conocido. De ahí que la variable es simplemente una manera en que el concepto se manifiesta en el

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    4/40

     

    4

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    mundo y que puede tomar diversos valores. El valor  se obtiene para cada uno de los casos de estudio

    (unidad de análisis).

    Sin embargo, en el caso del concepto democracia enfrentaremos algunos problemas metodológicos. En

    primer lugar, el concepto puede tener diversas definiciones y no una única universalmente aceptada. Conla definición (y postura) de democracia elegida, se querrá saber el "nivel de democracia" en los países.

    Pero esta variable tendrá algunos problemas (que "temperatura" no tuvo) pues no tiene una única manera

    de ser medida. No existe un instrumento como el termómetro que permita saber el nivel de democracia,

    por lo que se recurrirá a más de un valor para medir la variable. Cuando este es el caso, se llama variable

    latente a aquella que hace uso de muchos valores. De ahí que, según la definición por la que optemos

    habrá que buscar o recolectar varios valores.

    Por ejemplo, la revista The Economist  tiene una definición tal de democracia que usa los valores (o máspropiamente "modalidades") "proceso electoral y pluralismo", "libertades civiles", "funcionamiento real

    del gobierno", "participación política" y "cultura política". Estos aún son constructos abstractos, por lo

    que cada uno necesitará de sus propios valores. El resultado es la variable "nivel de democracia". Cuando

    una variable se haya construido a partir del cálculo de otras, recibe el nombre de índice. Los valores de

    una variable también son llamados indicadores.

    1.4 Escalas de medición

    Todo lo anterior puede parecer muy complicado, no obstante, son simplemente las pautas de cómo dar

    valores a cualquier evento de la realidad. En este caso asumiremos que esto está dado ya que

    trabajaremos con datas ya elaboradas. Sin embargo, al observar los datos será sumamente importante

    saber diferenciar las distintas escalas en las que se hicieron las mediciones. En nuestro caso particular,

    utilizaremos tres escalas: la nominal, la ordinal y la numérica.

    a.  La escala nominal

    Las modalidades de la variable no presentan un orden entre sí, son solo categorías. Un ejemplo puede ser

    la variable "país de nacimiento", "diario favorito", "empresa celular que utiliza". Cada una de estas

    variables tendrá respuestas como "Perú", "Argentina", "El Comercio", "La República”, "Movistar", etc. Tal

    como podemos observar, estas no provienen de conjuntos de alternativas que deban respetar un orden.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    5/40

     

    5

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    b.  La escala ordinal

    Las modalidades siguen siendo cualitativas; por ejemplo, la variable "nivel educativo" puede referirse a

    personas con nivel "primaria", "secundaria", "superior". Sin embargo, el conjunto de todas estas posibles

    respuestas tiene un orden particular, que denota un mínimo (primaria) y un máximo, (superior).

    c.  La escala numérica

    Las escalas nominal y ordinal representan estados cualitativos; sin embargo, cuando tratamos la escala

    numérica, sí estamos haciendo referencia a la idea de magnitud. Cuando hablamos de magnitud podemos

    referirnos a cosas tan cotidianas como nuestros "ahorros en soles", "peso", "altura", etc.

    1.5 Codificación

    Las escalas no serían muy difíciles de entender si no fuera porque la mayoría de las veces aparecen

    codificadas, lo que puede causar confusión. La codificación es un paso sumamente necesario para que

    cualquier programa informático sea capaz de procesar la información. Es mucho más sencillo para las

    computadoras realizar cálculos estadísticos si los datos que manejan son números. Por ello, cuando se

    abren y revisan algunas bases de datos en una computadora, lo único que se observa son caracteres

    numéricos, aun cuando solo algunos de ellos representan variables en escala numérica y los demás,

    variables en escala nominal u ordinal. Así, en vez de decir "en letras" el nivel educativo, aparecen números

    que indican algún nivel de educación (1 para primaria, 2 para secundaria, 3 para educación superior, etc.).

    Tal como mencionamos anteriormente, solo en el caso de las variables en escala numérica los números

    representan una magnitud. Así pues, si la variable "empresa celular preferida" tiene el valor 2 para

    “movistar” y el 1 para "nextel", no implica que la empresa movistar sea el doble o más importante que la

    empresa nextel. En otras palabras, no es más que una simple etiqueta, un simple rótulo. Es diferente si la

    variable fuera "número de hijos"; en ese caso, el que tiene 4 hijos posee más que el que tiene 2 (el doble).

    Otro uso particular e importante de los códigos son los valores perdidos (missing values), que son los

    códigos que se utilizan para indicar respuestas inadecuadas o inapropiadas o faltantes, pero que se

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    6/40

     

    6

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    señalan de manera explícita. Estos valores no se utilizan en los cálculos; más bien, la codificación que

    tienen permite que los programas informáticos los ignoren (99, 999, .)

    Una vez que disponemos de las definiciones de los conceptos que vamos a utilizar y habiendo definido

    una estrategia de investigación que nos permita comprobar nuestra hipótesis es necesario puesoperacionalizar nuestras variables para obtener una mejor recolección de los datos, lo cual representa el

    siguiente paso en el ciclo de investigación.

    En el presente curso abordaremos el área de análisis de datos. El análisis de datos al igual que la

    recolección de los mismos son ambos trabajados por la estadística, puesto que esta se define como la

    ciencia de la organización, análisis e interpretación de los datos. Esto nos permite, como vemos en el

    último punto; reportar hallazgos, que no es más que conocimiento producido a partir de los datos

    disponibles. En otras palabras, la razón por la que la estadística es relevante es porque nos permiteproducir conocimiento que nos sirve para la toma de decisiones, esto es así, tanto para las ciencias

    formales, como para el campo de las ciencias sociales.

    Sin embargo, existen diferentes tipos de estadística. Por un lado tenemos la estadística matemática, la

    cual se encarga de estudiar y desarrollar la teoría existente sobre esta ciencia. Esta rama nos provee de

    las herramientas matemáticas para desarrollar el análisis estadístico de los procesos en las ciencias

    sociales. Por otro lado, tenemos la estadística aplicada, la cual se encarga del procesamiento y análisis de

    datos orientado a la toma de decisiones, será esta la que desarrollaremos en el presente curso. Esta rama

    se subdivide en dos campos de estudio. La estadística descriptiva y la estadística inferencial.

    La estadística descriptiva, presente en las unidades 2 y 3 se encarga de los métodos de visualización y

    resumen numérico o gráfico de los datos de la población analizada. Es la rama donde se analiza de manera

    unilateral la interacción de distintas variables. La estadística descriptiva llega a ver relación entre variables,

    sin embargo, esta relación es simétrica. (Este concepto se desarrollará con mayor amplitud en la unidad

    5).

    La estadística inferencial, por otro lado, se dedica a la generación de los modelos direccionales, inferencias

    y predicciones teniendo en cuenta lo aleatorio en las observaciones de una muestra. Esta rama de la

    estadística ha sido ampliamente desarrollada por la economía, y su uso está en expansión dentro de las

    demás ramas de las ciencias sociales.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    7/40

     

    7

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    1b) MINERÍA DE DATOS

    1.1 Definición

    La Minería Datos es un sub-campo interdisciplinario de lo que se conoce como ciencias de la computación.

    Es un mecanismo de explotación consistente con la búsqueda de información valiosa en grandesvolúmenes de datos. Su principal objetivo es extraer información de una base de datos y transformarla

    para un uso más profundo. Involucra aspectos de manejo de bases de datos, procesamiento de data,

    modelamiento y consideraciones inferenciales, consideraciones complejas, visualización, entre otros. En

    ese sentido, y con fines de este curso, llamaremos “minería de datos” a todo el proceso del curso y en lo

    puntual al proceso de organización y limpieza de datos.

    Para comenzar esta parte del curso se les proveerá a los alumnos inscritos de una carpeta en DROPBOX o

    un Google Drive de donde podrán descargar softwares libres en versión portable. Los softwares que se

    van a utilizar para esta parte son los siguientes:

    AbbyyFine Reader V.12Snagit v.11Acrobat v.11También se usará el Excel de Microsoft Office.El URL de donde se puede descargar los softwares portables es el siguiente:

    https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M# 

    La carpeta de Dropbox se compartirá con los alumnos a través de los correos con los que se inscriban en

    el curso.

    1.2 Características de los Softwares

    El AbbyyFine Reader es un software muy potente que tiene la finalidad de simplificar la conversión de

    documentos a una versión editable. Particularmente el Abbyy Fine Reader es un sistema de

    reconocimiento óptico de caracteres (OCR) que fácilmente puede convertir cualquier tipo de PDF,

    documentos digitales y ficheros de imagen, incluyendo las fotos digitales, en documentos editables que

    luego se pueden usar en las aplicaciones y el entorno Office. Este software servirá de pivote y se

    complementará con los otros tres.

    El Snagit es un simple software cuya función radica en capturar pantallas e imágenes previa selección del

    marco. Este software es bastante intuitivo. Luego de capturar la pantalla o la sección que se quiere sepuede copiar y llevar aun documento. Sin embargo, usaremos este software para grabar las imágenes

    como PDF’s y llevarlo al Abbyy Fine Reader. 

    El Acrobat es un software que permite editar PDF’s y es de fácil uso para ordenar páginas dentro de un

    PDF. No se explorarán mayores funciones.

    1.3 Índice de Temas

    https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    8/40

     

    8

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    1.  Importación de datos desde documentos PDF.

    a.  Uso práctico del Abbyy Fine Reader.

    b.  Uso práctico del Snagit.

    2.  Importación de datos desde una página web.

    a.  Copy/Paste

    b.  Usar el Democracy Indexc.  Importación hacia Excel.

    3.  Limpieza de Datos

    a.  Eliminación de valores repetidos

    b.  Sustitución de “,” por “.” 

    c.  Separación de datos en columnas.

    d.  Eliminación de espacios dobles.

    e.  Concatenación de datos.

    f.  Filtrar y ordenar

    g.  Sustitución sistemática de caracteres.

    h.  Transcripción de datos y extraer valores únicos

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    9/40

     

    9

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    UNIDAD 2:  EXPLORACIÓN UNIVARIADA 

    La exploración univariada está comprendida dentro del campo de la estadística descriptiva. Su uso es uno

    de los más sencillos y a la vez más usados por los “promotores” de información cuantitativa. Así tenemos

    que, en la presentación de una encuesta, lo que se presenta comúnmente son estadísticos descriptivos

    de variables: resúmenes de conteos muestrales. El análisis puede darse a nivel de la variable misma o a

    nivel de categorías, tal como vemos en la imagen.

    En el ejemplo anterior, vemos que la variable es “preferencias electorales”, y el cuadro presentado es

    simplemente el recuento de intención de voto hacia Ollanta Humala y Keiko Fujimori. En este caso, cada

    opción de las filas: “Blanco/ Viciado” y “No sabe / No responde”, más la preferencia por ambos candidatos,

    vendrían a ser las categorías de la variable; y las cifras obtenidas son una subdivisión por categorías.

    Fuente: IOP PUCP

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    10/40

     

    10

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    En la exploración univariada debemos considerar que vamos a contar siempre con tres categorías de

    análisis. El análisis de Tablas de frecuencia, medidas y gráficos. Estas tres categorías nos presentarán

    diversas herramientas dependiendo de la naturaleza de la variable, si es de tipo Nominal, Ordinal o

    Escalar.

    2.1 Exploración de variables Nominales

    Como vimos en la Unidad 1, las variables pueden encontrarse en tres escalas de medición. Dependiendo

    de estas es que vamos a determinar qué tipo de análisis podemos aplicarle a una variable determinada.

    En este caso, vamos a analizar las variables nominales.

    a.  Tablas de frecuencia

    Una variable nominal solo reporta un registro no jerarquizado de categorías. En el ejemplo anterior,vemos que Ollanta Humala y Keiko Fujimori son dos categorías de una variable nominal, puesto que

    ninguno de los dos presentan una jerarquía respecto del otro. Lo que vimos en el ejemplo anterior es una

    tabla de frecuencias; ya que, esta presenta la información de la variable dividida en sus categorías; y hace

    un recuentro de los datos que esta nos ofrece. En una variable nominal, las tablas de frecuencia se

    presentan de manera similar a la del ejemplo.

    b.  Medidas

    Además, tenemos el análisis de las medidas. Las variables nominales solo presentan una medida de

    tendencia central y una de dispersión. Las primeras son llamadas así porque sirven para determinar una

    medida que represente un punto principal o estadísticamente relevante dentro de la variable. Para el caso

    de la variables nominales, el valor central es la moda.

    Moda

    La moda es una medida que muestra el valor que más se repite dentro de los datos que provee una

    variable. Así, si uno tiene un salón de clases donde la distribución de notas es la siguiente:

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    11/40

     

    11

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Podemos observar que el valor que más se repite en este caso es “Católico”.

    Variación Modal

    La variación modal es una medida de dispersión aplicable para la exploración de una variable nominal y

    puede entenderse como “el porcentaje que no está representado por la moda”. Así, si tenemos que en

    nuestro ejemplo de 5 casos, el 60% tiene una inclinación hacia una sola categoría (en este caso “Católico”),

    entonces vemos que la variación modal serían los otros dos casos que son parte de la variable pero no

    son parte de la moda (En este caso, es 40%).

    c.  Gráficos

    Con respecto a los gráficos, tenemos al gráfico de barras y al gráfico de segmentos (Gráfico Pie). Estos se

    encargan de presentar de manera visual el contenido de la información que presenta la variable a analizar.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    12/40

     

    12

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Ejemplos:

    2.2 Exploración de variables Ordinales

    Las variables ordinales si presentan una diferenciación jerarquizada de sus categorías, así podemos ver

    que en una variable de tipo “Interés en la política”, podemos encontrar una diferenciación gradual que

    puede ir desde “Ningún interés”, hasta “Interés absoluto” 

    Como vemos en nuestro ejemplo, la categorización abarca distintos grupos de clasificación, los cuales se

    presentan en un orden ascendente de interés.

    a.  Tablas de Frecuencia

    La tabla de frecuencias se presenta de manera similar a la de las variables nominales, con la diferencia de

    que el orden de aparición ya no es arbitrario, sino que representa una estratificación que va desde la

    menor intensidad hacia la mayor intensidad.

    b.  Medidas de tendencia central

    En el caso de las medidas, a las ya vistas anteriormente (Moda y variación modal) se le une unan nueva

    medida de valor central: La Mediana.

    0

    1

    2

    3

    Encuestados

    Encuestados

    Serie 1Católico

    Evangélico

    Judio

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    13/40

     

    13

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Mediana

    La mediana es una medida de valor central que determina el punto medio de todos los casos que contiene

    una variable. En otras palabras, cuando hablamos de mediana, hablamos del valor que dentro de los casos

    se ubica en el centro.

    Al tener una variable ordinal como Interés en la política:

    Vemos que hasta el 50% de los valores que muestra la variable (En este ejemplo; el caso 5), la mediana

    vendría a ser “Interés Moderado”. Podría darse el caso que la mediana sea igual a la moda, en la medida

    que esta se ubique en el valor central de la distribución de los datos.

    c.  Medidas de Dispersión – N – Tiles.

    Así como el valor central en una distribución de los datos es la mediana, existen diferentes divisiones en

    la distribución de los datos, y por ello podemos hablar de toda una rama de divisiones que indican la

    dispersión de los datos así como su posicionamiento. Estos son los N- tiles. Algunos de los N-tiles más

    conocidos son los cuartiles y percentiles. Los cuartiles dividen los datos de una variable en tres cortes,

    donde el 25%, será el cuartil 1, el 50% (la mediana) será el cuartil 2 y el 75% será el cuartil 3. Normalmente

    se asume que los cuartiles indican tres momentos de posición de los datos, tal como vemos en la sección

    de gráficos.

    d.  Gráficos

    Además de los gráficos ya mencionados, la escala ordinal presenta los diagramas de caja o boxplots, los

    cuales grafican los cuartiles.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    14/40

     

    14

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Como hemos visto en el ejemplo anterior,

    1.  Percentiles:  25 - 50 - 75

    2.2 Exploración de variables Escalares

    Para el caso de las variables escalares, el valor de los números dejan de tener un valor arbitrario para

    pasar a tener un valor efectivo. Así, cuando hablamos de variables escalares nos referimos a una variable

    BOX PLOT

    Q3 = Q2=Máximo

    Q1 = Q2

    Q3 = Mediana,

    mínimo, máximo

    [Rpts: 1, 1, 1, 1]

    Q1 

    Q3 = Máxima 

    Q2 

    Q1 = Mínimo 

    Mediana = Q3

    Máximo

    Mínimo

    Ancho: A más ancho mayor dispersión Largo: Relación con respecto al máximo y al mínimo

    Q3

    Mediana

    Q2 

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    15/40

     

    15

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    numérica; en la medida que, lo que se recoge son cifras acerca de la variable. Como ejemplo tenemos a

    “Número de casas”, “Percepción de ingresos mensuales”, etc.

    Las tablas de frecuencia en las variables escalares sólo tienen sentido cuando esta se agrupa en intervalos.

    De otra forma, el hacer una tabla de frecuencias nos da como resultado la presentación del a variable“caso por caso”. Como en este tipo de variables ya no tenemos categorías, vamos a ver que lo que

    obtendremos es un recuento de todos los valores que se encuentran en la variable escalar; lo cual podrían

    ser cientos o miles. Tamaña tabla no solo no es extensa, sino que su utilidad para el análisis estadístico es

    nula.

    Las variables escalares logran recuperar todas las medidas vistas anteriormente más la consideración de

    que ahora entra a tallar la medida de tendencia central “Media” o “promedio”. 

    a.  Medidas de tendencia Central

    Media

    La media es, como ya dijimos, el promedio de los valores que contiene la variable. En este caso, si tenemos

    una variable donde se detalla el ingreso anual de una persona, vamos a ver que el promedio es la cifra de

    la suma de sus sueldos mensuales, dividida entre el número de sueldos recibidos. La media es muy

    importante pues este valor central se muestra como homogeneizador de la información de la variable. Sin

    embargo, como veremos más adelante, la media no es el único valor que debe ser tomado en cuenta a la

    hora de realizar un análisis.

    Con la media debemos tener en cuenta varios aspectos. Primero, que la suma de los valores dentro de la

    media empieza con el valor mínimo y va hasta el máximo. Esto es necesario de saber puesto que estos

    valores extremos pueden distorsionar el resultado de la media.

    b.  Medidas de dispersión

    Dentro de las medidas de dispersión, se incorporan la varianza, la desviación típica, la amplitud

    intercuartil, y los valores mínimos y máximos.

    Desviación típica y Varianza

    La desviación típica muestra cuán alejados están los valores de la media. Es por ello que esta medida nos

    puede dar una idea acerca de la dispersión de los datos de la variable. Si es que la desviación estándar/

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    16/40

     

    16

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    típica es alta, habrá mayor dispersión y la media será más robusta. Si es que la cifra es baja y se acerca al

    0; los valores están más próximos a la media y, por ello, habrá menor dispersión.

    La varianza es la desviación típica elevada al cuadrado. Esto se hace con el objetivo de lograr una mayor

    precisión a la hora de comparar valores que se pueden diferenciar por milésimas en la desviaciónestándar, pero la distancia se agranda con la comparación entre varianzas.

     Asimetría

    La asimetría nos permite observar cual ha sido la naturaleza de la distribución de los datos. Es decir, cual

    ha sido la forma en la que todos los datos se han desplazado a lo largo de la variable.

    Así, tenemos que esta puede ser negativa, Nula (simétrica) o positiva.

    Curtosis

    La curtosis se refiere al apuntamiento o concentración de las variables a lo largo de la data. Ahora ya no

    vemos si es que los datos están concentrados en determinado cuartil de la distribución, sino cuan

    concentrados están.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    17/40

     

    17

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Estimadores M:

    Además de los las medidas de tendencia central clásicas en las variables escalares: Moda, mediana y

    media; vemos que existe una serie de pruebas estadísticas para contrastar el valor de la media y tener

    una idea acerca de la robustez de la misma. Estos test se llaman los estimadores M y son 4.

    -  Onda de Andrews

    -  M de Hampel.

    -  M de Tuckey

    -  M de Huber.

    Estos cuatro estimadores se leen en simultaneo y la forma correcta de interpretarlos es comparando el

    resultado entre los cuatro y con la media. Si la variación entre los estimadores M y la Media es mínima,

    significa que la media es robusta. Sin embargo, si esta es considerable, es mejor guiarse de los estimadores

    M más que de la media, pues existen valores dentro de la variable que están sesgando la media.

    c.  Gráficos

    Barras de Error: Las barras de error se encargan de representar de manera gráfica a la media y a la

    desviación estándar. El gráfico se interpreta como “La media” como el centro circular, y el rango en donde

    la media se puede desplazar, los “bigotes” del error bar. 

    Fig 1

    ddddddddddd

    dddd0

    Mesocúrtica

    Fig 2

    > 0

    Leptocurtica

    Fig. 3

    < 0

    Platicúrtica

    Una media será

    robusta cuando

    tenga dispersión

    baja, cuando sea

    simétrica ymesocurtica. El

    coeficiente de

    Simetría y curtosis

    debe acercarse a

    0.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    18/40

     

    18

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Histogramas: Es la representación segmentada de la distribución de

    valores numéricos. En tal sentido, las barras no representan categorías

    como sí lo son en el caso de los gráficos de barras, sino que

    representan un determinado N-til, es decir, cierto sector de la

    distribución de los datos de una variable.

    Media

    Barras de Error.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    19/40

     

    19

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    UNIDAD 3:  ANÁLISIS BIVARIADO 

    La exploración de dos variables siempre analiza la interacción entre las mismas, y es por ello que podemosver diferentes tipos de interacción. Una de ellas nos informa acerca de si existe o no relación entre dos

    variables y cuál es la naturaleza de dicha relación. Por naturaleza de la relación me refiero a las

    características que esta tiene. Como veremos, la relación por si misma se ve complementada con medidas

    de intensidad y sentido.

    Ahora, para empezar a trabajar esta unidad es necesario hacer una precisión metodológica. El análisis

    bivariado parte de una básica distinción. Para el caso de las variables cualitativas (Categóricas, atributivas,

    etc.) vamos a usar el análisis de las tablas de contingencia, pues esta sirve para analizar variables

    nominales y/u ordinales. En el caso que necesite hallar una relación entre una variable cualitativa y una

    cuantitativa o escalar, una forma de analizar esta relación entre variables es a través de la recodificación.

    Análisis entre:

    Nominal Nominal

    Ordinal Nominal

    Ordinal Ordinal

    Las tablas de contingencia son matrices donde se visualizan cruces de información entre dos variables.

    Con esto se pretende analizar la dinámica de la relación entre las dos variables que estemos analizando.

    La forma cómo se presentan las tablas de contingencia es simétrica, es decir, que no importa que variable

    vaya en las filas o columnas, ya que la relación existente entre las dos variables es de doble sentido (Una

    afecta a la otra sin estar de por medio un vínculo relacional de causalidad o impacto).

    Dentro del análisis bivariado dentro de las tablas de contingencia, nos podemos permitir la subdivisión de

    los resultados de las relaciones de las variables relacionables a través de la introducción de variables de

    control. Estas generarán un análisis bivariado, pero dividido de acuerdo a las categorías que la variable de

    control necesita. (recuérdese que las variables deben ser cualitativas, es decir, nominales, ordinales, o

    escalares reconvertidas en intervalos).

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    20/40

     

    20

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Ejemplo: Relación entre las variables: “¿Politicamente se considera?” y “Nivel Educativo” 

    % de Nivel Educativo

    Nivel Educativo

    Total1. Menos que

    Secundaria

    2. Secundaria

    Completa

    3. Más que

    secundaria

    Politicamente

    se considera?

    1. Muy liberal 3.1% 3.5% 6.0% 5.1%

    2. Liberal 7.8% 8.1% 10.7% 9.8%

    3. Algo liberal 19.5% 21.9% 21.8% 21.6%

    4. Moderado 9.4% 7.4% 6.1% 6.7%

    5. Algo

    conservador46.1% 36.3% 29.1% 32.5%

    6. Conservador 8.6% 13.6% 17.0% 15.4%

    7. Muy

    Conservador

    5.5% 9.2% 9.3% 9.0%

    Total 100.0% 100.0% 100.0% 100.0%

    3.1 Principales Medidas – Estadísticos

    a. Chi – Cuadrado

    Chi – Cuadrado es un test estadístico que nos permite hallar la relación entre variables. Este test solo tepermite hallar si es que una variable está relacionada con la otra, sin embargo, para saber más acerca de

    la naturaleza de la relación, es necesario elaborar algunas pruebas más. La forma como se debe

    interpretar el test de Chi – Cuadrado es a través de la significancia. La significancia es el valor que se debe

    considerar para aceptar o rechazar la hipótesis neutra que la prueba tiene como premisa. En el caso de

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    21/40

     

    21

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Chi – Cuadrado, la premisa es: “Las variables no están relacionadas entre sí”. La forma como se intepreta

    la significancia es:

    Mayor a 0,050 Aceptas la Hipótesis.

    Menor a 0,050 Rechazas la Hipótesis.

    Pruebas de chi-cuadrado

    Vemos la sig. Asintótica (bilateral) para determinar si hay o no hay relación. Va a haber relación siempre

    y cuando la significancia de la fila del chi-cuadrado de Pearson sea menor a 0.05. Y no habrá relación

    cuando sea mayor a 0.05. Por ejemplo, en la tabla anterior, como la significancia es menor a 0.05 sí habrá

    relación.

    3.2 Medidas de Intensidad y Sentido

    Una vez que confirmamos la relación entre las variables, conviene analizar la naturaleza de la misma. De

    esto se desprenden las medidas de intensidad y Sentido. La primera nos ayudará a ver la fortaleza de la

    relación entre las variables, de manera que:

    Valor gl Sig. asintótica (bilateral)

    Chi-cuadrado de

    Pearson31.812(a) 12 .001

    Razón de

    verosimilitudes32.298 12 .001

    Asociación lineal por

    lineal1.052 1 .305

    N de casos válidos 1619

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    22/40

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    23/40

     

    23

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Las pruebas de sentido o de dirección de la relación entre variables sirven para ver la forma cómo varía la

    intensidad en la relación entre las variables. Así, podemos hablar de dos conceptos clave. Directamente

    proporcional (sentido Positivo) o Inversamente proporcional (sentido Negativo). El primero quiere decir

    que a mayor cantidad de uno, mayor cantidad de otro, Mientras que el segundo nos dice que a mayor

    cantidad de uno, menor cantidad del otro.

    Las pruebas estadísticas que nos presentan la dirección solo se pueden usar para variables ordinales. Esto

    es así porque no podemos determinar a mayor cantidad de una y otra categoría sin antes asignarle un

    valor jerárquico a la variable en sí. Como podemos recordar, en las variables nominales no podemos

    asignar valores de orden o jerarquía, por lo que la prueba de dirección no puede ser aplicable.

    La prueba de sentido de la relación entre dos variables es la D de Sommers. Esta herramienta permite al

    mismo tiempo analizar la fuerza o intensidad y el sentido o dirección de la relación. Esta se leeinterpretando el coeficiente, de manera que una relación con sentido directamente proporcional tendrá

    el signo positivo en el coeficiente que se presenta; mientras que una relación con sentido inversamente

    proporcional mostrará el coeficiente en números negativos. El valor absoluto del coeficiente nos servirá

    para analizar la fuerza del mismo.

    3.3 R de Pearson y Correlación Parcial

    R de Pearson es una prueba estadística que mide la correlación lineal entre variables numéricas que se

    distribuyen normalmente. La hipótesis nula de R de Pearson es que “no existe una correlación lineal entre

    las variables”.

    Dentro de las correlaciones, tenemos a la correlación parcial, que es una prueba que permite evaluar el

    resultado de una correlación entre dos variables numéricas, teniendo en cuenta el retiro del efecto de

    una que puede intervenir. En otras palabras, con la correlación parcial se puede estimar “que hubiera

    pasado sí” dicha variable no estuviera relacionada en lo absoluto con la correlación inicial. 

    3.4 Notas adicionales – Otros tipos de Interacción entre dos variables

    a.  Kappa

    La prueba de Kappa se usa para medir el índice de acuerdo entre dos variables, categórica y politómica en

    distintos modelos. Por ejemplo, la aprobación en un momento dado y la aprobación en un momento

    previo.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    24/40

     

    24

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    b.  Mc Nemar

    La prueba de Mc Nemar nos ayuda a comparar el cambio en el tiempo de una variable determinada. Es

    considerado un análisis bivariado porque se tiene una doble medición de la variable, pero en dos

    momentos distintos. Comparas a la Variable “Momento N” respecto de la variable “Momento N + M”.

    UNIDAD 4:  ESCALAMIENTO ÓPTICO Y TÉCNICAS MULTIVARIADAS BÁSICAS ANÁLISIS FACTORIAL 

    4.1 Escalamiento óptimo: Análisis de Componentes Principales Categóricos - CATPCA

    Definición

    El análisis de Componentes Principales Categóricos (también por el acrónimo CATPCA, del inglés

    CATegorical Principal Components Analysis) es una técnica de reducción de dimensiones, que por mediodel escalamiento óptimo obtiene, de un conjunto de variables con determinadas características o

    propiedades específicas, un número menor de variables generales, las cuales agrupan un porcentaje de

    las propiedades de cada variable específica en términos de medida mixtos. Este procedimiento cuantifica

    simultáneamente las variables categóricas a la vez que reduce la dimensionalidad de los datos.

    El objetivo de los análisis de componentes principales es la reducción de un conjunto original de variables

    en un conjunto más pequeño de componentes no correlacionados que representen la mayor parte de la

    información encontrada en las variables originales. La técnica es más útil cuando un extenso número de

    variables impide una interpretación eficaz de las relaciones entre los objetos (sujetos y unidades). Al

    reducir la dimensionalidad, se interpreta un pequeño número de componentes en lugar de un extenso

    número de variables.

    A diferencia del Análisis Factorial, en donde se realiza un análisis de relaciones lineales entre variablesnuméricas; el método de escalamiento óptimo permite escalar las variables a diferentes niveles, siendoposible en análisis para variables cualitativas. Las variables categóricas se cuantifican de forma óptimabajo una dimensionalidad especificada.

    Dentro de los casos en donde se usa esta prueba estadística con mayor frecuencia tenemos a la creación

    de indicadores a partir de un conjunto determinado de variables, así como la verificación estadística de

    indicadores creados previamente. Se puede utilizar también para representar gráficamente la relación

    entre la categoría laboral de un ciudadano, la región a la que pertenece, el número de desplazamientos

    (alto, medio y bajo) y la satisfacción laboral. Al usar la prueba se puede apreciar que cuantificando las

    variables a dos dimensiones, se puede explicar una gran cantidad de varianza. La primera dimensión

    podría separar la categoría laboral de la región, mientras que la segunda dimensión podría separar la

    división laboral del número de desplazamientos. También podrá observar que la alta satisfacción laboral

    está relacionada con un número medio de desplazamientos.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    25/40

     

    25

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Características y diferencias

    El análisis de Componente Principales Categóricos (CATPCA) convierte a los valores de una variable

    cuantitativa en números enteros positivos por orden alfabético ascendente. Los valores perdidos del

    usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos. Sin

    embargo, se puede añadir una constante o recodificar las variables con valores inferiores a 1 para evitar

    que se pierdan los mismos. Para que la prueba pueda ser válida los datos deben contener al menos tres

    casos válidos, es por ello que si se encuentran casos que necesiten una estandarización en sus valores, se

    puede aplicar un análisis de discrecionalización, que agrupará las variables al valor entero más próximo

    para rescatar la información. El análisis se basa en datos enteros positivos.

    ¿Cómo realizar el Análisis de Componentes Principales Categóricos (CATPCA) en SPSS?

    Dentro del Menú analizar, seleccionar la opción “Reducción de datos”, y dentro de ellas, “Escalamiento

    Óptimo”.

    La técnica de Escalamiento óptimo está diseñada para variables categóricas. Como mencionamos

    inicialmente, existen variables categóricas nominales dicotómicas y politómicas; además de variablescategóricas ordinales. Es por ello que para realizar la prueba debemos reconocer dicha diferenciación.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    26/40

     

    26

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    La diferencia que establece el SPSS refiere a las variables nominales politómicas y las que no lo son. En

    caso se trabaje con variables ordinales se debe seleccionar la segunda opción. Una vez seleccionadas las

    variables de análisis, se debe definir la escala y ponderación que esta sigue.

    En caso el análisis de las variables no considera la ponderación de variables, mantendrá un valor de

    ponderación 1. Asimismo, se puede establecer el nivel de escalamiento óptimo de acuerdo al tipo de

    variable.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    27/40

     

    27

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    El escalamiento óptimo es sensible a analizar la información en función a los valores identificados,

    independientemente de si estos han sido válidos o perdidos. Para ello es importante recalcar que los

    valores perdidos deben ser excluídos.

    Los resultados del escalamiento óptimo deben estar expresados en función de las variables resultantes

    que obtendremos, pero para dicho fin no es necesario contar con las correlaciones de las variables

    transformadas.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    28/40

     

    28

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    La lectura se realiza de manera similar al análisis factorial. Sin embargo existen ciertas diferencias en la

    interpretación de los reclutados en torno al Alfa de Cronbach. Esta prueba debe tener un coeficiente

    superior a 0.700, para considerar que la confiabilidad de la operativización de las variables es fuerte, y por

    lo tanto el nivel de información de las variables resultantes es representativo.

    4.2 ¿Qué es el análisis factorial?

    El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de

    variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos se forman con las

    variables que se correlacionan mucho entre sí y que los grupos sean independientes de otros.

    Cuando recogemos un gran número de variables de forma simultánea, como en una encuesta sobre el

    nivel de gobernabilidad, podemos estar interesados en averiguar si  las preguntas del cuestionario se

    agrupan de alguna forma característica. Aplicando un análisis factorial a las respuestas de los individuos

    podemos encontrar grupos de variables con significado común y conseguir de esta manera reducir el

    número de dimensiones necesarias para explicar las respuestas de los sujetos.

    A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en el análisis

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    29/40

     

    29

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    factorial todas las variables del análisis cumplen el mismo papel: todas ellas son independientes en el

    sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Vale recordar

    por tanto que con el análisis factorial no estamos planteando un modelo explicativo o causal entre

    variables independientes y dependientes.

    4.3 Etapas

    Para el desarrollo del análisis factorial en SPSS (PASW) tenemos 4 etapas principales:

    a.  El cálculo de una matriz que expresa la variabilidad conjunta de todas las variables 

    b.  La extracción del número óptimo de factores 

    c.  La rotación de la solución para facilitar la interpretación 

    d.  La estimación de las puntuaciones de los sujetos en las nuevas dimensiones 

    4.4 Leyendo los resultados

    La tabla a continuación contiene las comunalidades asignadas inicialmente a las variables (inicial ) y las

    comunalidades reproducidas por la solución factorial (extracción). Podemos entender la comunalidad

    de una variable como la proporción de su varianza que puede ser explicada por el modelo factorial

    obtenido. Estudiando las ‘comunalidades’ de la extracción podemos valorar cuáles de las variables son

    peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor explicada: el

    modelo sólo es capaz de reproducir el 68,2% de su variabilidad original.

    Para hallar estas comunalidades se ha utiliza el   método de extracción denominado componentes

     principales. Dicho método de extracción, activado por defecto, asume que es posible explicar el 100% de

    la varianza observada y por tanto considera que todas las comunalidades iniciales son iguales a la unidad

    (que es justamente la varianza de una variable en puntuaciones típicas).

    A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos (enseguida

    veremos cuáles son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en 

    el análisis. También podemos empezar a plantearnos en este momento si, dando por bueno el número de

    factores extraído, alguna de las variables incluidas podría quedar fuera del análisis.

    Inicial  Extracción

     Nivel educativo  1.00

     

    .682 Categoría laboral  1.00

     

    .782 Salario actual  1.00

     

    .901 Salario inicial  1.00

     

    .887 

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    30/40

     

    30

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Meses desde el contrato  1.00

     

    .997 Experiencia previa (meses)  1.00

     

    .894 Edad años   1.00

     

    .889 Método de extracción: Análisis de Componentes principales.  

    La tabla de porcentajes de varianza explicada ofrece un listado de los autovaloresde la matriz de varianzasy del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la

    varianza total que está explicada por cada factor; y los porcentajes de varianza explicada asociados a cada

    factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide

    con el número de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1

    tiene la matriz analizada.

    Autovalores iniciales  Sumas de las saturaciones al

    cuadrado de la extracciónComponente  Total  % de la

    varianza

    %

    acumulado

    Total  % de la

    varianza

    %

    acumulado

    1 3.167 45.242 45.242 3.167 45.242 45.242

    2 1.857 26.528  71.769 1.857 26.528 71.769

    3 1.008 14.405 86.174 1.008 14.405 86.174

    4 0.429 6.125 92.299

    5 0.247 3.523 95.822

    6 0.194  2.776 98.598

    7 0.098 1.402 100

    La matriz de componentes principales  contiene las correlaciones entre las variables originales (o

    saturaciones) y cada uno de los factores. Conviene señalar que esta matriz cambia de denominación

    dependiendo del método de extracción elegido. En este caso se denomina matriz de componentes

    porque vamos a utilizar el método de componentes principales como método de extracción (activado

    por defecto en el SPSS).

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    31/40

     

    31

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Com onente 1  2  3 

    Nivel educativo .806 -.172 .047

    Categoría laboral .843 .260 - 

    Salario actual .944 .089 .041Salario inicial .910 .232 -

     Meses desde el contrato .043 .053 .996Ex eriencia revia meses -.179 .927 -

     Edad años -.232 .914 .026Método de extracción: Análisis de componentes principales.

    4.5 Requisitos

    KMO y prueba de esfericidad de Bartlett . La medida de adecuación muestral KMO (Kaiser-Meyer-Olkin)

    contrasta si las correlaciones parciales entre las variables son suficientemente pequeñas. Permite

    comparar la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de

    correlación parcial. El esta dístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis

    factorial no es confiable; mientras más se acerque a 1 la cantidad de muestra es suficiente y las

    correlaciones parciales son pequeñas.

    La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una

    matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo

    factorial no sería pertinente.

    4.6 Gráfico

    El gráfico de sedimentación sirve para determinar el número óptimo de factores y es una representación

    gráfica del tamaño de los autovalores.

    Tanto la tabla de porcentajes de varianza explicada como el gráfico de sedimentación nos ofrecen

    autovalores ordenados de mayor a menor. Si un autovalor se aproxima a cero, esto significa que el factor

    correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por

    tanto, un factor al que corresponde un autovalor próximo a cero se considera un factor residual y carente

    de sentido en el análisis.

    Los autovalores residuales se encuentran en la parte derecha del gráfico formando una planicie de poca

    inclinación frente a la fuerte pendiente formada por los autovalores que explican la mayor parte de la

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    32/40

     

    32

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    varianza disponible. Por ello, es conveniente inspeccionar el gráfico de sedimentación de izquierda a

    derecha, buscando el punto de inflexión en el que los autovalores dejan de formar una pendiente

    significativa y comienzan a describir una caída de poca inclinación.

    4.7 Rotación.-Con la rotación se busca interpretar los casos en los que las cargas factoriales no estén 

    claras. Las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la

    comunalidad y el porcentaje de varianza explicada por el modelo, aunque no por cada eje. Lo que

    buscamos es que cada  factor tenga unos pocos pesos altos y el resto cercanos a cero, y que cada

    variable este saturada en solo un factor. 

    El PASW tiene los siguientes tipos de rotación: varimax, equamax, quartimax, oblimin directo y

    promax.

    l

    Número de factor

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    33/40

     

    33

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    UNIDAD 5:  MODELO LINEAL GENERAL 

    5.1 Regresión Lineal

    Utilizamos la técnica de regresión lineal o mínimos cuadrados parciales dado que nos permite explicar unconcepto operacionalizado, como Desarrollo Humano o Calidad de la Democracia, por otros también

    operacionalizados. Entablar una relación explicativa amerita que tengamos las denominaciones de

    variable dependiente (variable a ser explicada) y variable independiente (variable explicativa). La técnica

    de regresión se denominará regresión lineal simple si tenemos solo una independiente y regresión lineal

    multivariante si tenemos más de una independiente. Las variables independientes pueden ser numéricas

    (covariables) y categóricas (factores), cumpliendo estas últimas un rol de control; las variables

    dependientes deben ser numéricas continuas, normales y no acotadas.

    Al formar parte de los modelos lineales tenemos que considerar algunos aspectos a manera de requisitos.

    En primer lugar tenemos que explorar nuestras variables y ver cómo se comportan: si es que existen

    valores extremos, atípicos, palanca e influyentes.

    Valores extremos.- Son aquellos valores lejanos del valor medio.

    Valores atípicos.- Son valores extraños para lo normal de la variable.

    Valores palanca.- Es un valor que está lejano del centroide. El centroide es el punto donde coinciden las

    medias en una regresión.

    Valores influyentes.- Estos valores son atípicos y palancas. Los valores atípicos o palanca no tienen que ser

    influyentes necesariamente.

    Variabledependiente

    y

    z

    x

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    34/40

     

    34

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    A la hora de correr la regresión debemos a su vez tener en cuenta la relación entre las variables incluidas

    en el modelo. Para afirmar que hay explicación tenemos que encontrar significancia en las predictoras y

    considerar que en el modelo no se presente multicolinealidad, que haya normalidad de los residuos,

    homocedasticidad, no autocorrelación y no espuriedad.

    Multicolinealidad.-  Mientras se encuentre mayor relación entre las predictoras, los coeficientes del

    modelo serán más inestables. Cuando tenemos que las predictoras se correlacionan entre sí es posible

    que diferentes conceptos recojan información muy parecida y formen un patrón entre ellos (una recta si

    están fuertemente correlacionados). No hay multicolinealidad si tenemos que el factor de inflación de

    varianza (VIF) es menor que 4 y los valores de tolerancia son mayores a 0.25. Para evitar la

    multicolinealidad se propone usar una técnica de reducción de dimensiones como el análisis factorial.

    Normalidad de los residuos.- Los residuos se deben distribuir normalmente, sino la regresión se vuelve

    ineficiente y se compromete a la explicación del modelo. Visualizamos la no normalidad cuando

    graficamos un histograma de los residuos estandarizados. Las pruebas estadísticas para deslindar si

    estamos ante un caso de normalidad o no son las siguientes: Kolmogorov-Smirnov, Anderson-Darling,

    Shapiro-Francia y el Cramer von Misses.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    35/40

     

    35

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Gráficamente no encontramos normalidad, pero para confirmar sacamos la prueba K-S.

    Heterocedasticidad.- Tenemos heterocedasticidad cuando los errores se incrementan conforme varía la

    variable de respuesta (Y). Se visualiza e en un gráfico de dispersión de puntos éntrelos residuos

    estandarizados y los valores pronosticados tipificados. Cuando hay una forma en la dispersión diremos

    que estamos ante un caso de heterocedasticidad; mientras que si tenemos una dispersión aleatoria (no

    se presenta ninguna forma) diremos que estamos ante un caso de homocedasticidad. En otros paquetes

    estadísticos como el R y el STATA podemos hallar el coeficiente de Breusch-Pagan que nos permite

    deslindar si estamos ante un caso u otro. Si tenemos heterocedasticidad se recomienda hacer uso de la

    regresión ponderada.

    No autocorrelación.- Otro de los requisitos es que no se presente correlación entre los residuos. Para

    afirmar esto vamos a considerar que el coeficiente de Durbin-Watson se encuentre entre 1.5 y 2.5.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    36/40

     

    36

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    No espuriedad.-  Se espera que las correlaciones de orden cero, parcial y semiparcial no decaigan

    drásticamente. Si encontráramos tal caso afirmaríamos que la correlación mostrada es espúrea, y la

    correlación estaría mediada por una tercera variable.

    UNIDAD 6:  MODELO DE REGRESIÓN LOGÍSTICA BINARIA 

    5.1 Definición

    La regresión logística se caracteriza porque la variable respuesta (explicada) es dicotómica, es decir, oscila

    entre valores 0 o 1, de manera que se pueda medir el "éxito" y "fracaso" de un evento determinado. Se

    denota a la ocurrencia del evento como 1 y a la no ocurrencia del evento como 0. Por tanto, el modelo de

    regresión logística permite observar si una variable dicotómica depende o no de, de otra u otras variables

    explicativas. . Es importante recordar que la regresión logística es una técnica de causalidad que permite

    estimar la probabilidad de que ocurra un suceso en función de la dependencia de otras variables.

    La aplicación de la regresión logística tiene múltiples usos en las ciencias sociales, en ciencias naturales,

    estudios de opinión pública, psicológicos, epistemológicos, etc.

    Ejemplos de variables dependientes: Si /No posee una enfermedad, Aprobación/Desaprobación de una

    autoridad pública.

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    37/40

     

    37

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    5.2 Notación:

    El modelo de regresión logística tiene la siguiente forma:

    [()] = ()

    − () = +  

    Donde, π(x) denota el éxito de la probabilidad del valor de X . El parámetro β determina la velocidad en

    que π(x) aumenta o disminuye: El signo de β indica si la curva está ascendiendo (β > 0) o 

    descendiendo (β < 0) 

    La probabilidad de que ocurra el evento en cuestión como función de ciertas variables explicativas. Si ese

    hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k

    variables explicativas (independientes y de control) se designan por , , , … ,  la ecuación general(o función logística) es:

    ( = ) = +( − −   −   −   … − ) 

    5.2 Tratamiento de la variable Y:

    En caso de no contar con unca variable dicotonima se puede realizar la transformaciòn de variable a una

    variable dicotomica.

    Ejemplo: Hablando del distrito donde usted vive, y pensando en la posibilidad de ser víctima de un delito,

    ¿Se siente…? 

    Muy seguroSensación de seguridad

    Seguro

    Variabledependiente

    (Dicotómica)

    y

    zx

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    38/40

     

    38

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    InseguroSensaciòn de inseguridad

    Muy inseguro

    5.3 

    Descripción del Modelo (Estádisticos del modelo):

      Log-verosimilitud

    El estimador mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeñosea el valor, mejor será el ajuste.

      R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke:

    Indica la varianza de la variable dependiente explicada por el modelo. En general, la variable

    dependiente explicada por el modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de

    Nagelkerke. Cuanto más alto es la R-cuadrado más explicativo es el modelo, es decir, las variablesindependientes explican la variable dependiente. El R cuadrado  de Cox y Snell  se basa en la

    comparación del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL)

    para un modelo de línea base. Sus valores oscilan entre 0 y 1. En nuestro caso es el valor (0,124)

    que indica que sólo el 12,4% de la variación de la variable dependiente es explicada por la variable

    incluida en el modelo. El R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de

    Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo

    "perfecto". La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango

    completo de 0 a 1, en este caso, el valor es 0.172 que indica que el 17,2% de la variación de la

    variable dependiente es explicada por la variable incluida en el modelo.

      Significación de chi-cuadrado del modelo en la prueba ómnibus:

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    39/40

     

    39

    Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

    Se verifica el valor de significancia y la prueba de Ho : No hay relación, si la significancia de chi-

    cuadrado es menor que 0.05 entonces se indica que el modelo ayuda a explicar el evento, es

    decir, las variables independientes explican la variable dependiente.

      Porcentaje global correctamente clasificado: Este porcentaje indica el número de casos que el

    modelo es capaz de predecir correctamente. Si es modelo clasifica correctamente más del 50%

    de los casos, el modelo se acepta.

      Interpretación:

  • 8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

    40/40

      Curso-Taller:

    ESTADÍSTICA APLICADA USANDO SPSS

      Significación de b: si es menor de 0,05 esa variable independiente explica la variabledependiente

      Signo de b: indica la dirección de la relación. Por ejemplo, a más nivel de ingresosmayor probabilidad de nivel educativo.

      Exp(b)  –exponencial de b: indica la fortaleza de la relación. Cuanto más alejada de 1está más fuerte es la relación.

    ( = 1 ) = 1

    1+exp( − −   −   −   … − ) 

    Ejemplo: la ecuación de regresión logística del modelo en función de las mujeres (SEXO=1)

    (=) = 11+ e xp(0.318− (−0.254) × ) =0.367