Análisis de los datos de la Encuesta de Caracterización ... de Apoyo Análisi… · las nuevas...
Transcript of Análisis de los datos de la Encuesta de Caracterización ... de Apoyo Análisi… · las nuevas...
Análisis de los datos de la Encuesta de Caracterización Socioeconómica Nacional- Casen
Documento preparado por Alina Oyarzún, Estadística
Taller de trabajo, Universidad del Bío Bío
Diciembre 2015
La Encuesta Casen
2
I. Descripción Generales del Paquete Estadístico SPSS v.22
SPSS es un paquete estadístico orientado -en principio- al ámbito de aplicación de las Ciencias Sociales. Es uno de los paquetes estadísticos de uso más extendido, estando disponible en gran variedad de soportes físicos
Para lograr una visión general del modo de operar del programa y de sus conceptos básicos y posibilidades, realizaremos una sesión de trabajo.
Para comenzar, abra el programa
Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma:
El editor de datos tiene la misma forma y estructura de una hoja de cálculo y sirve para crear y editar ficheros en formato SPSS. Muchas de sus aplicaciones son similares a una hoja de planilla electrónica como Lotus, Excel etc.. Sin embargo, existen varias diferencias importantes:
Las filas corresponden a un caso, observación o una unidad de análisis. En el caso concreto de un fichero las filas representan los registros.
Las columnas son las variables. Cada columna representa una variable o una característica que se mide. Por ejemplo el sexo de un individuo, la edad, el ingreso etc..
Una casilla es la intersección de una fila y una columna, es decir, una casilla es un valor único de un caso y una variable específica. A diferencia de las planillas electrónicas las casillas del Editor no pueden contener formulas sólo datos.
Las dimensiones de un archivo SPSS está determinado por el número de casos y el número de variables.
La Encuesta Casen
3
Estando en el Editor, hay dos posibilidades de trabajo, la primera es crear una base de datos definiendo las variables y luego ingresar los datos. La segunda es abrir una base de datos ya creada en SPSS.
2. Abrir archivo de dato:
Para abrir un archivo o fichero que ha sido previamente grabado en formato SPSS, se distinguen porque tienen extensión “sav”, es necesario seguir la siguiente secuencia de comando desde el Editor de datos del SPSS:
<Archivo>/<Abrir>/<Datos>
O haga click en el ícono como se muestra en la siguiente figura:
Aparece en pantalla el siguiente formato:
La Encuesta Casen
4
Esto le permite escribir el nombre del archivo o buscarlo en la estructura de directorios y subdirectorios del computador en el cual está trabajando.
Para trabajar busque el archivo CASEN2013_BIOBIO.SAV.
Cuando la base de datos se active aparecerá en el costado superior de la pantalla el nombre del archivo y luego la frase – Editor de texto SPSS-.
3. Seleccionar casos
Seleccionar casos proporciona varios métodos para seleccionar un subgrupo de casos basándose en criterios que incluyen variables y expresiones complejas. También se puede seleccionar una muestra aleatoria de casos. Los criterios usados para definir un subgrupo pueden incluir:
Valores y rangos de las variables
Rangos de fechas y horas
La Encuesta Casen
5
Números de caso (filas)
Expresiones aritméticas
Expresiones lógicas
Funciones
Todos los casos: Desactiva el filtrado y utiliza todos los casos.
Si se satisface la condición: Utiliza una expresión condicional para seleccionar los casos. Si el resultado de la expresión condicional es verdadero, se selecciona el caso. Si el resultado es falso o perdido, no se selecciona el caso.
Muestra aleatoria de casos: Selecciona una muestra aleatoria basándose en un porcentaje aproximado o en un número exacto de casos.
Basándose en el rango del tiempo o de los casos: Selecciona los casos basándose en un rango de los números de caso o en un rango de las fechas/horas.
Usar variable de filtro: Utiliza como variable para el filtrado la variable numérica seleccionada del archivo de datos. Se seleccionan los casos con cualquier valor distinto del 0 o del valor perdido para la variable seleccionada.
La secuencia desde el editor de datos es la siguiente:
<Datos>/<Seleccionar casos>/<Si satisface la condición>
Esta sección controla el tratamiento de casos no seleccionados. Puede elegir una de las siguientes alternativas para tratar los casos no seleccionados:
La Encuesta Casen
6
Descartar casos no seleccionados: Los casos no seleccionados no se incluyen en el análisis, pero se conservan en el conjunto de datos. Podrá utilizar los casos no seleccionados más adelante en la sesión, si desactiva el filtrado. Si selecciona una muestra aleatoria o si selecciona los casos mediante una expresión condicional, se generará una variable con el nombre filter_$ que tendrá el valor 1 para los casos seleccionados y el valor 0 para los casos no seleccionados.
Copiar casos seleccionados a un nuevo conjunto de datos: Los casos seleccionados se copiarán a un nuevo conjunto de datos, lo que mantendrá inalterado el conjunto de datos original. Los casos no seleccionados no se incluirán en el nuevo conjunto de datos y se mantendrán en su estado original en el conjunto de datos original.
Eliminar casos no seleccionados: Los casos no seleccionados se eliminarán del conjunto de datos. Sólo se pueden recuperar los casos eliminados saliendo del archivo sin guardar ningún cambio y abriéndolo de nuevo. La eliminación de los casos será permanente si se guardan los cambios en el archivo de datos.
4. Recodificar en distintas variables
El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Por ejemplo, podría agrupar los ingresos en una nueva variable que contenga categorías de rangos de salarios.
Puede recodificar las variables numéricas y de cadena
Puede recodificar variables numéricas en variables de cadena y viceversa
Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numéricas y de cadena
Elija en el menú la siguiente secuencia:
<Transformar>/<Recodificar en distintas variables>
La Encuesta Casen
7
1. Seleccione las variables que desee recodificar. Si selecciona múltiples variables, todas deberán ser del mismo tipo (numéricas o de cadena).
2. Introduzca el nombre de la nueva variable de resultado para cada nueva variable y pulse en Cambiar.
3. Pulse en Valores antiguos y nuevos y especifique cómo deben recodificarse los valores.
5. Asignar rangos de casos.
Puede seleccionar diversos métodos de asignación de rangos. En cada método se crea una variable diferente de asignación de rangos. Los métodos de asignación de rangos incluyen rangos sencillos, puntuaciones de Savage, rangos fraccionales y percentiles. También puede crear rangos basados en estimaciones de la proporción y puntuaciones normales.
Para asignar rangos a los casos elija en los menús:
<Transformar>/<Asignar rangos a casos>
La Encuesta Casen
8
Seleccione una o más variables a las que desee asignar los rangos. Sólo se pueden asignar rangos a las variables numéricas.
Si lo desea, puede asignar rangos a los casos en orden ascendente o descendente y organizar los rangos en subgrupos.
Asignar rangos a los casos crea nuevas variables que contienen rangos, puntuaciones de Savage y normales y los valores de los percentiles para las variables numéricas.
Los nombres de las nuevas variables y las etiquetas de variable descriptivas se generan automáticamente en función del nombre de la variable original y de las medidas seleccionadas. Una tabla de resumen presenta una lista de las variables originales, las nuevas y las etiquetas de variable.
Si lo desea, tiene la posibilidad de:
Asignar rangos a los casos en orden ascendente o descendente.
Organizar los rangos en subgrupos seleccionando una o más variables de agrupación para la lista Por. Los rangos se calculan dentro de cada grupo, y los grupos se definen mediante la combinación de los valores de las variables de agrupación. Por ejemplo, si selecciona SEXO y MINORÍA como variables de agrupación, los rangos se calcularán para cada combinación de SEXO y MINORÍA.
6. Calcular
Calcular variable calcula los valores de una variable basándose en las transformaciones numéricas de otras variables.
Puede calcular valores para las variables numéricas o de cadena (alfanuméricas).
La Encuesta Casen
9
Puede crear nuevas variables o bien reemplazar los valores de las variables existentes. Para las nuevas variables, también se puede especificar el tipo y la etiqueta de variable.
Puede calcular valores de forma selectiva para subconjuntos de datos basándose en condiciones lógicas.
Puede utilizar unas 70 funciones preincorporadas, incluyendo funciones aritméticas, estadísticas, de distribución y de cadena.
Para calcular variables elija en los menús:
<Transformar>/<Calcular>
Por defecto, las nuevas variables calculadas son numéricas. Para calcular una nueva variable de cadena, deberá especificar el tipo de datos y el ancho.
Etiqueta: Etiqueta de variable descriptiva y opcional de hasta 120 caracteres. Puede escribir el texto de una etiqueta o bien utilizar los primeros 110 caracteres de la expresión de cálculo.
Tipo: Las variables calculadas pueden ser numéricas o de cadena (alfanuméricas). Las variables de cadena no se pueden utilizar en los cálculos.
Este paquete estadístico cuenta con múltiples funciones, las presentadas aquí, son solo una muestra de lo que comúnmente se utiliza al trabajar con la base de datos Casen, más usos del paquete, pueden encontrarse en el menú ayuda del mismo, o bien en un manual de usuario de SPSS.
7. Ponderar casos
Ponderar casos (factor de expansión) proporciona a los casos diferentes ponderaciones (mediante una réplica simulada) para el análisis estadístico. Para ponderar casos elija en los menús:
La Encuesta Casen
10
<Datos>/<Ponderar>
Los valores de la variable de ponderación deben indicar el número de observaciones representadas por casos únicos en el archivo de datos.
Los casos con valores perdidos, negativos o cero para la variable de ponderación se excluyen del análisis.
Si aplica una variable de ponderación, ésta seguirá vigente hasta que se seleccione otra variable de ponderación o se desactive la ponderación. Si guarda un archivo de datos ponderado, la información de ponderación se guardará con el archivo. Puede desactivar la ponderación en cualquier momento, incluso después de haber guardado el archivo de forma ponderada.
8. Sintaxis
Todos los procedimientos aquí mostrados y los que se realizan utilizando directamente los comandos del programa, también se pueden hacer mediante sintaxis, que es una ventana que ofrece el SPSS, en la cual se escriben cada uno de los comandos, teniendo la opción de guardar para usarlos en otro archivo o bien cambiando alguna variable, usarlo más adelante. Para tener un ejemplo de cuál es el formato que requiere la sintaxis, se puede una vez realizado alguno de los procedimiento antes descrito, hacer un “paste” es decir “pegar”, automáticamente esto generará una sintaxis de lo solicitado, teniendo la opción de guardar.
Ejemplo:
Seleccionar a las mujeres de 15 y más años, la sintaxis estaría dada por lo siguiente:
USE ALL. COMPUTE filter_$=(sexo=2 & edad >= 15). VARIABLE LABEL filter_$ 'sexo=2 & edad >= 15 (FILTER)'.
La Encuesta Casen
11
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
II. Procesamiento estadístico de datos
Para cualquier procesamiento de datos involucra la siguiente secuencia:
Abrir la base de datos Casen, generada en formato SPSS y grabada previamente. Ponderar la base de datos (uso de factor de expansión). Seleccionar un procesamiento estadístico de los menús. Seleccionar las variables para el procedimiento de los datos. Ejecutar el procedimiento y analizar los resultados.
1. Distribución de frecuencia
Un estadígrafo muy importante y necesario para cualquier análisis estadístico es la descripción de frecuencia que permite: tener información acerca del rango de valores de la variable, número de casos válidos, número de casos sin información y las veces que se repite cada valor que tiene esa variable en la base de datos.
Nota: De ahora en adelante suponemos que estamos en el Editor de texto del SPSS y con la base de datos de la CASEN2013_BIOBIO abierta.
La forma más directa de obtener una frecuencia de variables es la siguiente:
<Analizar>/<Estadísticos Descriptivos>/<Frecuencias>
La Encuesta Casen
12
EJERCICIO:
Obtenga la distribución de frecuencia de la variable corte (Situación de pobreza).
Elegida la secuencia de menús obtenemos la siguiente Pantalla:
En el cuadro de la izquierda de la pantalla aparece el listado de todas las variables que contiene la base de datos, es necesario seleccionar las variables de las cuales se desea obtener la distribución de frecuencia y luego se elige la opción de aceptar.
Como resultado obtenemos la siguiente tabla:
Tabla 1. Frecuencia de la población en situación de pobreza, Casen 2013, Región del Biobío
Corte
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Válido Pobres extremos 162693 8,0 8,0 8,0
Pobres no extremos 293218 14,3 14,4 22,3
No pobres 1586133 77,6 77,7 100,0
Total 2042044 99,9 100,0
Perdidos Sistema 2706 ,1
Total 2044750 100,0
Observe que en este momento no estamos en el editor de texto, sino que en la pantalla de resultados. Estos resultados están expandidos al total de la población de la región del Biobío.
La Encuesta Casen
13
Esta tabla contiene:
Las frecuencia absolutas
El % sobre el total de casos
% eliminando los casos perdidos (o ausentes), % válido.
El % acumulado de casos válidos
EJERCICIO:
Recodifique la variable corte en dos categorías de la siguiente forma:
1-2=1, Total pobre
3 =2, No pobre
Y obtenga la frecuencia de la nueva variable (cortep).
A continuación se presenta la secuencia del procedimiento:
1. Los códigos 1 y 2 se asignan al valor 1.
La Encuesta Casen
14
2. Al código 3 se asigna el valor 2.
3. En la siguiente figura se muestra el proceso completo. Luego pinche la casilla “continuar”.
La Encuesta Casen
15
A continuación se presenta la sintaxis del procedimiento:
RECODE corte (3=2) (1 thru 2=1) INTO cortep.
EXECUTE.
VARIABLE LABELS cortep 'Situación de pobreza, NM'.
VALUE LABELS cortep
1 'Total pobre'
2 'No pobre'.
2. Tablas Básicas
Permite trabajar con cruce de dos o más variables categóricas simultáneamente.
EJERCICIO:
Calcular la situación de pobreza de la población por zona geográfica. (Número y %)
Secuencia de menús:
<Analizar>/<Tablas>/<Tablas personalizadas>
1. Selección de las variables corte y zona.
La Encuesta Casen
16
Si observamos la siguiente figura se visibiliza una estructura similar a la de frecuencia, el listado de variables a la izquierda y opciones de menús abajo y a la derecha. La diferencia de esta pantalla es que ahora debemos elegir a lo menos dos variables una para fila (A través) y otra para columna (Hacia abajo). Para cruzar dos variables, cualquiera de ellas puede ir como fila o como columna. Se recomienda siempre dejar como columna aquellas variables que tienen menor cantidad de categorías.
Seleccionamos la variable corte como fila y zona como columna y luego el menú aceptar: Obtenemos el siguiente resultado.
Tabla 2: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío
zona
Urbano Rural Total
Recuento Recuento Recuento
corte Pobres extremos 109799 52894 162693
Pobres no extremos 217925 75293 293218
No pobres 1385799 200334 1586133
Total 1713523 328521 2042044
Note que este resultado coincide con lo mostrado en la Tabla 1.
La Encuesta Casen
17
Por definición, el programa entrega la cantidad de personas (valor absoluto) de todas las combinaciones posibles entre las categorías de las dos variables y los totales parciales de ambas variables.
Para definir los porcentajes en la tabla básica debemos abrir el menú Estadísticos y seleccionar los porcentajes que deseamos. En este caso seleccionaremos porcentaje de fila y de columna.
Con este procedimiento obtenemos los siguientes resultados.
Tabla 3: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío
(N, % fila y % columna)
zona
Urbano Rural Total
Recuento % del N de
fila % del N de
columna Recuento % del N de
fila % del N de
columna Recuento % del N de
fila % del N de
columna
corte Pobres extremos 109799 67,5 6,4 52894 32,5 16,1 162693 100,0 8,0
Pobres no extremos
217925 74,3 12,7 75293 25,7 22,9 293218 100,0 14,4
No pobres 1385799 87,4 80,9 200334 12,6 61,0 1586133 100,0 77,7
Total 1713523 83,9 100,0 328521 16,1 100,0 2042044 100,0 100,0
Nota: Observemos que las tablas básicas permiten trabajar no sólo con variables de tipo categórica y en muchos casos es necesario cruzar variables en que una de ellas es de tipo continua como edad, escolaridad ingresos etc.
La Encuesta Casen
18
EJERCICIO:
Calcule ingreso promedio del trabajo por sexo.
NOTA: El nombre de la variable del ingreso del trabajo es ytrabcor.
El resultado es el siguiente: Tabla 4: Ingreso promedio del trabajo según sexo, Casen 2013, Región del Biobío
ytrabcor
Media
sexo Hombre 370039
Mujer 270953
Total 329418
La Encuesta Casen
19
Anexo 1: Análisis de los ponderadores
El factor de expansión entregado con la base de datos es generalmente igual al producto del
factor de selección (sel), el factor de ajuste por no respuesta (nr) y el factor de ajuste post-
estratificación (ps). La institución a cargo de producir la base de datos, es la responsable de
elaborar el factor de expansión para cada una de las observaciones.
El factor de expansión asignado a cada entrevistado de la encuesta es una medida del número de personas de la población que la observación representa. Cuando los factores de expansión son utilizados en el análisis de los datos de la encuesta, lo que se hace es expandir cada contribución de la observación muestral para reflejar su participación en la población objetivo.
Identificación de la variable de ponderación correcta para el análisis
El usuario de los datos debe recurrir a la documentación de la encuesta para identificar correctamente el nombre de la variable que contiene los ponderadores. Desafortunadamente, no existe una forma convencional de nombrar a los factores de expansión, por lo cual hay que ser bastante cuidadoso en identificar la variable que los contiene.
Determinación de la escala y distribución de los factores de expansión
Mirar la distribución del factor de expansión que será utilizado en el análisis es un paso necesario de realizar. La distribución de esta variable nos entrega información sobre:
La escala del factor de expansión
Es importante para la interpretación de la estimación de los totales.
La variabilidad y asimetría en la distribución de los ponderadores en las observaciones
Pueden tener influencia en la pérdida de precisión de las estimaciones.
Valores extremos en el factor de expansión
Valores extremos en los ponderadores, combinados con valores extremos en la variable de interés, puede producir inestabilidad en las estimaciones y los errores estándar.
Posibles observaciones sin dato o valores cero en el factor de expansión
Pueden indicar un error en el proceso de construcción de la base de datos o una característica especial de la base de datos.
En la siguiente tabla se presenta las estadísticas descriptivas del factor de expansión regional de la encuesta Casen 2011 y Casen 2013.
La Encuesta Casen
20
Tabla 1: Estadística descriptiva factor de expansión Casen 2011 y Casen 2013
Casen 2011 (expr_2) Casen 2013 (expr)
n 200.302 218.491
Suma 16.962.515 17.273.117
Media 85 79 Desviación estándar 167 131
Mínimo 3 2
Máximo 8.868 6.812
1% 5 7
5% 10 13
25% 21 28
50% 44 50
75% 94 89
95% 259 219
99% 627 462
Sensibilidad de las estimaciones a los factores de expansión
Es recomendable para el investigador, especialmente cuando es la primera vez que trabaja con la base de datos, es estudiar como al aplicar los factores de expansión en el análisis afecta las estimaciones y los errores estándar de las variables.
Veamos el siguiente ejemplo.
Calcule la media, error estándar e intervalo de confianza de las siguientes variables: escolaridad (esc), edad e ingreso promedio de la ocupación principal (yoprcor), ponderadas y no ponderadas.
Resultados:
Variables Media Error estándar
Años de Escolaridad (esc) 9,97 ,028 9,91 10,02
Edad 36,24 ,127 35,99 36,48
Ing. de la ocupación principal 312.609,37 3.145,15 306.444,88 318.773,86
Años de Escolaridad (esc) 10,23 ,076 10,07 10,38
Edad 36,06 ,258 35,55 36,56
Ing. de la ocupación principal 326.078,67 7.089,85 312.106,65 340.050,69
No ponderado
Ponderado
[95 % Intervalo de confianza]
Podemos notar que las estimaciones obtenidas de la muestra sin ponderar tiende a subestimar las medias y los errores estándar de las variables.
Es importante que revise los siguientes documentos:
La Encuesta Casen
21
1. Metodología de Diseño Muestral Encuesta Casen 2013.
http://www.ministeriodesarrollosocial.gob.cl/documentos_metodologicos.php
2. Metodología del Diseño Muestral y Factores de Expansión Casen 2011.
http://observatorio.ministeriodesarrollosocial.gob.cl/casen/casen-documentos.php?c=82&a=2011
La Encuesta Casen
22
Anexo 2: Plan de Muestreo en SPSS En el presente apartado se presenta los pasos necesarios para definir un plan de muestro lo que permitirá calcular los errores estándar e intervalos de confianza para las variables de la encuesta Casen bajo un diseño de muestras complejas. Pasos para Definir Plan de Muestreo en SPSS En SPSS, previamente a la realización de cualquier análisis o estimación que considere un diseño complejo, se requiere generar un plan de muestreo. Generación de un PLAN de muestreo en SPSS La generación de un plan de muestreo se realiza en 4 pasos: 1. En el módulo de muestras complejas, hay que generar un Plan para el análisis posterior, mediante los comandos: < Analizar > / < Muestras complejas > / < Preparar para el análisis >
2. En la ventana que se abre se marca la opción: Crear un archivo de plan En Examinar se debe indicar el directorio donde guardará el archivo con el plan de muestreo, al cual deberá asignarle un nombre, por ejemplo: “biobio”. Una vez asignado el nombre, marque <Siguiente> para pasar al siguiente nivel de definición del plan de muestreo.
La Encuesta Casen
23
3. En este nivel deberá introducir tres variables para que quede el plan definido. Estas son: Estrato: Corresponden a las agrupaciones derivadas de la estratificación definida en el diseño muestral. En el caso específico de la CASEN, corresponden originalmente al cruce o interposición de la división política administrativa a nivel comunal (322 comunas del país), con la división geográfica del territorio nacional en las áreas urbanas y rurales (2 áreas). En Casen 2013, también se creó una Post-Estratificación con el objetivo de corregir estimaciones de la varianza, lo que dio origen a 266 pseudo-estratos denominados VarStrat. Conglomerados: Son las unidades de selección definidas en el diseño muestral, que generalmente corresponden a unidades muestrales previas a la última etapa. En Casen son denominadas manzanas y secciones en las partes urbana y rural de las comunas, respectivamente. En forma simultánea a la creación de pseudo-estratos o VarStrat, en Casen se generaron agrupaciones de manzanas y de secciones, denominadas VarUnit, también con el objetivo de mejorar las estimaciones de la varianza, agrupando los conglomerados de manera de contener una cantidad aproximada mínima de 30 viviendas.
La Encuesta Casen
24
Ponderación muestral: Se refiere al factor de expansión que posee cada unidad de selección. En Casen 2011 corresponde al factor de expansión regional Expr_r2 y en Casen 2011 corresponde al factor de expansión regional expr. Una vez ingresadas estas tres variables, marque <Siguiente> para pasar al siguiente nivel de definición del plan de muestreo.
4. Si se selecciona la opción de muestreo con reemplazo (CR), no es necesario definir alguna etapa de muestreo posterior y el proceso puede darse por finalizado. La opción de incluir el factor de corrección para poblaciones finitas o factor de corrección por finitud (FPC) aplica sólo si las unidades de conglomeración son seleccionadas bajo el supuesto de muestreo aleatorio simple. Si se selecciona cualquiera de las otras dos opciones, que implican un muestreo con reemplazo, se requiere que sea definida una segunda etapa y también que se tengan calculadas las probabilidades de inclusión conjunta de las unidades de conglomeración. En Casen se recomienda la opción CR ya que la estimación de la varianza no difiere prácticamente de las otras opciones simplificando enormemente los cálculos y la expresión de ésta es sencilla.
La Encuesta Casen
25
Ejercicio: Población según situación de pobreza, región del Biobío, Casen 2013 La secuencia que debe utilizar es la siguiente: < Analizar > / < Muestras complejas > / < Frecuencia > A continuación se muestran las pantallas de la secuencia.
La Encuesta Casen
26
Resultado:
corte
Estimación Error estándar
95% de intervalo de confianza
Inferior Superior
% del total Pobres extremos 8,0% 0,5% 7,0% 9,0%
Pobres no extremos 14,4% 0,6% 13,1% 15,7%
No pobres 77,7% 1,0% 75,7% 79,6%
Total 100,0% 0,0% 100,0% 100,0%
Ejercicio: Población según situación de pobreza por sexo, región del Biobío, Casen 2013 La secuencia que debe utilizar es la siguiente: < Analizar > / < Muestras complejas > / < Tablas cruzadas>
La Encuesta Casen
27
Resultado:
corte * sexo
corte
sexo
Hombre Mujer Total
Pobres extremos % dentro de sexo Estimación 7,5% 8,4% 8,0%
Error estándar 0,5% 0,5% 0,5%
95% de intervalo de confianza Inferior 6,5% 7,5% 7,0%
Superior 8,6% 9,5% 9,0%
Pobres no extremos % dentro de sexo Estimación 13,8% 14,9% 14,4%
Error estándar 0,7% 0,6% 0,6%
95% de intervalo de confianza Inferior 12,5% 13,7% 13,1%
Superior 15,3% 16,1% 15,7%
No pobres % dentro de sexo Estimación 78,7% 76,7% 77,7%
Error estándar 1,1% 1,0% 1,0%
95% de intervalo de confianza Inferior 76,5% 74,8% 75,7%
Superior 80,7% 78,6% 79,6%
En el documento “Metodología del Diseño Muestral Encuesta Casen 2013”, páginas 87-92 encontrara la sintaxis para estimación de pobreza a nivel de personas y hogares.
La Encuesta Casen
28
Anexo 3: Base de datos Casen
Algunas consideraciones
La base Casen disponible para los usuarios está a nivel de personas es decir, si trabaja con Casen 2013 podrá verificar que la base tiene 218.491 registros (personas) (ver tabla 1)
Sin embargo, es posible en la encuesta Casen analizar la información para las siguientes unidades de análisis:
Personas Núcleo Hogares
Para cada una de estas unidades de análisis es posible obtener información a nivel nacional y regional. Para conocer los conceptos de Personas, Núcleo y Hogar, revise el documento “Manual de Trabajo de Campo, Encuesta Casen 2013”, disponible en sitio web del Ministerio de Desarrollo Social: http://observatorio.ministeriodesarrollosocial.gob.cl/documentos/Casen2013_Manual_TrabajodeCampo.pdf
Para obtener información a nivel de hogar, en la base de datos debe seleccionar pco1=1, luego como resultado deberá obtener las cifras indicadas en la tabla 1.
Para obtener información a nivel de núcleo, en la base de datos debe seleccionar pco1=2, luego como resultado deberá obtener las cifras indicadas en la tabla 1.
Tabla 1: Estimaciones muestrales y expandidas en Casen 2011 y Casen 2013
Estimación País Estimación Región Biobío
Casen 2011 Casen 2013 Casen 2011 Casen 2013
Personas Muestral 200.302 218.491 19.346 31.315
Expandido 16.962.515 17.273.117 2.018.886 2.044.750
Personas sin S.D. P.A Muestral 200.160 218.348 19.346 31.296
Expandido 16.941.310 17.256.219 2.018.383 2.042.044
Personas en el Núcleo 0 Muestral 142 143 - 19
Expandido 21.205 16.898 - 2.706
Hogares Muestral 66.725 59.084 5.779 9.599
Expandido 5.273.828 4.966.890 580.998 612.488
Núcleo Muestral 79.063 70.890 5.779 11.338
Expandido 6.271.119 5.977.815 580.998 732.402
La Encuesta Casen
29
La base de datos Casen está formada por aproximadamente 600 variables, y está estructurada siguiendo el orden de los módulos del cuestionario. En la siguiente figura se muestra la secuencia del cuestionario.
Figura 1: Secuencia de los módulos encuesta Casen 2011 y 2013
Las primeras variables de la base de datos están referidas a identificación de cada persona entrevistada en la encuestas. Estas variables son:
folio : Folio de la encuesta región : Región zona: Zona (1:urbano; 2:rural) comuna: Comuna o: Orden de la persona dentro de cada hogar
Las siguientes variables permiten identificar a los residentes habituales de cada hogar por sexo, edad, estado civil y parentesco con los jefes de hogar y núcleo y están presentes en el módulo de registro.
Continuando con el orden del cuestionario las variables siguientes corresponden a las del módulo de educación. El nombre de la variable en la base de datos es el mismo que está registrado en el cuestionario. Todas las variables de este módulo comienzan con la letra “e” tal como se indica en la imagen siguiente.
Figura 2: Secuencia de los módulos encuesta Casen 2011 y 2013
Registro Educación Trabajo Ingresos Salud Residente Vivienda
La Encuesta Casen
30
En el módulo de trabajo el nombre de las variables comienza con la letra “o”, las variables del módulo de ingresos comienzan con la letra “y”, en salud el nombre de las variables comienza con la letra “s”, en residentes con la letra “r” y en vivienda el nombre de las variables comienzan con la letra “v”. Al final de la base de datos, encontrara varias variables que son creadas, entre las más importante de señalar tenemos: esc, analfabetismo, activ, cotiza, rama, oficio, hacinamiento, corte, dau, dautr, qau, qautr y las corrientes de ingreso más relevantes como ingreso autónomo, ingreso monetario, ingreso por subsidios monetarios entre otros.
Es importante que al trabajar con la base de datos revise: Libro de códigos base de datos Encuesta Casen 2013
Cuestionario Encuesta Casen 2013
Libro de códigos base de datos Encuesta Casen 2011
Cuestionario Encuesta Casen 2011
Disponible en el sitio web del Ministerio de Desarrollo Social.
La Encuesta Casen
31
Anexo 4: Los ingresos en la Encuesta Casen
1. Definiciones Ingresos Corrientes
La investigación de los ingresos corrientes de los hogares en la Encuesta Casen se enmarca conceptualmente en el Sistema de Cuentas Nacionales, SCN, 19931. Este sistema distingue dos grandes categorías de ingresos corrientes que reciben los hogares: los ingresos primarios y las transferencias corrientes, que en conjunto constituyen el ingreso corriente. La figura 1 muestra la composición de ambas categorías por tipo de ingresos: Los ingresos primarios, que se pagan con el valor agregado creado por la producción, incluyen tanto los ingresos provenientes del trabajo como de la propiedad de los activos. El SCN 1993 distingue las siguientes categorías de ingresos primarios: ingresos de los asalariados, ingresos mixtos de los empleadores y trabajadores por cuenta propia (formados por un componente de remuneración por el trabajo y por un componente de rendimiento de la actividad empresarial), intereses, dividendos y otras rentas de la propiedad de los propietarios de activos financieros, de tierras y activos del subsuelo; y el excedente de explotación o excedente derivado de la imputación que se hace en el sistema por los servicios de las viviendas ocupadas por sus propietarios. Las transferencias corrientes2 que pueden recibir los hogares están constituidas por dos clases principales de transferencias: prestaciones sociales y otras transferencias corrientes. Las prestaciones sociales incluyen prestaciones tanto de la seguridad social (prestaciones contributivas, como las pensiones y jubilaciones), como de la asistencia social (subsidios o transferencias monetarias efectuadas por el Estado como parte de los programas sociales). Además, se incluyen todas las transferencias corrientes que reciben los hogares y que no constituyen prestaciones sociales; en particular, estas se refieren a las diversas transferencias corrientes existentes entre hogares.
1 Grupo Intersecretarial de Trabajo sobre Cuentas Nacionales, Comisión de las Comunidades Europeas – Eurostat, Fondo Monetario
Internacional, Organización para la Cooperación y el Desarrollo Económico, Naciones Unidas, Banco Mundial, Sistema de Cuentas Nacionales 1993, Bruselas / Luxemburgo, Nueva York, París, Washington D.C., 1993 2 En el SCN se entiende por transferencia a "una transacción mediante la cual una unidad institucional suministra a otra un bien, un servicio o un activo a otra unidad sin recibir de ésta ninguna contrapartida en forma de bien, servicio o activo". (SCN 1993, párrafo 8.27). Las transferencias corrientes quedan delimitadas en el SCN por exclusión, cuando define primero la transferencia de capital y señala después que "los otros tipos de transferencias se denominan corrientes". Para el SCN la transferencia de capital es "aquélla mediante la cual se transfiere la propiedad de un activo o se obliga, a una o ambas partes, a adquirir o disponer de un activo".
La Encuesta Casen
32
Figura 1: Categorías de ingresos corrientes que reciben los hogares
Ingresos de los asalariados
INGRESOS PRIMARIOS Ingresos mixtos de los empleadores
y trabajadores por cuenta propia
Rentas de la propiedad, intereses y
dividendos
INGRESOS CORRIENTES DE LOS HOGARES
Arriendo imputado
Prestaciones de la seguridad social:
Pensiones y jubilaciones
TRANSFERENCIAS CORRIENTES
Prestaciones de asistencia social:
Subsidios o transferencias
monetarias sociales
Transferencias corrientes entre
hogares
De acuerdo con este marco, la Encuesta Casen recoge información sobre los distintos componentes de los ingresos primarios: ingresos de los asalariados, ingresos de los empleadores y trabajadores por cuenta propia, rentas de la propiedad y alquiler imputado; así como sobre los distintos componentes de las transferencias corrientes: jubilaciones, pensiones y montepíos, subsidios o transferencias del Estado que pueden recibir los hogares como parte de los programas sociales, y transferencias corrientes entre hogares. El siguiente cuadro detalla las variables que componen estos ingresos y las correspondientes preguntas en el cuestionario de la Encuesta Casen 2011:
La Encuesta Casen
33
Tabla1: Ingresos corrientes de los hogares y variables que los componen en Encuesta Casen 2011 TIPO DE INGRESO Variable
INGRESOS PRIMARIOS
Ingresos de los asalariados
Ingresos en efectivo de la ocupación principal
Sueldos y salarios y1a, y1b, y1c
Horas extras y3a
Comisiones y3b
Propinas y3c
Asignación por vivienda, transporte, educación y3d
Viáticos no sujetos a rendición y3e
Otros y3f
Bonificaciones o aguinaldos (anuales) y4a
Gratificaciones (anuales) y4b
Sueldo adicional, por sobre la remuneración mensual (décimo tercer mes) y4c
Otros similares y4d
Ingresos en especie de la ocupación principal
Alimentos y bebidas y5a
Vales de alimentación y5b
Vivienda o alojamiento y5c
Automóvil para uso privado y5d
Servicio de transporte y5e
Estacionamiento gratuito y5f
Teléfono y5g
Vestimenta y5h
Servicios de guardería o sala cuna y5i
Leña u otro tipo de combustible de uso doméstico y5j
Bienes o servicios producidos por el empleador y5k
Otros similares y5l
Ingresos ocupación secundaria y6, y10
Remuneración por trabajos ocasionales y14a
Trabajos realizados antes del mes anterior y14b
La Encuesta Casen
34
Ingresos mixtos de los empleadores y trabajadores por cuenta propia
Ingresos de la ocupación principal
Dinero retirado para gastos propios o del hogar y7a, y7b, y7c
Retiro de productos para consumo propio o del hogar y8
Ganancias por venta de productos (anuales) y9
Ingresos ocupación secundaria y10
Remuneración por trabajos ocasionales y14a
Trabajos realizados antes del mes anterior y14b
Consumo de productos agropecuarios producidos o recolectados por el hogar
y17
Rentas de la propiedad
Arriendo de propiedades urbanas y12a
Arriendo de maquinarias, animales o implementos y12b
Arriendo de propiedades agrícolas y16a
Arriendo de propiedades por temporadas y16b
Intereses por depósitos y15a
Dividendo por acciones o bonos financieros y15b
Retiro de utilidades de empresas y15c
Arriendo imputado
Arriendo imputado v17
TRANSFERENCIAS CORRIENTES
Prestaciones de la seguridad social
Jubilaciones, pensiones y montepíos
Jubilación o pensión de vejez bajo la modalidad de retiro programado
y27a
Jubilación o pensión de vejez bajo la modalidad de renta vitalicia
y27b
Pensión de invalidez y27c
Montepío o pensión de viudez y27d
Pensión de orfandad y277e
Otro tipo de pensión y27f
Seguro de desempleo o cesantía y14c
Asignación familiar y19
La Encuesta Casen
35
A continuación se presentan las definiciones de los principales tipos de ingresos y subsidios construidos a partir de la información de la Encuesta Casen, y el nombre que se da a las variables correspondientes. Ingresos de la ocupación principal (yoprcor): Corresponde a los ingresos de las personas asalariadas (y1a), empleadores y trabajadores cuenta propia (y7a) por su ocupación principal. Ingresos del trabajo (ytrabcor): Corresponden a los ingresos que obtienen las personas en su ocupación por concepto de sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4, y5, y6, y10, y11a, y14a, y14b), ganancias provenientes del trabajo independiente (preguntas y7a, y8, y9, y10, y14a, y14b) y la auto provisión de bienes producidos por el hogar (pregunta y17).
Ingresos del trabajo del hogar (ytrabhcor): Para cada hogar, es la suma de los ingresos del trabajo de todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos autónomos (yautcor): Corresponden a la suma de todos los pagos que reciben las personas, provenientes tanto del trabajo como de la propiedad de los activos. Estos incluyen sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4, y5, y6, y10, y11a, y14a, y14b), ganancias provenientes del trabajo independiente (preguntas y7a, y8, y9, y10, y14a, y14b), la auto-provision de bienes producidos por el hogar (pregunta y17), rentas (preguntas y12, y16), intereses, dividendos y retiro de utilidades (pregunta y15), jubilaciones, pensiones o montepíos (pregunta y27), y transferencias corrientes (pregunta y13, y14c, y18a, y18b, y18d).
Ingresos autónomos del hogar (yauthcor): Para cada hogar, es la suma de los ingresos autónomos de todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos autónomos per cápita del hogar (ypcauthcor): En cada hogar, es la suma de los ingresos autónomos de todos los integrantes del hogar, dividida por el número de miembros del hogar, excluido el servicio doméstico puertas adentro. Subsidios monetarios (ysubcor): Corresponden a todos los aportes en dinero que reciben las personas y los hogares del Estado a través de los programas sociales. La Encuesta Casen considera los aportes correspondientes a la Asignación Familiar, (pregunta y19), el Subsidio Familiar (SUF), el Subsidio Familiar Duplo o por Invalidez, el Subsidio a la Discapacidad Mental, el Subsidio de Cesantía, la Pensión Básica Solidaria (pregunta y20), el Aporte Previsional Solidario (pregunta y26), el Bono de Protección Familiar y de Egreso (del programa Chile Solidario) (pregunta y22), la Asignación Social (pregunta y23), el Subsidio de Agua Potable (pregunta y24), el Bono Bodas de Oro, el Bono de Invierno, el Subsidio Empleo Joven y otros subsidios del Estado (pregunta y25). Subsidios monetarios del hogar (ysubhcor): Para cada hogar, es la suma de los subsidios monetarios percibidos por todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos monetarios (ymonecor): Para cada persona, corresponde a la suma de los ingresos autónomos y los subsidios monetarios percibidos. Ingreso total del hogar (ytothaj): Corresponde a la suma del ingreso monetario del hogar (preguntas y1a, y3, y4, y5, y6, y7a, y8, y9, y10, y11a, y12, y13, y14, y15, y16, y17, y18a, y18b,
La Encuesta Casen
36
y18d, y19, y20, y22, y23, y24, y25, y26 e y27) y el arriendo imputado del mismo (pregunta v17), excluido el servicio doméstico puertas adentro. El arriendo imputado se aplica a los hogares que
no pagan arriendo por ser propietarios de la vivienda que ocupan. El valor que se imputa es
equivalente al arriendo que se pagaría en el mercado por una vivienda similar a la ocupada.
Ingreso total per cápita del hogar (ypchaj): Para cada hogar, corresponde al ingreso total del
hogar, dividido por el número de miembros del hogar, excluido el servicio doméstico puertas
adentro.
2. Indicadores A continuación, se presentan los principales indicadores sobre ingresos, pobreza y distribución de ingresos que son estimados, a partir de las variables construidas con la información provista por el módulo ingresos de la Encuesta Casen. Incidencia de la pobreza FGT(0) Para estimar la pobreza y la pobreza extrema, el ingreso del hogar se define como la suma del ingreso autónomo del hogar, excluido el servicio doméstico puertas adentro, las transferencias monetarias que recibe el hogar del Estado, excluido el servicio doméstico puertas adentro, y una imputación por concepto de arriendo de la vivienda, cuando ésta es habitada por sus propietarios. La incidencia de la pobreza en un determinado grupo o población se refiere al porcentaje de dicho grupo que vive en condición de pobreza, comúnmente definida mediante la aplicación de una línea de pobreza1. Un índice comúnmente utilizado para medir la incidencia de la pobreza es el índice de pobreza FGT, desarrollado por Foster, Greer y Thorbecke (1984)2, definido como:
1
1( ) ; 0
q
i
i
z yFGT
n z
Donde α es un parámetro que representa la sensibilidad del índice, z es línea de pobreza, n es el número total de individuos (población u hogares), yi es el ingreso del individuo “i”, y el número de
individuos pobres, (1)ix z
q
.
Cuando α toma el valor “0”, el índice FGT(0) representa la incidencia de la pobreza (proporción de individuos pobres). Cuando α toma el valor “1”, el índice FGT(1) se convierte en el índice de brecha de pobreza, y cuando toma el valor “2”, el FGT(2) es un índice de severidad de pobreza.
De este modo, es posible utilizar el índice FGT para estimar la incidencia de la pobreza tanto para la población general (personas), como a nivel de hogares. Incidencia de la pobreza en la población: Porcentaje de población pobre sobre el total de la población, definido a partir del método del ingreso. Es el porcentaje de personas cuyos ingresos son inferiores a la línea de pobreza establecida para la medición de esta
1 La incidencia de la pobreza en Chile es medida utilizando una línea de pobreza absoluta. Ver Cuadro B.4.2 2 Foster, James; Joel Greer and Erik Thorbecke (1984). "A class of decomposable poverty measures". Econometrica. 2 81: 761–766
La Encuesta Casen
37
Entonces, la incidencia de la pobreza en la población (porcentaje de la población pobre) se calcula como:
FGT(0) = p
p
q
n
Porcentaje de personas cuyo ingreso
per capita del hogar línea de pobreza
Donde qp= número de personas bajo la línea de pobreza, y np=tamaño de la población Incidencia de la pobreza entre los hogares: Porcentaje de hogares pobres sobre el total de hogares, definido a partir del método del ingreso. Es el porcentaje de hogares cuyos ingresos per cápita son inferiores a la línea de pobreza establecida para la medición de ésta.
Análogamente a la incidencia de la pobreza entre la población, la incidencia de la pobreza entre los hogares (porcentaje de hogares pobres) se calcula como:
FGT(0) = h
h
q
n
Porcentaje de hogares cuyo ingreso
per capita del hogar línea de pobreza
Donde qh= número de hogares bajo la línea de pobreza, y nh=total de hogares Decil de ingreso autónomo per cápita del hogar nacional: Décima parte o 10% de los hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los hogares nacionales y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares. Los límites de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los deciles. Quintil de ingreso autónomo per cápita del hogar nacional: Quinta parte o 20% de los hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares nacionales y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los quintiles. Decil de ingreso autónomo per cápita del hogar regional: Décima parte o 10% de los hogares de una región del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los hogares de la región y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares. Los límites de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los deciles. Quintil de ingreso autónomo per cápita del hogar regional: Quinta parte o 20% de los hogares de una región ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares de la región y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los quintiles.
La Encuesta Casen
38
Distribución del ingreso autónomo entre los hogares por decil (quintil) de ingreso autónomo per cápita del hogar: Estimación de la participación porcentual de los ingresos autónomos de cada decil (quintil) de hogares, clasificados en orden creciente de acuerdo al ingreso autónomo per cápita percibido por el hogar; en el total de ingresos autónomos del total de hogares del país.
Índice 10/10 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al 10% de hogares con menores ingresos:
10
1
1
1
10 /10
n
j
j
n
i
i
yauthaj
Índice
yauthaj
donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es identificada por un índice j=1,2,…,n10 ; y donde cada hogar perteneciente al primer decil de ingresos autónomos per cápita del hogar es identificada por un índice i=1,2,…,n1
Índice 10/40 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al 40% de hogares con menores ingresos:
10
4
1
1
10 / 40
n
j
j
n
i
i
yauthaj
Índice
yauthaj
donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es identificada por un índice j=1,2,…,n10 ; y donde cada hogar perteneciente a los primeros cuatro deciles de ingresos autónomos per cápita del hogar es identificada por un índice i=1,2,…,n4
La Encuesta Casen
39
Más información respecto a la temática de ingreso revisar el documento: “Manual del Investigador Encuesta de Caracterización Socioeconómica Nacional 2011: Módulos Registro, Residentes, Trabajo e Ingresos” Disponible en el siguiente link: http://www.ministeriodesarrollosocial.gob.cl/centro-informacion/#observatorio-social