Proyecto Cristina Taboada Chambo

2011

Cristina Taboada Chambó

Master en estadística Aplicada

PROYECTO-PRACTICAS

Los datos que voy a estudiar son sobre dos de las variables económicas más

importantes, las cuales son la inflación y el desempleo.

He decidido estudiar estas dos variables porque en la actualidad existe un

problemas económico y amabas son las más relevantes.

La inflación, en economía, se refiere al aumento de precios de bienes y servicios

en un periodo de tiempo, es decir, es la disminución del valor del dinero respecto a la

cantidad de bienes o servicios que se pueden comparar con dicho dinero. Por ejemplo, si

tenemos un servicio, como puede ser el autobús de Madrid a Barcelona, y el precio de

este servicio aumenta con el tiempo, tenemos inflación.

La inflación es un aspecto muy importante en la economía, ya que algunos de los

desastres económicos más importantes que ha habido en el mundo se debieron a una

descontrolada inflación.

La inflación se calcula como

Inflación2010 = (IPC2010 – IPC2009/IPC2009)

La tasa de desempleo es el porcentaje de la población activa que no tiene trabajo.

La población activa son aquellas personas que están en edad de trabajar y que,

en principio, estarían dispuestos a trabajar si encontraran un trabajo conveniente.

Ambas variables generan muchos problemas, no sólo para la gente, sino también

para las empresas, que no tienen un marco estable para prosperar y acaban

desapareciendo junto con el incremento del desempleo.

Algunos economistas han observado la relación entre la tasa de inflación y la del

desempleo, observando que cuando un país tenía baja inflación, tendía a experimentar

tasas de desempleo altas, y viceversa. Por lo que la sociedad debía de elegir entre uno de

dos males: inflación o desempleo.

Por lo que el objetivo de este trabajo es ver las diferencias y similitudes entres

las diferentes CCAA en España sobre amabas variable en el periodo 2010 y ver si es

cierto que existe una relación entre ambas variables observándolo a través de la

evolución del estas durante el periodo 1997 a 2010. Además los datos que voy a

manejar son porcentajes.

Para llevar a cabo el análisis he decidido utilizar el programa SPSS el cual es un

programa con una amplia variedad de análisis estadísticos. El cual contiene los análisis

que voy a utilizar para este trabajo de investigación.

� Para los datos de la población en desempleo lo obtenemos del siguiente

modo

Los datos están recogidos por la EPA (encuesta de población activa).

Esta encuesta1 va dirigida a la población que reside en viviendas familiares

principales, es decir, las utilizadas todas o la mayor parte del año como residencia

habitual o permanente.

Se excluyen de estas los llamados hogares colectivos, que son por ejemplo los

hospitales, hoteles, cuarteles, conventos, etc.…

Aunque se incluyen las familias que forman un grupo independiente residan en

estos establecimientos (directores de centros, conserjes y porteros).

El ámbito geográfico es todo el territorio nacional.

Para definir el marco de la encuesta es necesario empezar con la división

administrativa de España, la cual es:

La nación se encuentra dividida en 17 comunidades autónomas y dos ciudades

autónomas. Las comunidades autónomas se dividen en 50 provincias de las cuales 47

son peninsulares y 3 insulares. Las provincias se encuentran divididas en municipios y

estos en distritos municipales.

A partir de lo anterior se hace una nueva subdivisión de los distritos municipales

en secciones censales.

Por lo que la sección censal puede considerarse como un área geográfica con

límites perfectamente definidos.

Los datos son recogidos por el EPA, cuyo objetivo es el conocimiento de la

actividad económica del país. Su diseño está orientado a proporcionar información de

1 La encuesta introducida por el EPA está incluida en el anexo

las principales categorías poblacionales en relación con el mercado de trabajo así como

obtener clasificaciones de estas categorías según distintas variables.

Esta encuesta está diseñada para dar resultados detallados a nivel nacional. Para

las comunidades autónomas y las provincias se ofrece información sobre las principales

características al nivel de desagregación que permiten los coeficientes de de variación

de los estimadores.

La encuesta considera como población económicamente activa la constituida por

las personas de 16 y más años que en la semana de referencia satisfacen las condiciones

necesarias para su inclusión entres las personas ocupadas o paradas.

Se utiliza un muestreo bietápico con estratificación de las unidades de primera

etapa.

Las unidades de primera etapa están constituidas por las secciones censales. La

muestra de secciones permanece fija indefinidamente con las excepciones siguientes:

a) Salen de la muestra aquellas secciones en las que ya se han visitado todas

las viviendas encuestables.

b) Cuando en el proceso de actualización del seccionado a algunas

secciones les corresponda salir de la muestra, bien por los cálculos

probabilísticos, bien por cambios en la afijación por estratos.

En todos los casos las secciones que salen de la muestra son sustituidas por

otras.

Las unidades de segunda etapa están constituidas por las viviendas familiares

principales (ocupadas permanentemente) y los alojamientos fijos (chabolas, cuevas,

etc.…). No se consideran encuestables las viviendas secundarias ni las disponibles para

alquiler o venta, ya que no forma parte del ámbito poblacional definido anteriormente.

Dentro de las unidades de segunda etapa no se realiza submuestreo alguno,

recogiéndose información de todas las personas que tengan su residencia habitual en las

mismas.

Las unidades de primera etapa se estratifican atendiendo a un doble criterio:

A. Criterio geográfico: Las secciones se agrupan en estratos dentro de cada

provincia, de acuerdo con la importancia demográfica del municipio al

que pertenecen.

B. Criterio socioeconómico: Las secciones censales se agrupan en

subestratos dentro de cada uno de los estratos, según las características

socioeconómicas de las mismas.

Para llegar a la formación de los estratos se consideran los siguientes tipos de

municipios:

1. Municipios autorrepresentados: Son aquellos que dada su categoría dentro

de la provincia deben tener siempre secciones en la muestra. (la capital de

provincia, municipios que tienen un número de habitantes elevada y

municipios que tiene una demográfica destacada)

2. Municipios correpresentados: son aquellos que dentro de la misma

provincia forma parte de un grupo de municipios demográficamente

similares y que son representados en común.

� Para los datos de la inflación

En primer lugar la inflación se obtiene a través del IPC.

El IPC incluye a toda la población que reside en viviendas familiares en España,

se excluyen los gastos de las personas que residen en hogares colectivos o instituciones

y los gastos de los no residentes.

El campo de consumo es el conjunto de los bienes y servicios que los hogares

del estrato de referencia destinan al consumo; por lo que no se consideran los gastos en

bienes de inversión, los autoconsumos y los autosuministros, ni los alquileres

imputados, ni los gastos subvencionados por las administraciones públicas. Tampoco

forman parte del campo de consumo algunos impuestos no considerados consumo.

Cada parcela de consumo está representada por uno o más artículos en el IPC, de

forma que la evolución de los precios de estos artículos representa la de todos los

elementos que integran dicha parcela.

El IPC se trata de un diseño no probabilístico.

Los artículos están distribuidos en grandes grupos de la siguiente forma.

Grupos Número de artículos

Alimentos y bebidas no alcohólicas 176

Bebidas alcohólicas y tabaco 12

Vestido y calzado 67

Vivienda 18

Menaje 60

Medicina 13

Transporte 31

Comunicaciones 3

Ocio y cultura 43

Enseñanza 7

Hoteles, cafés y restaurantes 23

Otros bienes y servicios 38

Total 491

Podemos ver que las partidas más abundantes son los alimentos y

bebidas no alcohólicas y vestido y calzado. Y las partidas menos abundantes son

comunicación y enseñanza.

Los datos de la evolución del IPC e inflación en España y el cálculo de la

inflación son los siguientes:

Inflación2010 = (IPC2010 – IPC2009/IPC2009)

Años IPC inflación

2002 88,024 4

2003 90,699 3,04

2004 93,456 3,04

2005 96,604 3,37

2006 100 3,52

2007 102,787 2,79

2008 106,976 4,08

2009 106,668 -0,29

2010 108,588 1,80

Luego analizaremos los datos de la inflación.

Los datos que vamos analizar son los siguientes:

Por comunidades autónomas en el año 2010

CCAA Inflación Desempleo

Andalucía 3,2 27,97

Aragón 2,9 14,77

Asturias 3,2 15,97

Balears 2,7 20,37

Canarias 2 28,7

Cantabria 3,1 13,87

Castilla y León 3,2 15,78

Castilla la

mancha 3,4 20,99

Cataluña 3 17,75

Valencia 2,9 23,3

Extremadura 3 23,04

Galicia 3,1 15,4

Madrid 3 16,08

Murcia 3 23,35

Navarra 2,8 11,85

País Vasco 2,8 10,55

Rioja 3 14,27

Ceuta 1,9 24,12

Melilla 2,4 23,75

En este caso podemos ver que por la parte de la inflación vemos que las

Comunidades con más inflación son Castilla la mancha, Andalucía y Castilla y león. Y

los que menos son Ceuta y Canarias. Aunque podemos ver que no hay mucha diferencia

entre comunidades que va desde el 3.4 (Castilla la mancha) hasta 1.9 (Ceuta).

En el tema del desempleo podemos ver que, en este caso si hay una diferencia

considerable entre comunidades desde un 10.55% hasta 28.7%. Siendo las comunidades

con más desempleo Andalucía, Canarias y Ceuta. Y las que tiene menos desempleo son

País Vasco, Navarra y Cantabria.

Ahora, antes de realizar cualquier técnica multivariantes lo que vamos a llevar a

cabo es un análisis previo de los datos que nos indique con qué tipo de datos trabajamos

así como las características que estos poseen. El análisis nos permitirá deducir la

posibilidad de aplicar o no determinadas técnicas estadísticas multivariantes.

En un primer lugar vamos a dar una descripción numérica de los datos.

Vamos a hacer un resumen univariado para ambas variables en una única tabla y

calcular los valores tipificados. Por defecto muestra los estadísticos descriptivos básicos

para cada variable, es decir, medidas de tendencia central (media) y de dispersión

(desviación típica, varianza, máximo y mínimo). Teniendo como resultado el siguiente.

DESCRIPTIVES VARIABLES=INFLACIÓN PARO /STATISTICS=MEAN STDDEV MIN MAX.

Estadísticos descriptivos

N Mínimo Máximo Media Desv. Típ. INFLACIÓN 19 1,90 3,40 2,8737 ,39135 PARO 19 10,55 28,70 19,0463 5,34667 N válido (según lista) 19

Vemos que en este la variable inflación dato mínimo es 1.90, el máximo 3.40,

como media es de 2.8737 y desviación típica es de 0.39135, por lo que observamos que

no hay mucha diferencia.

En cuanto al desempleo vemos que el dato mínimo es de 10.55, el máximo es de

28.70, como media tenemos 19.0463 y de desviación típica 28.587 en el que podemos

ver que estos datos poseen algo más de diferencias.

Ahora vamos a proporcionar estadísticos y representaciones gráficas que

resulten útiles para describir las variables. Para ello vamos a realizar un informe de

frecuencias y gráficos de barras

FREQUENCIES VARIABLES=PARO INFLACIÓN /NTILES= 4 /STATISTICS=VARIANCE MAXIMUM MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS .

En este cuadro podemos observar en primer lugar el número de datos validos de

la muestra que en ambas variables es la muestra total es 19 por lo que no hay ningún

dato perdido. En la moda en el paro vemos que el dato que más se repite es de 10.55

(existen más modas pero cogen el dato con menor valor) y en la inflación es de 3.

La varianza que mide cuanto se separa los datos, en el caso del paro vemos que

la varianza es muy alta y la inflación vemos que este dato es más pequeño.

El máximo es el mismo que el anterior.

Los valores que superan el percentil 25 (25%) son de 14.77% en el paro y en

inflación es de 2.8%.

Los valores que superan el percentil 50 es de 17.75% en el paro y la inflación

son de 3%.

Y los valores que superan el percentil 75 es de 23.35 en el paro y en la inflación

es de 3.1%.

En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje

válido y el porcentaje acumulado del salario actual. La conclusión que obtenemos es

que en esta en el paro los datos no se repiten ni una sola vez en ninguna comunidad

autónoma.

En cuanto la inflación vemos que en este caso hay datos que se repiten más

frecuentemente que en la variable anterior en este caso son el 3.00% con una frecuencia

de 5, con un porcentaje de 26.3%. Luego le sigue la inflación del 3.20% con una

frecuencia de 3 veces y un porcentaje de 15.8%. Y por último datos como 2.8%, 2.9% y

3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los demás datos que vemos

solo se repiten una vez.

En el histograma se divide el rango de los datos en un número adecuado de

intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la

frecuencia de datos en el intervalo. El histograma de la inflación representa una

distribución asimétrica a la izquierda, ya que en este caso hay más frecuencia de los

datos y el histograma del paro tiene de distribución simétrica bimodal debido a que hay

menos frecuencia en los datos.

Ahora vamos a realizar una exploración de los datos, a través del procedimiento

Explorar

Las razones para realizar este procedimiento seria para inspeccionar los datos,

identificar los valores atípicos, obtener descripciones, comprobar supuestos y

caracterizar diferencias entre subpoblaciones. La inspección de los datos muestra que

pueden existir valores inusuales, valores extremos, discontinuidad en los datos…

Este procedimiento nos puede ayudar para ver si es posible realizar determinadas

técnicas estadísticas a los datos o si es necesario transformar los datos.

EXAMINE VARIABLES=INFLACIÓN PARO /ID= CCAA /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1. 7,3.4,8.5) TUKEY(4.685) /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

En este cuadro lo que obtenemos son los casos válidos y los casos perdidos

(donde e ambos casos es 0) y el total.

Aquí se pone en manifiesto los estadísticos descriptivos básicos para cada

variable, es decir, medidas de tendencia central, de dispersión y de forma, según la

categoría laboral.

• Estadísticos de tendencia central:

• Media

• Mediana

• Media recortada al 5%: media aritmética calculada omitiendo el 5% de las

observaciones con frecuencias más bajas y el 5% de las observaciones con

frecuencias más altas.

A la derecha de la media se muestra su error típico.

Estadísticos de dispersión:

• Errores típicos

• Varianza

• Desviación típica

• Máximo

• Mínimo

• Rango

• Amplitud intercuartil: es la distancia entre el primer cuartil y el tercer cuartil.

No le afecta la presencia de casos extremos.

Estadísticos de forma:

• Asimetría

• Curtosis

A la derecha de la asimetría y la curtosis se muestran sus correspondientes

errores típicos. La presencia de los valores extremos dispara la asimetría y el

apuntamiento (curtosis) estos coeficientes son pues, indicadores de anomalías en las

distribuciones de datos.

También se muestra un intervalo de confianza para la media (un rango de

valores basado en la media muestral) a un nivel del 95%, aunque se puede especificar

otro porcentaje.

Los estimadores-M se caracterizan porque los valores extremos reciben menos

peso que los valores próximos al centro.

Los cuatro estimadores robustos calculados para estimar el centro de la

localización, se diferencia uno de otro por las ponderaciones que aplican a los datos:

Estimador-M de Huber: Los casos que tienen los mayores valores absolutos

tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los

casos cuyos valores tipificados sean menores a 1,339 reciben un peso de 0

Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones

cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente

proporcionales a la distancia respecto al centro para todas las restantes observaciones.

Estimador-M redescendente de Hampel: Está caracterizado por tres constantes

(1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que

8.5 se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y

8.5 se le asigna pesos en función de su distancia respecto a cero.

Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se

asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los

pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor

absoluto se les asigna un peso 0.

Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula

también las bisagras de Tukey, que define los cuartiles de la distribución según una

transformación realizada por Tukey

Son los valores extremos de la distribución (muy alejados del resto). Se

muestran los cinco valores mayores y menores.

Grafico de tallos y hojas

Inflación

INFLACIÓN Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 Extremes (=<2,0) 1,00 2 . 4 5,00 2 . 78899 11,00 3 . 00000112224 Stem width: 1,00 Each leaf: 1 case(s)

Desempleo

PARO Stem-and-Leaf Plot Frequency Stem & Leaf 5,00 1 . 01344 5,00 1 . 55567 7,00 2 . 0033334 2,00 2 . 78 Stem width: 10,00 Each leaf: 1 case(s)

El diagrama de caja es un gráfico de resumen de la distribución basado en la

mediana, los cuartiles y los valores extremos.

Ofrece un gran cantidad de información, incluso los casos muy alejados del

centro son identificados.

Son especialmente útiles para comparar la distribución de los valores entre

diferentes grupos.

Está formada por una caja, patillas que salen de ella y límites. La caja representa

la amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o

bigotes” son las líneas que se extiende desde la caja hasta los valores más altos y más

bajos (los valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la

caja indica la situación de la mediana.

Con un O se marcan los casos situados entre 1.5 y 3 veces la amplitud

intercuartil desde los dos extremos de la caja. El borde superior de la caja es el percentil

75 y el borde inferior es el perfil 25.

En el gráfico de tallo y hojas de la inflación vemos que la mediana asimétrica

positiva. En cambio la variable del paro vemos que es asimétrica (sesgada) negativa.

Ahora vamos a realizar un análisis clúster de las variables.

El análisis clúster es un conjunto de técnicas multivariantes cuyo objetivo es

agrupar objetos o individuos basándose en las características que estos poseen. Este

análisis clasificará a los objetos, según su parecido. Los grupos resultantes deben

mostrar mucha homogeneidad entre los elementos del grupo y alto grado de

heterogeneidad entre los diferentes grupos.

En primer lugar lo vamos a realizar por el método inter-grupos.

Matriz de distancias

Esta matriz mide las distancias entre cada dos individuos del fichero de datos

antes de comenzar la clasificación. Esta señala las distancia entre los individuos según

la distancia euclídea al cuadrado. Podemos ver que esta matriz es simétrica y si

observamos bien veremos que el primer clúster estará formado por las Comunidades

autónomas más cercanas que son Andalucía y Murcia.

Esta es una matriz de similaridades

Historial de la conglomeración

Nos indica el orden de las uniones y la distancia a la que lo hacen por ejemplo

Asturias y Castilla y león se une a un distancia de 0.001 formando el clúster 1. Luego

forma otro clúster Extremadura y Murcia con distancia del 0.003.

Un tercer grupo se formado por Navarra y País Vasco con distancia 0.059

En la etapa 4 el clúster 2 se le añade Valencia.

Y en la etapa 5 se forma otro clúster con Cantabria y Rioja.

Así sucesivamente hasta llegar a formar 3 grupos de los que podemos ver cómo

están formados en la siguiente etapa.

Conglomerados de pertenencia

Nos indica el número de clúster finales.

El grupo 1 está formado por Andalucía, Murcia, Baleares, Valencia,

Extremadura, Melilla y Castilla la Mancha.

El grupo 2 está formado por Cantabria, La Rioja, Galicia, Aragón, Asturias,

Casitilla y león, Cataluña, Galicia Madrid Navarra y País Vasco.

El grupo 3 está formado por Melilla, Canarias y Ceuta.

Diagrama de témpanos

Muestra cómo quedaría la clasificación de individuos dependiendo del número

de conglomerados que consideremos (cada fila de la tabla). Por filas, se van pintando

X’s y se deja un hueco cuando cambiamos de clúster. Como podemos ver en este

ejercicio tenemos 3 clúster.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+----- ----+---------+------+ Asturias 3 òø

Castilla y León 7 òú

Galicia 12 òôòø

Cataluña 9 òú ó

Madrid 13 ò÷ ùòòòø

Cantabria 6 òø ó ó

Rioja 17 òôò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòø

Aragón 2 ò÷ ó ó

Navarra 15 òûòòòòò÷ ó

País Vasco 16 ò÷ ùòòòòòòòòòòòø

Extremadura 11 òø ó ó

Murcia 14 òôòø ó ó

Valencia 10 ò÷ ùòòòòòòòø ó ó

Balears 4 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòò÷ ó

Andalucía 1 òòòòòòòûòòò÷ ó

Castilla – La Ma 8 òòòòòòò÷ ó

Canarias 5 òòòûòòòø ó

Ceuta 18 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Melilla 19 òòòòòòò÷

Por los que tendríamos las comunidades autónomas clasificadas en tres grupos

según el paro y la inflación. El objetivo a partir de aquí es utilizar otros métodos para y ver

si se forman los mismos grupos.

Podemos observar al realizar de nuevo con el Método vinculación intra-grupos y

Ward obtenemos los mismos resultados, por lo que los grupos que los distintos países

formarían serian los siguientes:

Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre

las variables donde se expresa la relación en términos de una ecuación que conecta dichas

variables.

Esta tabla identifica a las variables independientes (paro) y dependiente (Inflación).

La tabla resumen del modelo nos proporciona información acerca de la bondad de

ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.

R Cuadrado es la bondad de ajuste y viene dada por:

=0.157

El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una

estimación más adecuada de bondad de ajuste poblacional es R cuadrado corregida que se

obtiene con la expresión.

El error típico de la estimación es la raíz cuadrada de la varianza residual.

=5.05274

La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la

validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de

probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera

cierta. Como este valor es mayor que 0.05 se acepta la hipótesis nula y se concluye que el

modelo de regresión es no válido. Se concluye que el parámetro es igual a 0. Por lo que no

existe relación alguna entre ambos parámetros.

Evolución en el tiempo del paro e inflación durante 1997-2010

Los datos de la evolución de ambas variables son los siguientes

En primer lugar vamos a ver la evolución de ambas variables.

Vemos que la inflación ha tenido altos y bajos durante el tiempo estudiado y la

variable desempleo ha sido más constante aunque podemos ver que en la primera etapa y la

última ha habido unos considerables aumentos relacionados por las crisis. En cuanto a la

relación de ambas variables, podemos ver que en épocas donde el desempleo es mayor la

inflación ha disminuido. Y cuando el desempleo ha sido menor la inflación ha aumentado.

Ahora vamos a hacer un estudio estadístico de ambas variables para ver si esta

afirmación es cierta.

En primer lugar vamos a llevar a cabo, como anteriormente, un análisis previo de

los datos, para indicarnos con que datos trabajamos y ver las características que poseen.

Realizaremos un análisis descriptivo de los datos.

Vemos que en este la variable inflación el dato mínima es -0.29, el máximo 4.08,

como media es de 2.725 y desviación típica es de 1.21046, por lo que observamos que no

hay mucha diferencia.

En cuanto el desempleo el dato mínimo es de 8.26, el máximo es de 21.30, como

media tenemos 13.59 y de desviación típica 4.17088 en el que podemos ver que estos datos

son más diferentes entre sí.

Ahora vamos hacer un análisis de frecuencias que servirá para describir nuestras

variables.

Los datos obtenidos son:

En este cuadro podemos observar en primer lugar el número de datos validos de la

muestra que en ambas variables es la muestra total (14) por lo que no hay ningún dato

perdido. En la moda en la inflación vemos que el dato que más se repite es de 3.04 y en el

desempleo es de 14.

La varianza que mide cuanto se separan los datos, en el caso de la inflación vemos

que la varianza es baja y en el desempleo vemos que es más elevada.

El máximo es el mismo que el anterior.

Los valores que superan el percentil 25 (25%) es de 1.86 en la inflación y en el paro

es de 10.5175.

Los valores que superan el percentil 50 es de 2.915 en la inflación y en el paro son

de 12.74.

Y los valores que superan el percentil 75 es de 3.64 en la inflación y en el paro son

de 16.5025.

En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje válido

y el porcentaje acumulado del salario actual. La conclusión que obtenemos es que en esta

variable solo se repite un dato que es 3.04 con un porcentaje del 14.3%.

La conclusión que obtenemos es que en esta variable solo se repite un dato que es

14.00 con un porcentaje del 14.3%.

En el histograma se divide el rango de los datos en un número adecuado de

intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la

frecuencia de datos en el intervalo. Ambos histogramas muestran una distribución bimodal

debido a que hay menos frecuencia en los datos.

Ahora toca hacer una exploración de los datos, esto nos va a servir si hay valores

inusuales, extremos, discontinuidades u otras peculiaridades.

Obtenemos los siguientes resultados:

En este cuadro lo que obtenemos son los casos válidos para cada variable y los

casos perdidos (donde e ambos casos es 0) y el total.

Los estimadores-M se caracterizan porque los valores extremos reciben menos peso

que los valores próximos al centro.

Los cuatro estimadores robustos calculados para estimar el centro de la localización,

se diferencia uno de otro por las ponderaciones que aplican a los datos:

Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen

pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los casos cuyo

valores tipificados sean menores a 1,339 reciben un peso de 0

Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos

valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente

proporcionales a la distancia respecto al centro para todas las restantes observaciones.

Estimador-M redescendente de Hampel: Está caracterizado por tres constantes (1.7,

3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que 8.5 se le

asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y 8.5 se le

asigna pesos en función de su distancia respecto a cero.

Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se

asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos

de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les

asigna un peso 0.

Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula

también las bisagras de Tukey, que define los cuartiles de la distribución según una

transformación realizada por Tukey.

Son los valores extremos de la distribución (muy alejados del resto). Se muestran

los cinco valores mayores y menores.

• Inflación

Inflación Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 -0 . 2 ,00 0 . 3,00 1 . 388 3,00 2 . 777 4,00 3 . 0035 3,00 4 . 000 Stem width: 1,00 Each leaf: 1 case(s)

• Desempleo

Desempleo Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 0 . 889 6,00 1 . 011144 3,00 1 . 568 2,00 2 . 01 Stem width: 10,00 Each leaf: 1 case(s)

El diagrama de caja es un gráfico de resumen de la distribución basado en la

mediana, los cuartiles y los valores extremos.

Ofrece un gran cantidad de información, incluso los casos muy alejados del centro

son identificados.

Son especialmente útiles para comparar la distribución de los valores entre

diferentes grupos.

Está formada por una caja, patillas que salen de ella y límites. La caja representa la

amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o bigotes”

son las líneas que se extiende desde la caja hasta los valores más altos y más bajos (los

valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la caja indica la

situación de la mediana.

En el gráfico de tallo y hojas de la inflación vemos que la mediana está más o

menos un poquito a la derecha por lo que la distribución es asimétrica positiva. En cambio

la variable del desempleo vemos que es asimétrica negativa.

Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre

las variables donde se expresa la relación en términos de una ecuación que conecta dichas

variables. Obteniendo lo siguiente:

Esta tabla identifica a las variables independientes (desempleo) y dependiente

(inflación).

La tabla resumen del modelo nos proporciona información acerca de la bondad de

ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.

R Cuadrado es la bondad de ajuste es de 0.327

El error típico de la estimación es la raíz cuadrada de la varianza residual es 1.03374

La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la

validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de

probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera

cierta. Como este valor es menor que 0.05 se rechaza la hipótesis nula y por lo que el

modelo de regresión es válido.

La tabla de coeficientes: esta tabla contiene los coeficientes no estandarizados (en

directas) y estandarizados de la recta de regresión estimada. Concretamente, la columna

etiquetada como B nos permite escribir la recta de regresión en puntuaciones directas. Así,

la recta que relaciona la inflación con el desempleo es:

^y=4.980-0.166x1

Por otro lado, el valor que aparece en la columna etiquetada como Beta es la

pendiente de la recta en típicas que como se sabe, en el modo de regresión simple, es el

coeficiente de correlación de Pearson. La recta de regresión en típicas es:

^Zy=-0.572Z1x

En la columna de coeficientes no estandarizados, además de los coeficientes de la

recta en directas, la columna error tip. Hace referencia a los errores típicos de la constante

(ordenada en origen) y la pendiente de la recta. Son los denominadores del estadístico de

contraste t de student de la penúltima columna. Concretamente, los errores típicos de la

pendiente se obtienen de la siguiente expresión:

La columna Sig., corresponde a los valores de probabilidad de los valores de t. Es la

probabilidad de obtener el valor de t si la hipótesis nula fuera cierta. Como no hay valores

que son menores que 0.05 rechaza la hipótesis nula y se concluye que el parámetro no es

igual a 0. Por lo que existe relación entre ambos variables.

Conclusiones

Podemos que hay una relación entre las distintas comunidades autónomas, según la

inflación y el desempleo, formando 3 grupos.

Un primer grupo formado por Andalucía, Murcia, Baleares, Valencia, Extremadura,

Melilla y Castilla la mancha. De las cuales podemos decir que sus similitudes están en que

presentan una inflación alta con una alta tasa de paro.

Un segundo grupo formado por La Rioja, Galicia, Aragón, Asturias, Castilla y león,

Cataluña, Cantabria, Galicia, Madrid, Navarra y País Vasco. En estas comunidades

autónomas nos encontramos con la similitud de un elevada inflación y una tasa de empleo

bajo.

Y por último, el grupo tercero formado por Melilla, Canarias y Ceuta. Donde se

caracteriza por tener una inflación más baja que las demás y con una tasa de empleo

elevada.

Por lo que podemos concluir que las comunidades autónomas más afectadas en la

crisis por ambas variables son las comunidades del primer grupo.

En cuanto a la relación de ambas variables a través de las comunidades autónomas

nos dice que no existe relación entre ella. Esto es debido a que cada Comunidad autónoma

se gestiona diferentemente y que cada una tiene diferentes problemas.

Haciendo el estudio a la evolución de ambas variables en España durante 1997 hasta

2010 vemos que ambas variables siguen una relación la cual se puede expresar por la

siguiente ecuación: ^y=4.980-0.166x1

Por lo que sacamos como conclusión de que en cuanto a la evolución de dichas

variables si hay una clara relación pero además la relación existente entre el desempleo y la

inflación dependerá de otras variables economicas.

Proyecto Cristina Taboada Chambo

Documents

Transcript of Proyecto Cristina Taboada Chambo