Probabilidad y estadistica

22
Universidad de Costa Rica Escuela de Ingeniería Industrial Laboratorio de Probabilidad y Estadística Reporte #1 Estadística Descriptiva e Inferencial: Comparación de porcentaje de promoción de los colegios públicos de San José Centro y Limón Estudiantes: Daniella Majluf Zeller (B33947) María Solís Quirós (B36819) Valeria Zamora Zamora (B37743) Adrián Sandoval Carpio (B36520) Prof. Marco González Víquez

description

...

Transcript of Probabilidad y estadistica

Page 1: Probabilidad y estadistica

Universidad de Costa Rica

Escuela de Ingeniería Industrial

Laboratorio de Probabilidad y Estadística

Reporte #1 Estadística Descriptiva e Inferencial: Comparación de

porcentaje de promoción de los colegios públicos de San José

Centro y Limón

Estudiantes:

Daniella Majluf Zeller (B33947)

María Solís Quirós (B36819)

Valeria Zamora Zamora (B37743)

Adrián Sandoval Carpio (B36520)

Prof. Marco González Víquez

Grupo 1

Marzo 2014

Page 2: Probabilidad y estadistica

RESUMEN

La educación pública es siempre un tema permanente de debate, pues en

Costa Rica siempre se ha declarado la educación como el estandarte de las

decisiones de gobiernos pasados. En este trabajo se analizaron los datos de

resultados de las pruebas de bachillerato del año 2012 mediante estadística

descriptiva, con énfasis en trilogía de tendencia central, variación y la forma de

los datos. Específicamente, se realizó un análisis comparativo y contrastante de

los porcentajes de aprobación de las pruebas en los colegios públicos de San

José centro y Limón.

Una vez que se analizaron los datos mediante gráficos y estadísticos

muestrales, se pudo inferir que las creencias populares, influenciadas por

publicaciones en medios de comunicación masivos sobre los resultados de las

pruebas de bachillerato, están muy lejos de la realidad encontrada en estos

números. Se encontró que la población de estudiantes de ambas zonas no

difiere mucho en sus promociones, a pesar de las diferencias geográficas y

sociales que se encuentran en sus respectivos sectores.

Esto provocó que las inferencias realizadas tomaran un matiz distinto, y

se transformaran de unas interesadas en qué decían los datos de los colegios

donde se tomaron y sus estudiantes respectivos, a datos que terminaron

cuestionando la percepción pública de la educación, además de alzar la

pregunta de cuál es la verdadera utilidad de los exámenes de bachillerato. De

esta manera, el estudio provee una visión de cómo la estadística descriptiva

puede dar a conocer males que se encuentran en diversos temas, ya sean de

realidad nacional o temas productivos dentro de una empresa.

Page 3: Probabilidad y estadistica

ÍNDICE

I. INTRODUCCIÓN.............................................................................................4

II. HIPÓTESIS......................................................................................................4

III. METODOLOGÍA..............................................................................................4

IV. ANÁLISIS DE DATOS.....................................................................................5A. Variación................................................................................................................5B. Tendencia central.................................................................................................6C. Forma.....................................................................................................................6D. Factores externos.................................................................................................7

V. RESULTADOS................................................................................................8

ANEXOS.............................................................................................................10ANEXO 1: Hoja de cálculos.......................................................................................10ANEXO 2: Gráficas de MiniTab.................................................................................10

BIBLIOGRAFÍA...................................................................................................13

Page 4: Probabilidad y estadistica

I. INTRODUCCIÓN

Se está llegando al conflicto

donde tanto los medios de prensa y

el ministerio de educación, como el

estado de la Nación dice que los

colegios de las zonas rurales, sobre

todo zonas costeras, tienen menos

posibilidades de obtener buenas

calificaciones en los exámenes de

bachillerato y admisión de la

Universidad de Costa Rica que los

colegios de zonas urbanas.

A continuación se compararán

y analizarán los porcentajes de

promoción obtenidos por los colegios

públicos de San José centro y Limón

en el año 2012, con el fin de

comprobar o desmentir esta

situación.

II. HIPÓTESIS

“Las bajas calificaciones también

coinciden con alumnos provenientes

de centros educativos ubicados en

zonas rurales —fuera de la Gran

Área Metropolitana (GAM)—,

fronteras y costas” (Fernández,

2012)

De acuerdo con lo expuesto por

Fernández, en un medio de

comunicación tan poderoso y

conocido, como lo es La Nación en

Costa Rica, plantea lo mismo que se

mencionó en la introducción.

Según la información brindada

por los medios y el sentido común,

antes de analizar los datos, se cree

que los colegios públicos de San

José van a tener porcentajes de

promoción superiores a los de

Limón. Asimismo, luego de consultar

el MIDEPLAN del Índice de

Desarrollo Social (IDS) en Costa

Rica del 2013, fuera de 81 cantones,

San José se encuentra en la

posición número 15 y con un valor

de IDS de 75,5%. Por otro lado,

Limón ocupa la posición número 71

y tiene un valor de IDS de 27,3%.

Esto reafirma la hipótesis.

III. METODOLOGÍA

Para comprobar la hipótesis,

se escogieron los colegios públicos

de San José centro (zona urbana) y

los de Limón (zona rural y costera).

A éstos se les hizo un análisis

4

Page 5: Probabilidad y estadistica

estadístico y descriptivo basándose

en su porcentaje de promoción en

los exámenes de bachillerato del año

2012. Para esto se utilizaron las

herramientas de Minitab y Excel, con

los cuales se construyeron ciertas

gráficas con el fin de analizar sus

trilogías: variación, tendencia central

y forma.

IV. ANÁLISIS DE DATOS

A. VariaciónLo primero que se hizo fue tomar

los valores extremos de los

porcentajes de promoción de cada

región escogida para así encontrar

sus rangos con la ecuación (1)

presente en el Anexo 1. Según la

Tabla 1 a continuación, se ve que

Limón tiene un rango que cubre

todos los posibles valores, mientras

que San José, a pesar de tener un

rango grande, sus valores se

encuentran menos dispersos. No

obstante, el rango no considera toda

la muestra de datos, sino solamente

sus valores extremos; por este

motivo no se puede llegar a ninguna

conclusión definitiva.

Se continuó analizando el

coeficiente de variación, calculado

con la ecuación (2) presente en el

Anexo 1. Esta medición muestra

cuánto varía cada dato

porcentualmente con el centro. En la

Tabla 1 se observa que el

coeficiente de variación de Limón es

3,965% más alto que el de San

José, con lo cual se concluye que los

porcentajes de promoción de los

colegios de Limón tienen más

variabilidad que los porcentajes de

San José. Sin llegar a una

conclusión definitiva, el hecho de

que Limón tenga un coeficiente de

variación más grande que San José,

representa que su porcentaje de

promoción es menos preciso que el

de San José. Esto puede ser

causado por valores extremos que

sesgan los resultados. Por ejemplo,

en Limón se encuentra el colegio

que está en la posición número 5 en

el ranking nacional con respecto a

las notas obtenidas en los exámenes

(Colegio Científico del Atlántico). Se

sabe que en Costa Rica los colegios

científicos obtienen mejores

resultados en los exámenes de

bachillerato que el resto de los

colegios del país, tanto públicos

como privados. Por otro lado, el

5

Page 6: Probabilidad y estadistica

colegio público de San José centro

que ocupa el primer lugar de la

región en este mismo ranking, se

encuentra en el número 265; esto es

260 posiciones más atrás que el

Científico del Atlántico.

Tabla 1. Medición de la variabilidad

Región Rango Coeficiente de

variación

Limón 100 47,309%

San José 82 43,344%

B. Tendencia centralAl analizar la media vemos que la

de Limón es 9,511 unidades más

alta que la de San José, lo cual

podría llegar a interpretarse

incorrectamente como que Limón

tiene un mejor porcentaje de

promoción. Sin embargo no hay que

olvidar que la media es muy sensible

a la presencia de valores extremos,

es decir, se sesga fácilmente. En el

caso de Limón esto es lo que sucede

ya que, como se dijo anteriormente,

tiene datos muy extremos que

desvían la media hacia arriba.

Luego se analizó la mediana de

los datos de cada región. La

mediana de Limón es más alta que

la de San José por 9,44 unidades.

Lo que indica esta medición es

dónde se encuentra el valor central

de la serie de datos ordenados. Si se

analiza solamente la mediana, se

podría concluir nuevamente que los

colegios de Limón tienen mejor

promoción que los de San José. Sin

embargo, la mediana tiene el mismo

defecto que la media: éste se ve

sesgado por valores extremos.

El tercer factor que se analiza de

la tendencia central es la moda. Éste

es el valor que más se repite en una

serie de datos, es decir el valor más

frecuente. Sin embargo, en este

caso no se pudo utilizar, ya que los

datos de San José no tienen valores

repetidos. En todo caso, de haberlo

utilizado, la comparación de estos

valores por región hubiera sido de

gran utilidad ya que ésta no es

afectada por la presencia de valores

extremos y hubiera representado el

porcentaje de promoción que más se

repite en cada colegio de ambas

regiones.

C. Forma Tanto la variación como las

medidas de tendencia central

pueden ser representadas por medio

6

Page 7: Probabilidad y estadistica

de gráficas para que sus datos se

puedan visualizar de una manera

más clara. Esto se hizo con los datos

de variación y de tendencia central

para las regiones de Limón y San

José centro. A continuación se

analizarán.

La gráfica más usada y que

mejor representa este tipo de datos

es el histograma. En los anexos 2 y

3 se presentan los histogramas de

ambas regiones. Con estas gráficas

se confirma lo visto por los números.

Se puede ver que San José tiene

una distribución más simétrica,

representada por la línea azul, y

como se planteó anteriormente, se

observa que sus datos están más

centralizados y agrupados que los

datos de Limón, los cuales se ven

más dispersos. Sus rangos también

se muestran con claridad.

A pesar de que ambas regiones

tienen una asimetría negativa,

visualmente, la de Limón se ve con

mayor claridad con la línea azul.

Además se pueden observar las

tendencias centrales de cada región,

con lo cual se puede interpretar que

los porcentajes de promoción de los

colegios de San José centro están

más parejos y más centralizados,

contrario a Limón, el cual tiene los

datos dispersos por todo su rango.

Esto se puede apreciar aún mejor

con la caja de bigotes presente en el

Anexo 4, que compara a Limón con

San José, donde el rango de San

José es muchísimo menor al de

Limón y la mediana de Limón está

por encima de la de San José. Sin

embargo, si se traza una misma

línea recta a lo largo de las cajas, se

puede ver que los datos pertenecen

a una misma población ya que esta

línea logra pasar por ambas cajas de

bigotes y muy cerca de sus

respectivas medianas. Por medio de

la caja de bigotes también se puede

analizar el rango intercuartil, es decir

el rango en el que se encuentra el

50% central de los datos; se puede

ver que a mayor rango, más

variabilidad. La gráfica de valores

individuales de porcentaje de

promoción presente en el Anexo 5

es una prueba más de lo que se ha

estado analizando: rango,

dispersión, datos extremos, entre

otros.

7

Page 8: Probabilidad y estadistica

D. Factores externos A pesar de todo el análisis

anterior, hay otros factores que no

se pueden dejar por fuera. Primero

que todo, es importante recalcar que

los colegios públicos que tiene

Limón superan en cantidad a los

colegios públicos de la región de

San José centro. Esto permite que

haya más posibilidad de datos

extremos en Limón para que

sesguen los resultados. También es

trascendental tener en cuenta que

Limón tiene un colegio científico que

está siendo tomado en cuenta en los

datos, mientras que San José centro

no tiene ningún colegio científico.

Se quiso ir más allá del análisis

de la trilogía. Por este motivo se

tomó en cuenta la cantidad de

estudiantes de cada colegio que

aplicaron para hacer el examen de

bachillerato. Esto con el fin de ver si

este factor afectaba el porcentaje de

promoción de cada región. En la

gráfica de dispersión de porcentaje

de promedio vs. cantidad de

alumnos que aplicaron presente en

el Anexo 8, se puede ver que a

menor cantidad de alumnos que

aplicaron, mayor el porcentaje de

promoción ya que es más fácil que

grupos pequeños aprueben por

varias razones. Entre otras, es más

fácil para los profesores

concentrarse en un grupo pequeño

de alumnos que en un grupo muy

grande. También es más probable

que pasen todos los alumnos de una

clase pequeña a que pasen todos

los de una clase grande.

En la gráfica de caja de bigotes

de la cantidad de alumnos que

aplicaron presente en el Anexo 6, se

puede ver que la cantidad de

alumnos por región es un factor

importante. Limón tiende a tener

grupos de alumnos más pequeños,

mientras que San José tiene grupos

muy grandes e incluso valores

extremos más altos que los de

Limón. Existe una diferencia muy

marcada entre la cantidad de

alumnos que aplicaron en San José

y la cantidad de alumnos en Limón.

Ésta podría ser una de las muchas

razones por las cuales Limón

pareciera tener mejor porcentaje de

promoción que San José, mostrada

en su media y mediana.

8

Page 9: Probabilidad y estadistica

V. RESULTADOS

Como se expuso en el informe,

San José centro y Limón poseen un

comportamiento muy similar en sus

variaciones, tendencias centrales y

formas. Difirieron en que Limón

presentó más valores extremos en

sus datos, los cuales sesgaron los

resultados del análisis de su

tendencia central, dando la idea

errónea de que esta región posee un

mejor desempeño en las pruebas de

bachillerato. Al estudiar la variación y

forma, se entendió que Limón en

realidad es una región mucho más

variable, en donde se presentan

colegios como el Científico del

Atlántico y el Liceo de Sixaola, los

cuales no podrían ser más opuestos.

Por su parte, San José centro no

posee colegios públicos

excepcionales, sino que su forma es

más simétrica. Entonces no hay

evidencia suficiente para que la

hipótesis presentada al inicio sea

considerada válida.

Por tanto, se pueden realizar dos

inferencias importantes sobre estos

hallazgos. Primero, no hay evidencia

que indique que la ubicación

geográfica sea un buen parámetro

para concluir que la educación

pública es mejor en la GAM que en

áreas rurales y costeras, y que por lo

tanto, estudiantes con una mayor

cercanía a la Universidad de Costa

Rica tengan mayores oportunidades

para ingresar a ésta. Esto contradice

lo dicho por muchos medios de

comunicación.

Asimismo, este análisis condujo a

otra hipótesis sobre la validación real

de los resultados de bachillerato.

Quizás el problema del examen de

bachillerato es que éste no es un

buen parámetro para medir qué

tanto saben los estudiantes de las

materias a evaluar. Además, deja de

lado las habilidades de los

estudiantes en áreas distintas que

los exámenes no toman en cuenta.

Por lo tanto, puede suceder que el

problema con los datos analizados

sea que el MEP no posee una

manera eficaz de mejorar estos

exámenes para que no se produzcan

datos que pueden sesgarse

fácilmente, y así poder dar a

entender de una manera más

adecuada qué tan bien está la

educación pública en el país.

9

Page 10: Probabilidad y estadistica

10

Page 11: Probabilidad y estadistica

ANEXOS

ANEXO 1: Hoja de cálculos

(1) Rango=máximo−mínimo

(2) Coeficiente de variaci ón=desviaci ónest á ndarmedia

ANEXO 2: Resumen de MiniTab del porcentaje de promoción (Limón)

11

100806040200

Mediana

Media

7570656055

1er cuartil 42,720

Mediana 61,8203er cuartil 81,630Máximo 100,000

51,958 66,875

52,043 74,381

23,731 34,482

A-cuadrado 0,70

Valor P 0,063

Media 59,416Desv.Est. 28,109Varianza 790,100

Asimetría -0,490435Kurtosis -0,582277N 57

Mínimo 0,000

Prueba de normalidad de Anderson-Darling

Intervalo de confianza de 95% para la media

Intervalo de confianza de 95% para la mediana

Intervalo de confianza de 95% para la desviación estándarIntervalos de confianza de 95%

Resumen para Porcentaje de promociónRegión = LIMON

Page 12: Probabilidad y estadistica

Anexo 3: Resumen de MiniTab del porcentaje de promoción (San José Centro)

12

100806040200

Mediana

Media

605040

1er cuartil 33,015

Mediana 52,3803er cuartil 68,720Máximo 82,980

40,976 58,834

36,964 64,237

16,890 30,092

A-cuadrado 0,22

Valor P 0,804

Media 49,905Desv.Est. 21,631Varianza 467,888

Asimetría -0,412396Kurtosis -0,352161N 25

Mínimo 0,000

Prueba de normalidad de Anderson-Darling

Intervalo de confianza de 95% para la media

Intervalo de confianza de 95% para la mediana

Intervalo de confianza de 95% para la desviación estándarIntervalos de confianza de 95%

Resumen para Porcentaje de promociónRegión = SAN JOSE (CENTR

Page 13: Probabilidad y estadistica

Anexo 4: Gráfica de caja de porcentaje de promoción

Anexo 5: Gráfica de valores individuales del porcentaje de promoción

13

Page 14: Probabilidad y estadistica

Anexo 6: Gráfica de caja de la cantidad de alumnos que aplicaron

Anexo 7: Gráfica de valores individuales de la cantidad de alumnos que aplicaron

14

Page 15: Probabilidad y estadistica

Anexo 8: Gráfica de dispersión del porcentaje de promoción vs la cantidad de alumnos que aplicaron

15

Page 16: Probabilidad y estadistica

BIBLIOGRAFÍA

Fernández, A. (22 de 10 de 2012). La Nación. Retrieved 3 de 4 de 2014 from http://www.nacion.com/nacional/Mapa-Resultados-Elecciones-Costa-Rica_11_1378572130.html

Gomez,M.(2012). Elementos de Estadistica Descriptiva. San Jose, C.R.: EUNED

Unidad de Comunicación, MIDEPLAN (2013). COSTA RICAÍndice de Desarrollo Social (IDS) 2013. Recuperado de www.mideplan.go.cr

16

Page 17: Probabilidad y estadistica

17