Post on 12-Apr-2017
INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA
PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA EMPRESARIAL
Apostila 01: Revisão de tópicos sobre Estatística
Disciplina: Estatística e modelos de otimização aplicados à logística
Prof. Rafael José Rorato
Brasília, abril de 08
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
2
c2008 INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Campus Jovanina Rimoli SGAN Quadra 609 – Módulo D – Avenida L2 Norte Brasília – DF CEP:70850-090 Este exemplar é de propriedade do Instituto de Educação de Brasília, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para ensino, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do autor.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
3
4
5
6
Inferência Estatística
População
Amostra
Parâmetros
Estimativas
Atributo
Variável Qualitativa
Variável Quantitativa
8
8
Gráficos de Barras ou Colunas
Gráficos de Pizza
9
Tabelas de Freqüências
Histograma
Ogivas
Dispersão
11
Média simples ou média aritimética
Média geométrica
Média harmônica
Média ponderada
Mediana
Moda
Percentil
Quartis
Amplitude
Amplitude interquartil
Variância
Desvio-padrão
Coeficiente de Variação
Box-plot
16
Covariância
Correlação
18
Variáveis Aleatórias
Probabilidade
Distribuição de Probabilidades
Distribuição Normal
Teorema do Limite Central
Parâmetros da Distribuição Normal
1.3.5) Distribuição de Probabilidade.............
1.3.1) Sintetização de dados qualitativos......
1.3.2) Sintetização de dados quantitativos....
1.3.3) Métodos Numéricos..........................
1.3.4) Medidas Associativas..........................
1) Estatística........................................................
1.1) Dados x Informação................................
1.2) População, Amostra e Variáveis..............
1.3) Estatística Descritiva.................................
ÍNDICE
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
4
1) Estatística Vamos considerar algumas definições:
a) Método: consiste no conjunto de meios e rotinas dispostos convenientemente e logicamente para chegar a uma finalidade desejada.
b) Método experimental: no método experimental mantêm-se todas as
causas e fatores, menos uma, e variar esta causa de modo que se possa descobrir seus efeitos (ex.: princípio da análise de sensibilidade de um modelo).
c) Método estatístico: adimite que todas as causas presentes, variando-as,
dada a impossibilidade de mantê-las constantes, registrando estas variações e procurando determinr as influências de cada uma delas.
Assim, a Estatística é a arte e a ciência de coletar, analizar, apresentar, caracterizar e interpretar os dados para a utilização dos mesmos na tomada de decisões. Podemos considerar que a estatística torna-se um conjunto de técnicas fundamentadas na matemática com que torna-se possível transformar dados em informação. Constitui-se do conjunto de técnicas e métodos de pesquisa que entre outros tópicos, envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações. O conjunto de algumas técnicas fundamentadas integralmente ou parcialmente constituem da área de conhecimento tais como: Estatística Básica (Descritiva, ANOVA: Análise de variância, Teste de Hipótese, Regressão), Séries Temporais (Aplicação à Economia: Econometria), Data Mining, Redes Neurais, Controle de Qualidade (CEP: Controle Estatístico de Processos, Seis-Sigma), Planejamento de Experimentos (DOE: Design of Experiments), Simulação e Pesquisa Operacional (Otimização) O desenvolvimento das técnicas estatísticas de obtenção e análise de informações permite o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do conhecimento, sejam com ambiente experimental controlado, tal como um laboratório de Análises Clínicas, ou em ambientes não controlados, tais como, vendas de um determinado produto em um supermercado, ou o risco de inadimplência na liberação de crédito a um possível cliente de instituição financeira, ou análise de passageiros transportados por empresa de transporte aéreo. A Estatísitca apresenta como objetivo fornecer métodos numéricos capazes de lidarmos racionalmente na análise de dados, gerando informações para tomada de decisão segundo situações sujeitas a incertezas quantificadas. O porquê de estudar Estatística justifica-se na compreenção da leitura numérica e de dados estatísticos encontrados em jornais, relatórios analíticos de instituições públicas ou privadas, sites na internet, biddings de transportes e demais licitações
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
5
que necessitem de uma interpretação numérica e/ou histórica de dados. Através dela, minimizam-se os riscos de sermos iludidos por estatísticos ou pseudo-estatísticos, constituindo-se assim de um poderoso instrumento para a tomada de decisões. De nada adianta apresentarmos ou possuirmos “ferramental” computacional e algumas informações se não formos capazes de interpretarmos as informações, gráficos ou tabelas. Por quê Estatística e Logística? Revisaremos uma das definições da Logística:
“Logística é a parte do processo da cadeia de suprimentos que planeja, implementa e controla, de forma eficiente e eficaz, a expedição, o fluxo reverso e a armazenagem de bens e serviços, assim como do fluxo de informações relacionadas, entre o ponto de origem e o ponto de consumo, com o propósito de atender às necessidades dos clientes.” (Fonte: Concil of Supply Chain Management Professional)
Observamos que a eficiência e a eficácia nos processos logísticos vão além da infra-estrutura física de terminais, tecnologias de transporte, especialização da mão-de-obra. Para a busca da otimização nos processos logísticos de movimentação e armazenagem, necessita-se saber responder:
Aonde? Onde? Quando? Quantos? A que custo? A qual prazo? Como mensurar o serviço?
Como mensurar o risco? 1.1) Dados x Informação Os dados são definidos como os fatos, classes e números observados e sintetizados para apresentação e interpretação, úteis para uma determinada finalidade. Apresentam significado implicito sobre os fenômenos do mundo real ou de experimentações controladas. Porém, um dado por si só, não é fortemente representativo!
(a) (b)
Figura 1: Representatividade visual do agrupamento de dados: (a) isolado, baixa geração de informação (b) conjunto de dados, significativa
(b) geração de informação
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
6
Informação constitui-se de um agrupamento de dados, devidamente armazenados e possíveis serem classificadas, verificadas as correlações, as dependências, as associações e deduções, cujos resultados geram uma ação.
1.2) População, Amostra e Variáveis Quando buscamos obter informações para a tomada de decisão, necessitamos coletar dados, sejam eles através de pesquisa de campo, entrevistas e preenchimento de formulários ou acessar os sistemas de banco de dados das empresas. Porém nem sempre, ao investigar um determinado comportamento ou ação, não obtemos recursos financeiros para realizar a pesquisa. Por exemplo: ao investigarmos o número de acessos (chegadas e partidas) de veículos de passeio ao terminal do Aeroporto Estadual Dr. Leite Lopes em Riberião Preto (SP) em um ano, damandaria um alto custo em manter uma equipe de pesquisadores relizando contagens de pessoas em 24h, por 7 dias na semana, ao longo de 365 dias do ano. Para minimizarmos esses custos é realizado um processo chamado de Inferência Estatística. Através do planejamento de experimentos da pesquisa realiza-se a coleta de dados em um período inferior a 365 dias e com dias específicos ao longo da semana e concentrando os esforços em horários significativos. Com a Inferência Estatística busca-se justificar o comportamento de uma população através do estudo de uma amostra. Os dados de uma amostra podem ser usados para fazer estimativas e para testar hipóteses sobre a característica
Planejamento Tático, Estratégico e Operacional Relacionamento com Fornecedores Relacionamento com Clientes Marketing analítico CRM analítico Budget Localização de Instalações: fábricas, centros de distribuição e varejo Etc...
Dados
Processo de Transformação
Informação
Atitude
Conhecimento
1. Modelagem de Processos 2. Tecnologia da Informação: BI, DW, Banco
Dados, ERP... 3. Data Quality 4. Áreas da Estatística: Descritiva, ANOVA,
Regressão, CEP, Econometria...
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
7
de uma população. Ex.: No Controle Estatístico de Processo da produção e envaze de garrafas com óleo de soja, seria irrealistico validar a calibração da máquina de envase medindo todas as garrafas produzidas em um dia. Faz-se a segmentação em lotes de produção e desse lote são extraídas amostras e delas feito a medição volumétrica, a quantificação da variabilidade do envase e a inferência sobre o lote. Em outro caso, um analísta de risco de uma instituição financeira ao acessar o sistema de banco de dados apresenta condições em consultar todos os registros desde a criação do sistema até a carga mais recente extraída da base transacional. Nestas condições o analista trabalha com a população de dados. População e amostra referem-se ao conjunto de variáveis qualitativas ou quantitatvas cujas propriedades desejamos averiguar. A população é o conjunto de todos os elementos de interesse de um determinado estudo. A amostra é um subconjunto da população. A notação encontrada nas fórmulas de estatística para o tamanho de população e amostra é dado por:
� N: Tamanho da População � n: Tamanho da Amostra
Parâmetros são os valores singulares que existem na população e que servem para caracterizá-la. O parâmetro somente defini-se ao examinar toda a população. Ex.: o analista risco mensura que para os registros de liberações de crédito a inadimplência atingiu 18,7% da carteira, sendo o valor médio de emprestimo de R$25.679,00. Estimativas são valores aproximados do parâmetro e são calculados com o uso dos dados amostrais. Ex.:Pesquisa realizada em 21 de junho de 2000 levantou que a média diária de veículos de passeio que chegam ao terminal aéreo de Ribeirão Preto (SP) são de 175,1 veículos, para o período compreendido das 9:00 às 19:00. Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo. Variável: é o conjunto de resultados possíveis de um fenômeno ou os valores que identificam características para cada registro. As variáveis são classificadas em:
� Qualitativa: quando os valores são expressos por atributos, de forma não numérica. As variáveis qualitativas são sub-classificadas em:
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
8
Sexo Freq Freq Relativa Freq %F 15 0.75 75M 5 0.25 25Total 20
o Qualitativa Nominal: Sexo (M ou F), Cor da pele (branca, preta, amarela);
o Qualitativo Ordinal: Classificado em Ruim, Bom e Excelente;
Extremamente Fácil, Fácil, Difícil, Muito Difícil;
� Quantitativa: quando os valores são expressos por números. As variáveis quantitativas são sub-classificadas em:
o Quantitativa Discreta: expresso por números inteiros tais como
idade (12, 17, 23, 42), pesos de uma categoria (-10, 0, 12, -22, 47);
o Quantitativa Contínua: espresso por números reais decimais. (Ex.: notas dos alunos na disciplina de Estatística: 5,5; 7,4; 9; 0; 2,4);
1.3) Estatística Descritiva A Estatística Descritiva tem como objetivo descrever dados de uma amostra ou de uma população via uso de métodos tabulares, métodos gráficos e métodos numéricos. Os métodos tabulares e gráficos apresentam-se como uma forma de sintetizar as informações em tabelas e gráficos através da frequência de ocorrência de categorias de uma variável quantitativa ou qualitativa. Já os métodos numéricos são diretamente aplicados a variáveis quantitativas e fornecem informações de posição e de dispersão da amostra ou população. 1.3.1) Sintetização de dados qualitativos Uma simples forma para sintetizar dados qualitadivos é realizada através da Distribuição de Freqüência. Defini-se como um sumário tabular de dados que mostra a freqüência (ou o número) de observações em cada uma das diversas classes não sobrepostas. Outras formas de tabulação são as Freqüências Relativas e Percentuais. Basicamente a Freqüência Relativa é determinado pela divisão da freqüência da classe pelo total das variáveis. Como exemplo para os dados da Figura 1(b) temos para a variável Sexo:
Tabela 1: Freqüência, Freqüência Relativa e Freqüência Percentual da variável Sexo Os gráficos descritivos são conhecidos como:
� Gráficos de Barras ou Colunas
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
9
NC
VVL menormaior −
=
� Gráficos de Pizza Nessas representações gráficas, cada categoria de uma variável qualitativa são agrupadas e em barras ou fatias e dimensionadas conforme as Freqüencias a elas atribuidas. A maioria dos programas computacionais estatísticos são habilitados à tabular dados qualitativos em forma gráfica. 1.3.2) Sintetização de dados quantitativos Os dados quatitativos também apresentam formas sintéticas de apresentação. Podemos utilizar-se de Tabelas de Freqüências em relação a classes, definida pelos número e largura de classes. Indica-se o uso de tabelas de frequências para amostras ou populações pequenas (n<30; N<30). Para dimensioná-las saiba que:
� Largura entre as classes devem ser iguais; � Quanto maior o número de classes, menor será a largura; � A largura é definida por:
Sendo, Vmaior: maior valor registrado na variável em estudo Vmenor: menor valor registrado na variável em estudo NC: Número de Classes (recomenda-se o uso de 5 ou 6 classes)
Tabela 2: Distribuição de Freqüências por Classe para uma variável quantitativa Outras formas de representação de dados quantitativos:
� Histograma: é uma apresentação de uma distribuição de freqüência, distribuição de freqüência relativa ou distribuição de freqüência percentual
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
10
Histograma Peso
Peso
Fre
qüên
cia
50 60 70 80 90
01
23
45
1000 2000 3000 4000 5000 6000
2000
4000
600
08
000
100
00
Fator de Estiva
Número de TEUs Embarcados
Atr
asos
para dados quantitativos construídos colocando-se os intervalos de classe no eixo horizontal e as freqüencias no eixo vertical
Figura 2: Histograma para a variável Peso apresentada na Figura 1
� Ogivas: defini-se como um gráfico de linha que apresenta a distribuição cumulativa. Os valores dos dados são mostrados no eixo horizontal e as freqüências no eixo vertical.
Figura 3: Exemplo de uma ogiva
� Dispersão: o gráfico de dispersão consiste na plotagem registros entre duas variáveis quantitativas, aplicadas nos eixos x e y. Serve como um diagnóstico para verificação visual de correlação entre as variáveis, sendo uma primeira etapa para refutação ou aprovação de uma análise de regressão.
Figura 3: Gráfico de disperção
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
11
1.3.3) Métodos Numéricos Os métodos numéricos em Estatística Descritiva para variáveis quantitativas nos fornecem medidas de posição e medidas de variabilidade. Com elas podemos fazer a caracterização númérica da distribuição amostral ou da população. São com as medidas de posição e de variabilidade que geralmente um analista de logística embasa as decisões para um problema. As medidas de posição são: ] Média: é a medida de posição mais importande de uma variável quantitativa. A média fornece uma medida de posição central. Os principais tipos de média são: Média simples ou média aritimética:
n
xx
i∑= x = Média da amostra
N
xi∑=µ µ= Média da população
Média geométrica
nn
n
i
i xxxxxx ×××=
= ∏
=
...3211
x = Média da amostra
NN
N
i
i xxxxx ×××=
= ∏
=
...3211
µ µ= Média da população
A média geométrica deverá apenas ser usada quando os registros da variável quantitativa em estudo forem positivos, evitando assim raízes de ordem n ou N com números negativos. Freqüentemente utiliza-se para números cujos valores apresentam um significado em serem multiplicados entre si (progreção geométrica – PG) ou serem uma série de comportamento exponencial por natureza, tal como dados de crescimento da população humana ou taxas de investimento financeiro. Média harmônica
nxxxx
nx
1...
111
321
++++
=
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
12
A média harmônica consiste na inversão dos números da variável quantitativa, tirar a media dos inversos e inverter novamente, devendo ser aplicados quanto esses números apresentam uma relação onde numerador é uma constante e o denominador varia, isto é, apresentam uma relação;
b
a
Sendo, a um valor fixo e b variável. Exemplificando, tomamos que a variável a represente a distâncias entre cidades (são fixas e não se alteram ao longo do tempo – fator constante) e b representa o tempo de viagem entre essas cidades (pode variar pois o veículo poderá alterar a velocidade). Supomos que em uma viagem cíclica em uma operação logística de transportes, cujo caminhão semi-reboque coleta carga em uma Unidade Fabril (UF) e transporta a um Centro de Distribuição (CD), viajando na ida a 70km/h e realiza na volta uma velocidade de 90km/h. Utilizando a média harmônica temos:
hkmxharmônica
/75,78160
63002
9070
90702
90
1
70
12
=×
=
×
+=
+
=
Se utilizarmos a média aritimética temos:
hkmx aaritimétic /802
160
2
9070==
+=
Para visualizar a diferença da aplicação desse exemplo, a média harmônica considera que existe na determinação da velocidade média do caminha a relação espaço/tempo. Consideramos que a distância entre a UF e o CD é de 35km. O tempo de viagem de ida seria de 35 km / 70km/h = 0,5 horas = 30 min, enquanto que a volta do veículo seria 35 km / 90km/h = 0,389 h = 23,3 min. Logo, o tempo total do ciclo será igual a 0,889h = 53,3 min para percorrer 2 x 35 km = 70km. Conseqüentemente, a velocidade média será 70 km / 0,889 h = 78,75km/h (igual a média harmônica). Média ponderada
n
nn
n
i
i
n
i
ii
www
xwxwxw
w
xw
x...
...
21
2211
1
1
++
+++=
×
=
∑
∑
=
=
Sendo wi os pesos ao qual queira-se vincular as variáveis xi. A média ponderada faz com que os elementos de maior peso wi contribuam mais do que os elementos de menor valor de wi no cálculo da média. A média ponderada deverá ser utilizada sendo que os pesos não sejam negativos. Alguns elementos do peso poderão ser nulos, porém nem todos devido a divisão por
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
13
zero. Se todos os pesos forem de mesmo valor, a média ponderada a apresentará o mesmo valor da média aritimética.
********** Como as médias reportam a tendência central da amostra ou população, a média aritimética não é apropiada para descrever distribuições enviesadas, porque essa mediada não tem intepretação do fenêmeno. A média aritimética é facilemente influenciada pelos outliers. As distorções ocorridas pelos outliers são percebidas pelo quanto a média difere-se da mediana. Para casos de amostras ou populações com ocorrência de outliers indica-se o uso da mediana.
Figura 4: Média x Mediana
********** Mediana: é outra medida de posição central de uma variável. A mediana é o valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente (classificação do menor valor para o maior). Com um número ímpar de observações, a mediana é o valor do meio. Um número par de observações não tem um valor único no meio. Neste caso, seguimos a convenção de definir a mediana como sendo a média dos valores das duas observações do meio. Assim, defini-se: Mediana com os valores dados arranjados na ordem ascendente:
1. para um número ímpar de observações, a mediana é o valor do meio.
2. para um número par de observações, a mediana é a média dos dois valores do meio.
Moda: é o valor de dados que ocorre com maior freqüência. Conforme o tipo de variável estudada e o processo de obtenção da informação (pesquisa de campo, formulários, contagens, etc) a utilização prática da moda pode ser na identificação de possíveis dados fake (“chutado” pelo entrevistador)
1 2 3 4 5 6 7 8 9 10
Média = 4.4
Mediana = 4
Moda = 3
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
14
no processo de pesquisa, podendo ou não utilizaram-se do processo de “limpeza” ou exclusão dos dados. Percentil: o percentil fornece a informação sobre como os valores de dados estão distribuídos sobre o intervalo, do maior para o menor. O p-ésimo percentil é um valor tal que pelo menos p por cento das observações assumem esse valor ou menos e pelo menos (100 – p) por cento das observações assumem esse valor ou mais. Quartis: defini-se como a divisão dos dados em quatro partes, cada parte contendo aproximadamente um quarto, ou 25% das observações. Esses pontos são definidos como quartis e estão nomeados como: Q1: primeiro quartil, ou 25º percentil Q2: segundo quartil, ou 50º percentil (igual a mediana) Q3: terceiro quartil, ou 75º percentil As medidas de variabilidade são: Amplitude (range): a amplitude consiste na diferença entre o maior e o menor valor das categorias da variável. A amplitude é fácil de calcular, mas é sensível aos dois valores de dados: o maior e o menor. Amplitude interquartil (IQ): defini-se como a diferença entre o terceiro e o primeiro quartil (Q3 – Q1). Variância: a variância é uma medida de dispersão que indica quão longe em geral os valores da variável se encontram do valor esperado. Segundo a teoria das probabilidades o valor esperado de uma variável aleatória é a soma das probabilidades de cada possibilidade de um registro possa ser igual a média aritimética. Assim baseia-se na diferença entre o valor de cada observação e a média. O valor da variância nunca é negativa e a unidade da variância é o quadrado da unidade da observação.
( )N
xi∑ −=
2
2µ
σ 2σ = Variância da população
( )
1
2
2
−
−=∑
n
xxs
i 2s = Variância da amostra
Nas aplicações estatísticas, os dados analisados são para uma amostra. Assim quando calculada a variância da amostra, estamos interessados na busca da variância da população. Podemos mostrar que, se a soma dos desvios elevados ao quadrado ao redor da média for dividida por n-1 e não por n, a variância da amostra resultante fornece uma estimativa não enviesada ou não-induzida da variância da população.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
15
Desvio-padrão: é a raiz quadrada positiva da variância. Esta medida de variabilidade é um número positivo e utiliza-se das mesma unidade da variável quantitativa, facilitando assim a interpretação real da informação. Nota importante: Maiores detalhes sobre curvas de distribuição veremos em item a seguir. Mas como propriedade do desvio-padrão temos que, em uma distribuição normal simétrica, mesocúrtica e unimodal podemos afirmar que:
� 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
� 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
� 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.
Figura 5: Distribuição normal de probabilidade e o desvio-padrão
Coeficiente de Variação: é uma medida de variabilidade que mensura a desvio-padrão relativo à média.
100×−
=Média
padrãoDesvioCV
********** Box-plot: é um sumário gráfico dos dados baseado em uma regra que contém cinco medidas de posição: o menor valor, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o maior valor.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
16
1000
2000
3000
4000
5000
6000
Box-plot
Dis
tânc
ias
Outliers
Q1
Q3
Mediana
Usando a amplitude interquartil, IQ = Q3 – Q1 os limites de 50% da amostra são assinalados. Os limites do gráfico de box-plot são definidos por 1,5QI abaixo de Q1 e 1,5QI acima de Q3. Os pontos fora desses limites são classificados como outliers. Os outliers são pontos que fogem da distribuição estatística assumida para os dados. Nos gráficos de box-plot deve haver cautela na intepretação dos outliers. Os gráficos de box-plot são úteis para detecção quando a distrubuição é simétrica. ‘
********** 1.3.4) Medidas Associativas Usualmente, na geração de informações para a tomada de decisão faz-se necessário investigar o comportamento de uma variável em relação a outra. Neste contexto utilizamos de medidas descritivas de relação entre duas variáveis: a correlação e a covariância. A covariância é por vezes chamada de medida de dependência/associação linear entre as duas variáveis quantitativas aleatórias. Valores positivos indicam uma relação positiva entre duas distintas variáveis x e y. Valores negativos indicam uma relação negativa entre as variáveis x e y. Valores nulos representam nenhuma relação entre x e y.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
17
( )( )1−
−−=∑
n
yyxxs
ii
xy
xys : Covariância das amostras das variáveis x e y de um conjunto de dados;
xi: Valores de x variando de i=1 até i=n; x : Média amostral da variável x; yi: Valores de x variando de i=1 até i=n; y : Média amostral da variável y; n: tamanho da amostra
( )( )N
yx yixi
xy
∑ −−=
µµσ
xyσ = Covariância da população das variáveis x e y de um conjunto de dados
xi: Valores de x variando de i=1 até i=n; µx: Média da população da variável x; yi: Valores de x variando de i=1 até i=n; µy: Média da população da variável y; N: tamanho da população A correlação é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis. É conhecida como correlação de Pearson ou Momento de Pearson. Os valores compreendem entre -1 a +1. Valores próximos a +1 indicam uma forte relação linear positiva; valores próximos a -1 indicam uma forte relação linear negativa. Valores nulos ou próximos de zero indicam a falta de relação linear.
yx
xy
xyss
sr =
xyr : correlação das amostras das variáveis x e y de um conjunto de dados;
sxy: covariância da amostra; sx: desvio-padrão amostral da variável x; sy: desvio-padrão amostral da variável y.
yx
xy
xyρρ
ρρ =
xyρ : correlação das populações das variáveis x e y de um conjunto de dados;
ρxy: covariância da população; ρx: desvio-padrão da população da variável x; ρy: desvio-padrão da população da variável y.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
18
-6
-4
-2
0
2
4
6
8
1 0
1 2
1 4
0 1 2 3 4 5 6 7 8
-1 0
-8
-6
-4
-2
0
2
4
6
0 1 2 3 4 5 6 7 8
0
1
2
3
4
5
6
7
8
-6 -4 -2 0 2 4 6 8 1 0 1 2 1 4
Covariância positiva: x e y são relacionados positiva e linearmente
Covariância aproximadamente nula: x e y não são relacionados linearmente
Covariância negativa: x e y são relacionados negativa e linearmente
1.3.5) Distribuição de Probabilidade Antes de definirmos a distribuição de probabilidade iremos revisar algumas definições.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
19
Variáveis Aleatórias: A variável aleatória é uma descrição numérica do resultado de um experimento, mecanismo ou sistema não-determinístico. Matematicamente é definida como uma função mensurável de um espaço probabilístico. No experimento a variável xi aleatória apresenta um valor único. A palavra não-determinística, aleatória ou estocástica apresentam o mesmo significado. Representa que a variável obtida somente será conhecida após o experimento ser realizado. Ex.: Em uma fila de pedágio em uma rodovia, o processo de chegada de veículos é aleatório, isto é, não conseguimos determinar com precisão qual será o comprimento da fila ou quantos veículos passarão em um dia de operação. Diferentemente, um processo determinístico poder-se-á calcular o valor da variável a ser calculada. Ex.: Na física, sabemos que o deslocamento de um veículo é dado por:
tvx ×= Onde, x: deslocamento (km ou m); v: velocidade (km/h ou m/s); t: tempo (h ou s); Outro exemplo vem dos fenômenos de hidráulica e mecânicas dos fluidos. A vazão de água passando por um tubo de diâmetro conhecido e constante é dado por:
vAQ ×= Onde, Q: vazão do fluído (m3/s ou m3/h);
A: área do tudo de diâmetro D (m2), definido por 4
2D
A×
=π
;
v: velocidade do fluído no tubo (m/s ou m/h) Nesses dois exemplos de comportamento determinísticos, caso sejam fornecido duas variávis poder-se-á calcular a terceira incógnita. Assim, se tivermos deslocamento e tempo, determinamos a velocidade. Se tivermos a vazão e o diâmetro de um tubo poder-se-á determinar qual é a velocidade de fluxo. Já em fenõmenos aleatórios ou não-determinísticos não se pode encontrar essa relação. Exemplos de variáveis aleatórias:
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
20
a. número de alunos que não compareceram a aula de estatística num determinado dia; b. altura de um adulto do sexo masculino selecionado aleatoriamente. c. processo de chegada de caminhões em um terminal portuário (apesar dos sistemas de transportes apresentarem a possibilidade de itens deterministicos, tais como velocidade média operacional, distância e a possibilidade de estimativa de tempos e, conseqüentemente, ter a freqüência de viagens, esses processos estão sujeitos e eventos aleatórios e não programados, tais como, problemas mecâncios de veículos devido a condições de infra-estrutura viária, congestionamentos, acidentes ou intempéries. As variáveis aleatórias podem ser classificadas como: Variável aleatória discreta: é aquela que assume valores inteiros e finitos (Ex.: 0, 1, 2, 3, ...). Variável aleatória contínua: é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida numa escala contínua (1.23, 4.56, 7,3333). Probabilidade: medida numérica da plausividade de que um evento ocorrerá. As probabilidades medem o grau de incerteza associada aos eventos. Se as probabilidades estiverem disponíveis, poder-se-á determinar a plausividade de ocorrência de cada evento. Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades.
A Distribuição de Probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6. Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:
1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1
∑∑∑∑P(x) = 1, onde x toma todos os valores possíveis
2. A probabilidade de ocorrência de um evento deve ser maior do que zero e
menor do que 1
0 ≤≤≤≤P (x) ≤≤≤≤ 1 para todo x
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
21
No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.
A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na anteriormente, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas. O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1.
Tabela 3. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.
Média µ=∑x P(x) Variância σ2=∑[(x-µ)2 P(x)] Variância σ2=[∑x2 P(x)] - µ2
Desvio-Padrão σ=([∑x2 P(x)] - µ2)1/2
Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor médio que esperaríamos ter se pudéssemos repetir as provas indefinitivamente. Não obtemos o valor que esperamos ocorrer com maior freqüência. Já o desvio-padrão nos dá uma medida de quanto a distribuição de probabilidades se dispersa em torna da média. Um grande desvio-padrão reflete dispersão considerável, enquanto que um desvio-padrão menor traduz menor variabilidade, com valores relativamente mais próximos da média. Estas fórmulas podem ser utilizadas para qualquer distribuição de probabilidades, entretanto, veremos mais adiante que elas podem ser simplificadas dependendo do tipo de distribuição. A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão. O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados:
E = ∑x P(x) (1) Observamos que E=µ. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
22
Exemplo: Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades.
Tabela 4. Cálculo da média, variância e desvio-padrão para uma distribuição de probabilidades.
X P(x) x P(x) x2
x2
P(x)
0 0,210 0,000 0 0,000 1 0,367 0,367 1 0,367 2 0,275 0,550 4 1,100 3 0,115 0,345 9 1,035 4 0,029 0,116 16 0,464 5 0,004 0,020 25 0,100 6 0 0,000 36 0,000 7 0 0,000 49 0,000
Total 1,000 1,398 - 3,066
µ=∑x P(x) = 1,398 = 1,4
σ2=[∑x2 P(x)] - µ2 = 3,066-1,3982 =1,111596 = 1,1
σ=(1,111596)1/2 = 1,054323 = 1,1
Figura 6. Histograma de probabilidades. As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
23
utilizadas para a idealização dos dados reais são referidas como distribuições teóricas. As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil: Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma. Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência. Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados. Distribuição Normal: A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central. Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição amostral das médias amostrais tende para uma distribuição normal. Esta explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre a mesma. Teorema do Limite Central: A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal,
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
24
desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações. Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística. Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original. Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja µ e o desvio-padrão seja σ. Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média µ e desvio-
padrão n/σ . A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise. Parâmetros da Distribuição Normal: A distribuição normal é uma distribuição de dois parâmetros µ (média) e σ (desvio-padrão) . A densidade de probabilidade desta distribuição tem a seguinte forma:
( )( )
2
2
2
X
e2
1Xf σ
µ−−
πσ=
onde µ e σ são a média e o desvio-padrão da população, respectivamente. µ é estimado por x e σ por s, que são obtidos através das relações: Uma notação bastante empregada para designar que uma variável tem distribuição normal com média x e variância s2 (s é a representação de σ e x de
µ de uma amostra) é ( )2s,XN . Se uma amostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula.
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
25
0.000000
0.000100
0.000200
0.000300
0.000400
0.000500
0.000600
0 1000 2000 3000 4000 5000 6000 7000
Densidade Normal da Probabilidade
O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada. A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(x ,s2) é estimada por:
( )( )
dXe2
1XF
X
2
X2
2
∫∞−
σ
µ−−
πσ=
Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos
de integração aproximada. Por essa razão usa-se a transformação
( )s
XXZ
−=
e com isso a variável Z tem N(0,1). A variável Z é chamada variável reduzida e a curva
( ) dZe2
1ZF
Z
2
Z2
∫∞−
−
π=
é a curva normal reduzida. F(Z) na forma da equação é tabulada e criada as tabelas de probabilidades da curva normal.
Figura 7 Gráfico da dansidade normal da provabilidade de uma variável aleatória quantitativa
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
26
Existem outras curvas de distribuição de probabilidade que somente serão citadas a seguir:
� Distribuição beta
� Distribuição chi
� Distribuição gama
� Distribuição uniforme
� Distribuição log-normal
� Distribuição de Pareto
� Distribuição de Weibull