Preview only show first 10 pages with watermark. For full document please download

Estatística - Cap-01

Estatística

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    687.1KB
  • Views

    3,636
  • Categories


Share

Transcript

Universidade Federal do Pará Instituto de Tecnologia Estatística Aplicada I Universidade Federal do Pará Instituto de Tecnologia Capítulo I Estatística Descritiva Prof. Dr. Jorge Teófilo de Barros Lopes Campus de Tucuruí – CTUC Curso de Engenharia Mecânica Campus de Tucuruí – CTUC Curso de Engenharia Mecânica ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva  Introdução  Introdução  Conceitos e definições  Conceitos e definições  Classificação dos dados  Classificação dos dados  Caracterização e apresentação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Estatísticas amostrais  Outras apresentações gráficas de dados  Outras apresentações gráficas de dados  Regressão linear  Regressão linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução  ESTATÍSTICA: É a disciplina que objetiva estudar os métodos científicos para a coleta, organização, resumo, apresentação e análise de dados, bem como obter conclusões válidas e tomar decisões razoáveis baseadas em tais análises.  Técnicas Estatísticas: São as várias técnicas por meio das quais é possível estudar conjuntos de dados e, a partir de uma amostra (se necessária), tirar conclusões válidas para conjuntos maiores (população). ESTATÍSTICA APLICADA I - Estatística Descritiva  De uma maneira geral, as técnicas estatísticas são utilizadas em três etapas principais do trabalho de pesquisa: 1. A coleta de dados, incluindo o planejamento do trabalho e da pesquisa; 2. A apresentação dos dados coletados; e 3. A análise dos dados coletados, com a formulação de conclusões e generalizações. ESTATÍSTICA APLICADA I - Estatística Descritiva 1 1.1 Introdução 1.1 Introdução Coleta de dados Apresentação dos dados coletados - Essa primeira etapa corresponde ao estabelecimento do método de coleta de dados (questionário ou teste ou ensaio de material) e elaboração dos questionamentos; determinação das variáveis que serão estudadas, de acordo com o interesse do pesquisador; e o cálculo do tamanho da amostra, de acordo com a natureza da pesquisa, do tempo e do orçamento disponíveis. - A segunda etapa requer técnicas específicas para a transformação dos dados numéricos em tabelas ou gráficos (é a partir da organização dos dados coletados que se poderá elaborar a interpretação). Análise dos dados coletados - Essa etapa é simultânea à anterior, pois durante a própria organização dos dados já é possível ir percebendo a tendência geral da pesquisa. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução • No sentido de melhor esclarecer o significado da análise e interpretação dos dados, deve-se estabelecer uma distinção entre Estatística Descritiva  Estatística Descritiva: Objetiva sintetizar e representar de uma forma compreensível a informação contida num conjunto de dados. • Como o próprio nome sugere, constitui-se num conjunto de técnicas que objetivam descrever, analisar e interpretar os dados numéricos de uma população ou amostra. • Adquire importância quando o volume de dados for significativo. e Inferência Estatística. • Materializa-se na construção de tabelas e/ou gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução ESTATÍSTICA APLICADA I - Estatística Descritiva 1.1 Introdução  Inferência Estatística: Baseada na análise de um conjunto limitado de dados (uma amostra), objetiva caracterizar o todo a partir do qual tais dados foram obtidos (a população). • Objetivo mais ambicioso que o da estatística descritiva. • Os métodos e técnicas utilizados são mais sofisticados. Figura 1.1- Diferença entre Estatística Descritiva e Inferência Estatística (Silva e Carvalho, 2006). ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 2 1.1 Introdução I - Estatística Descritiva Figura 1.2- Diferença entre Estatística Descritiva e Inferência Estatística (Silva e Carvalho, 2006).  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.2 Conceitos e Definições  População: É o conjunto de todos os elementos que contêm uma certa característica que se deseja estudar. • Como é comum a todos os elementos, esta característica varia em quantidade ou qualidade. • Uma população pode ter dimensão finita ou infinita.  Amostra: É um subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas por meio de processos (técnicas de amostragem) que garantem que o subconjunto obtido é representativo da população. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.2 Conceitos e Definições  Fases do método de análise estatística: • No âmbito da Estatística, o método de abordagem dos problemas pode ser dividido em cinco fases: 1. Estabelecimento do objetivo da análise a efetuar (questões a serem resolvidas) e definição das populações correspondentes; 2. Concepção de um procedimento adequado para a seleção de uma ou mais amostras (escolha das técnicas de amostragem a utilizar). 3. Coleta de dados. 4. Análise dos dados (Estatística Descritiva). 5. Estabelecimento de inferências a respeito da população (Inferência Estatística) ESTATÍSTICA APLICADA I - Estatística Descritiva 1.2 Conceitos e Definições  Principais motivos para o estudo da amostra: 1. População infinita; 2. Custo em termos de tempo ou de dinheiro que um estudo em toda a população implicaria; 3. Obtenção de informação por meio de testes destrutivos, no âmbito industrial; 4. Impossibilidade de acesso a todos os elementos da população. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.2 Conceitos e Definições  Fases do método de análise estatística: Identificação do problema → Objetivo da análise Planejamento da experiência → Técnicas de Amostragem Coleta de dados Análise exploratória dos dados → Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva Análise e interpretação dos resultados → Inferência Estatística ESTATÍSTICA APLICADA I - Estatística Descritiva 3 I - Estatística Descritiva 1.3 Classificação dos Dados  Iniciando o estudo:  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear • Não existe uma estratégia única para iniciar o estudo descritivo, embora uma primeira recomendação seja começar por uma exploração visual dos dados levantados. • Isso é necessário, pois podem ocorrer registros que não se encaixam no padrão geral observado e, dessa forma, a sua veracidade deve ser averiguada, pois podem tratarse de erros de observação, bem como do próprio registro ou provenientes de alterações do fenômeno em estudo. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados  Iniciando o estudo: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados  Iniciando o estudo: • Para se ter uma idéia mais concreta sobre os dados levantados, deve-se recorrer às tabelas e/ou gráficos que podem representar, de maneira sintética, as informações sobre o comportamento de variáveis numéricas levantadas. • Embora estas análises já se encontrem disponíveis em vários softwares e calculadoras programáveis, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados  Dados brutos: Como primeiro resultado de uma pesquisa, obtêm- se dados brutos, ou seja, um conjunto de números ainda sem organização alguma.  Rol: Os dados brutos são então ordenados de forma crescente ou decrescente, com a indicação da freqüência de cada um, dando origem ao chamado rol.  Tabulação dos dados: Depois de elaborar o rol é preciso determinar quantas faixas terá a tabela de freqüência. A fórmula de Sturges é utilizada para estabelecer o número aproximado de classes k ≅ 1 + 3 ,22 ⋅ log n onde: n = número de elementos da amostra (tamanho da amostra) k = número de classes que a tabela de classes deverá contar. ESTATÍSTICA APLICADA I - Estatística Descritiva • Portanto, para se proceder um estudo descritivo, é importante: - Ordenação dos dados – fase onde se começa a ter uma idéia a respeito de algumas medidas de posição (média, mediana, quartis etc.); - Estatísticas amostrais – a partir de algumas medidas promove-se um resumo dos dados levantados, relativamente à posição, dispersão e forma; - Agrupamento dos dados e representação gráfica – revela a forma possível para a população em estudo e permite escolher a classe de modelos que deve ser explorada nas análises mais sofisticadas. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados • Observações: - k deverá ser no mínimo 3 e no máximo 20; - Como a variável k é um número inteiro, ela deverá ser aproximada para o maior inteiro (por exemplo, se k ≈ 6,4, usa-se k = 7).  Freqüência de classes: O passo seguinte é subdividir os dados pelas classes ou categorias e determinar o número de indivíduos pertencentes a cada uma, resultando nas freqüências de classes.  Apresentação final dos dados (tabela completa): Com base em todos os cálculos feitos anteriormente, pode-se fazer uma nova tabela com todas as freqüências, as quais serão estudadas a posteriori.  Gráficos: A partir da tabela de freqüências, faz-se o desenho gráfico, um recurso de visualização dos dados constantes na tabela. ESTATÍSTICA APLICADA I - Estatística Descritiva 4 1.3 Classificação dos Dados  Os dados que constituem uma amostra podem ser de quatro tipos, assim distribuídos: 1.3 Classificação dos Dados a) Dados nominais: Quando cada um deles for identificado pela atribuição de um nome que designa uma classe. Neste caso, as classes devem ser: • Qualitativos - Nominal - Ordinal a) Exaustivas - qualquer dado pertence a uma das classes; b) Mutuamente exclusivas - cada dado pertence somente a uma classe; c) Não ordenáveis - não existe nenhum critério relevante que permita estabelecer preferência por qualquer classe em relação às restantes. • Quantitativos - Intervalar - Absoluto ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados b) Dados ordinais: São semelhantes aos dados nominais; contudo, nessa escala existe a possibilidade de se estabelecer uma ordenação dos dados nas classes, segundo algum critério relevante. - Exemplo: Classificação de conceitos de avaliação na disciplina em insuficiente, regular, bom e excelente. Exemplo: Classificação das pessoas pela cor do cabelo (preto, castanho, louro etc.). ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados c) Dados intervalares: No caso da escala intervalar, os dados são diferenciados e ordenados por números expressos em uma ordem cuja origem é arbitrária. - Observação: Neste caso, pode-se atribuir um significado à diferença entre esses números, mas não à razão entre eles. Por exemplo, o registro de temperaturas em ºC, em determinadas horas de dias sucessivos. Se em três dias consecutivos a temperatura atingir 5ºC, 10°C e 20ºC, não faz sentido dizer que o terceiro dia esteve duas vezes mais quente que o segundo, pois se a temperatura fosse expressa em outra escala, a razão entre os valores registrados naqueles dias seria diferente. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados d) Dados absolutos: Contrariamente ao que sucede com a escala intervalar, a escala absoluta tem origem fixa (nesta escala, o valor zero tem significado). - Exemplo: Pesos de pessoas expressos em kg. - Observações: • Escala intervalar: temperatura de 0ºC não significa que não haja temperatura. • Escala absoluta: peso de 0 kg significa que não existe peso. • Em conseqüência ao fato da origem ser fixa, a razão entre os dados expressos numa escala absoluta passa a ter significado; uma pessoa com 60 kg tem o dobro do peso de uma com 30 kg. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados - Observação: Quando se trabalha com dados quantitativos, é necessário que se faça a distinção entre os dados discretos e os contínuos. Os dados denominam-se discretos quando são valores de uma variável aleatória discreta, que é a aquela que assume valores em pontos da reta real (por exemplo, número de páginas em um livro: 1, 2, 3, 4, 5...). Os dados são contínuos quando são valores de uma variável aleatória contínua, que é aquela que pode assumir qualquer valor em certo intervalo da reta real (por exemplo, o peso de funcionários de uma fábrica: 60,5 kg; 60,52 kg; ...) ESTATÍSTICA APLICADA I - Estatística Descritiva 5 1.3 Classificação dos Dados 1.3 Classificação dos Dados  Arredondamento de dados: O arredondamento de um dado estatístico deve obedecer as seguintes regras. 1. Arredondamento por falta: Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito remanescente (ou seja, frações de 0,000... a 0,4999... são simplesmente eliminadas, arredondadas para baixo). Exemplos: 3, 49 ≈ 3; 2,43 ≈ 2,4; 1,734999 ≈ 1,73 Número a arredondar Arredondamento para Número arredondado 12,489 Inteiros 12 12,733 Décimos 12,7 12,992 Centésimos 12,99 2. Arredondamento por excesso: Quando o primeiro dígito após aquele que será arredondado for maior ou igual a cinco seguido por dígitos maiores que zero, o digito remanescente será acrescido de uma unidade (ou seja, frações maiores de 0,500... até 0,999... são eliminadas, mas o algarismo a ser arredondado aumenta 1 unidade, arredondadas para cima). Exemplos: 3,688 ≈ 3,69; 5,6501 ≈ 5,7 Número a arredondar Arredondamento para 15,504 Inteiros 16 15,561 Décimos 15,6 15,578 Centésimos 15,58 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados Exemplos: 3,5 ≈ 4; 6,5 ≈ 6; 5,6500 ≈ 5,6; 5,700 ≈ 5,8; 9,475 ≈ 9,48; 3,325 ≈ 3,32 Número a arredondar Arredondamento para Número arredondado Inteiro Inteiro Décimos Centésimos ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados 3. Arredondamento de dígitos seguidos do cinco: Quando o dígito situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito remanescente, se for par, não se alterará, e se for impar será aumentado de uma unidade (ou seja, se a fração a ser eliminada é exatamente 0,50000..., então o algarismo a ser arredondado, só aumentará de 1 unidade caso torne-se um algarismo par). 215,500 216,500 216,750 216,705 - Observações: 1. Nunca se deve fazer arredondamentos sucessivos. Exemplo: 17,3452 → 17,3 (correto) 17,3452 → 17,35 → 17,4 (incorreto) 2. Se for necessário um novo arredondamento, recomenda-se o retorno aos dados originais. 216 216 216,8 216,70 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados  Algarismos significativos  Algarismos significativos: Os algarismos significativos de um número são os dígitos diferentes de zero, contados a partir da esquerda até o último dígito diferente de zero à direita, caso não haja vírgula decimal, ou até o último dígito (zero ou não) caso haja uma vírgula decimal. Exemplos: Algarismos Números Notação científica significativos 3200 1,55 8,3400 32050 0,032 0,03200 Número arredondado 3,2 x 103 1,55 x 100 8,3400 x 100 3,205 x 104 3,2 x 10-2 3,200 x 10-2 2 3 5 4 2 4 ESTATÍSTICA APLICADA I - Estatística Descritiva • Todos os dígitos diferentes de zero são significativos. Exemplos: 7,3; 32 e 210 possuem 2 algarismos significativos. • Os zeros entre dígitos diferentes de zero são significativos Exemplos: 303 e 1,03 possuem 3 algarismos significativos. • Se existir uma vírgula decimal, todos os zeros à direita da vírgula decimal são significativos Exemplos: 1,000 e 33,30 possuem 4 algarismos significativos. ESTATÍSTICA APLICADA I - Estatística Descritiva 6 1.3 Classificação dos Dados  Algarismos significativos: 1.3 Classificação dos Dados  Algarismos significativos: • Valores medidos ou calculados: o número de algarismos significativos de uma grandeza medida ou um valor calculado é uma indicação da incerteza, ou seja, quanto mais algarismos significativos, menor a incerteza no valor. Exemplo: O valor de uma grandeza medida com 3 algarismos significativos, indica que o valor do 3º algarismo tem uma incerteza menor ± 0,5ºC. Caso seja apresentada uma temperatura como 32ºC (2 significativos), está indicado que a temperatura está entre 31,5 e 32,5ºC. Caso ela seja apresentada como 32,5ºC (3 significativos), está indicado que a temperatura está entre 32,45 e 32,55ºC. • Números inteiros que são resultados experimentais, seguem as regras anteriores. Exemplo: a pressão em uma caldeira é 6 atm, possui 1 algarismo significativo. • Números inteiros que descrevem o número de objetos discretos possuem precisão mínima. Exemplo: 5 dias = 5,0000000... dias. • Números inteiros que são parte de uma expressão física possuem precisão infinita. Exemplo: o 2 na equação do perímetro do círculo 2πR, possui uma precisão infinita uma vez que por definição o diâmetro é 2 vezes o raio. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados - Observações: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.3 Classificação dos Dados - Observações: • Na adição e na subtração faz-se a operação normalmente e no final reduz-se o resultado, usando os critérios de arredondamento, para o número de casas decimais da grandeza menos precisa. Exemplos: 12441 + 57,91 + 1,987 + 0,0031 + 119,20 = 12620,1001 = 12620 12441,2 − 7856,32 = 4584,88 = 4584,9 • Nas operações de potenciação e radiciação o resultado deverá ter o mesmo número de algarismos significativos da base (potenciação) ou do radicando (radiciação). Exemplos: (1,52 x 103)2 = 2,31 x 106 (0,75 x 104)1/2 = 0,87 x 102 • Na multiplicação e na divisão o resultado deverá ter igual número de algarismos (ou um algarismo a mais) que a grandeza com menor quantidade de algarismos significativos que participa da operação. Exemplos: 12,46 x 39,83 = 496,2818 = 496,28 803,407 / 13,1 = 61,328 = 61,33 ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Tabela de freqüências:  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear • Devido à necessidade das categorias estarem ordenadas, somente se pode falar de freqüências acumuladas quando os dados estão em escalas ordinais, intervalar ou absoluta. • A representação tabular com todos os tipos de freqüências é mostrada a seguir: ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 7 1.4 Caracterização e Apresentação dos Dados  Tabela de freqüências: 1.4 Caracterização e Apresentação dos Dados  Tabela de freqüências: a) Freqüência absoluta (ni): O número de dados contidos numa classe ou categoria qualquer i (i = 1,..., k) de um conjunto de dados designa-se por freqüência absoluta da classe ou categoria i. • Denotando-se por ni tal freqüência e admitindo que as categorias especificadas contêm todos os dados, o número total de dados (n) é calculado por : k n = ∑ ni 1= 1 b) Freqüência relativa (fi): O número total de dados que pertencem a uma classe ou categoria qualquer i, quando expressos como uma proporção do número total de dados, designa-se por freqüência relativa da classe ou categoria i e é dada por fi = • As freqüências relativas são muitas vezes definidas em termos percentuais. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Tabela de freqüências: ni n ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Tabela de freqüências: c) Freqüência absoluta acumulada (Ni): Representa para cada classe ou categoria i, a freqüência absoluta de dados que pertencem à classe ou às classes anteriores. d) Freqüência relativa acumulada (Fi): Representa para cada classe categoria i, a freqüência relativa de dados que pertencem à classe ou às classes anteriores. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos • Uma vez elaborada a tabela de freqüências, segue-se o desenho do gráfico, um recurso de visualização dos dados constantes na tabela. - Histograma: Este tipo de gráfico é utilizado para representar as freqüências absolutas (ni) em relação à sua classe, e é assim construído: • Os tipos de gráficos mais comuns são: histograma; polígono de freqüência, setograma e ogiva de Galton. 1. No eixo das abscissas marcam-se, em escala, as classes dos dados; 2. No eixo das ordenadas, marcam-se as freqüências das classes; 3. Faz-se a correspondência entre cada intervalo no eixo das classes com um valor no eixo das freqüências, formando um desenho de colunas paralelas. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 8 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos - Polígono de freqüência: Utilizado para indicar o ponto médio ou representante de classe em suas respectivas freqüências absolutas; normalmente, é construído sobre o histograma, da seguinte forma: 1. No eixo das abscissas, coloca-se o ponto médio de cada intervalo de classe; 2. No eixo das ordenadas, permanecem as freqüências absolutas das classes (ni) ; 3. Ligam-se os pontos médios por segmentos de reta; 4. Para completar o polígono, acrescenta-se um ponto médio com freqüência zero em cada uma das extremidades da escala horizontal. 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos - Histograma e Polígono de freqüência: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos - Gráfico em setores (Setograma): Também conhecido como gráfico de pizza, é utilizado para representar valores relativos (%); é construído da seguinte forma: - Histograma 1. Faz-se um círculo; 2. Cada setor é regido pela fórmula: - Polígono de freqüência: º Setori = 3. No círculo, distribui-se os valores das freqüências percentuais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos 360º ⋅ni n ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos - Ogiva de Galton: Este tipo de gráfico é utilizada para representar as freqüências acumuladas de uma distribuição; é construído da seguinte forma: - Ogiva de Galton: 1. No eixo das abscissas coloca-se as classes dos dados, tal como no histograma; 2. No eixo das ordenadas, escreve-se uma das freqüências acumuladas, marcando o ponto com os limites superiores (Li) de cada classe; inicia-se com a freqüência zero e com limite inferior da 1ª classe. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 9 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos - Gráfico linear: É o tipo - Gráfico de colunas: É de gráfico que apresenta os dados estatísticos por meio de uma linha poligonal. Os pontos da polígono são obtidos pelas informações contidas em cada linha da tabela, e marcados no plano utilizando o sistema cartesiano. São utilizados para representar séries cronológicas. o tipo de gráfico que apresenta os dados estatísticos por meio de retângulos (colunas) dispostas em posições vertical. Todos os retângulos possuem a mesma base e a altura proporcional aos dados. Podem ser utilizados para representar qualquer série estatística. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Gráficos estatísticos ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Qualitativos: - Gráfico de colunas: • Exemplo: Em uma amostra constituída de 120 peças, constatou- Este tipo de gráfico é semelhante ao de colunas, onde os retângulos (barras) estão dispostos horizontalmente. É utilizado para legendas longas, em todas as séries. se que 100 não tinham qualquer defeito, 15 tinham defeitos recuperáveis e 5 apresentavam defeitos irrecuperáveis. Representar em uma tabela, e também graficamente, as freqüências (absolutas e relativas) dos dados que constituem essa amostra: Categoria de peças Freqüência absoluta (ni) Freqüência relativa (fi) Sem defeitos Recuperáveis irrecuperáveis 100 15 5 83,3% 12,5% 4,2% TOTAL 120 100% ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Qualitativos: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: Gráfico em Setores 4,2% 12,5% Sem defeitos Recuperáveis irrecuperáveis • Exemplo: Em um estudo realizado com o objetivo de caracterizar o comportamento dos clientes de um supermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no estacionamento do referido supermercado, em um sábado. Os resultados encontram-se resumidos na tabela seguinte: 83,3% ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 10 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: Nº de ocupantes por veículo (xi) Freqüência absoluta (ni) Freqüência relativa (fi) 1 2 3 4 5 6 7 103 147 248 197 152 100 53 10,3% 14,7% 24,8% 19,7% 15,2% 10,0% 5,3% TOTAL 1000 100% 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: Freqüência Freqüência absoluta acumulada relativa acumulada (Ni) (Fi) 103 250 498 695 847 947 1000 Gráfico em colunas 300 10,3% 25,0% 49,8% 69,5% 84,7% 94,7% 100,0% 250 200 n i 150 100 50 0 1 2 3 4 5 6 7 Nº ocupantes / veículo ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: • Distribuições agrupadas: Essas distribuições são úteis quando existe um grande número de dados relativos a uma variável contínua, cujos valores observados são muito próximos uns dos outros. - A freqüência de cada classe é o número de observações que ela contém. - No exemplo anterior, os dados observados correspondem a uma variável discreta; para o caso de dados relativos uma variável contínua existem algumas diferenças. • Exemplo: O conjunto de dados baixo representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático: 302,25; 299,20; 300,24; 297,22; 298,35; 303,76; 298,65; 299,38; 300,36; 299,16; 300,86; 299,83; 302,52; 300,12; 301,81; 297,99; 299,23; 298,73; 303,07; 299,07; 297,83; ... ; 300,80 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados  Dados Quantitativos: • No conjunto de dados mostrado não existe praticamente repetição de valores; logo, não é vantagem se utilizar os dados agrupados numa tabela de freqüências, pois a mesma teria tantas linhas quanto o número de dados. • No entanto, a tabela de freqüências pode ser construída se os dados forem agrupados por classes: ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.4 Caracterização e Apresentação dos Dados Classes Freqüência absoluta (ni) Freqüência relativa (%) (fi) Freqüência absoluta acumulada (Ni) Freqüência relativa acumulada (%) (Fi) [297,00 ; 298,00[ [298,00 ; 299,00[ [299,00 ; 300,00[ [300,00 ; 301,00[ [301,00 ; 302,00[ [302,00 ; 303,00[ [303,00 ; 304,00[ [304,00 ; 305,00[ [305,00 ; 306,00[ 8 21 28 15 11 10 5 1 1 8 21 28 15 11 10 5 1 1 8 29 57 72 83 93 98 99 100 8 29 57 72 83 93 98 99 100 TOTAL 100 100% ESTATÍSTICA APLICADA I - Estatística Descritiva 11 1.4 Caracterização e Apresentação dos Dados I - Estatística Descritiva  Dados Quantitativos:  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear Histograma 30 25 20 f i 15 10 5 0 [297,00 ; 298,00[ [298,00 ; 299,00[ [299,00 ; 300,00[ [300.00 ; 301,00[ [301,00 ; 302,00[ [302,00 ; 303,00[ [303,00 ; 304,00[ [304,00 ; 305,00[ [305,00 ; 306,00[ Peso (kg) ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais  Nas seções anteriores foi visto a sintetização de dos dados sob a forma de tabelas, gráficos e distribuição de freqüências.  O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados, ou seja, possibilita representar um conjunto de dados relativos à observação de determinado fenômeno de forma reduzida.  As estatísticas amostrais são calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os referidos dados tomam. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais  As estatísticas amostrais ou medidas estatísticas são divididas em três grupos: a) Medidas de posição ou de tendência central: • Média aritmética, média geométrica, média harmônica, mediana, quartis, decis, percentis e moda. b) Medidas de dispersão: • Amplitude total, desvio médio, variância, desvio padrão, amplitude interquartílica e coeficiente de variação. c) Medidas de forma: • Medidas de assimetria e medidas de curtose. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: • Essas medidas nos orientam quanto à posição da distribuição no eixo x (eixo dos números reais); • Possibilitam comparações de séries de dados entre si pelo confronto desses números. • São chamadas de medidas de tendência central, pelo fato de representarem os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados. ESTATÍSTICA APLICADA I - Estatística Descritiva a.1) Média aritmética: • Para um conjunto de n dados de xi (i = 1,2,..., n) a média aritmética simples ou média amostral, representada por x é definida pela expressão: n ∑x x= i =1 i (dados não agrupados) n ESTATÍSTICA APLICADA I - Estatística Descritiva 12 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.1) Média aritmética: a.1) Média aritmética: • Exemplo: Determinar a média aritmética simples (média aritmética amostral) dos dados mostrados abaixo: 2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 4 n ∑x x= • Quando os dados estiverem agrupados numa distribuição de freqüência usa-se a média aritmética dos valores xi ponderadas pelas respectivas freqüências absolutas ni, assim: i i =1 ∴ n 2 + 1+ 3+ 3+ 2 + 3+7 + 5 + 5 + 2+ 1+ 3+ 1+ 1+ 4 x= ∴ 15 x = 2 ,87 n ∑n x i x= (dados agrupados) n ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais i i=1 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.1) Média aritmética: a.1) Média aritmética: • Exemplo (dados agrupados): Determinar a média aritmética simples (média aritmética amostral) da distribuição dada abaixo: • Exemplo (dados agrupados): n ∑ x i ni xi 1 2 3 4 5 7 ni 4 3 4 1 2 1 x= i =1 = n x = 2 ,87 ( 1 ⋅ 4 ) + ... + ( 7 ⋅ 1 ) 43 = 15 15 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição xi ni xini 1 2 3 4 5 7 4 3 4 1 2 1 4 6 12 4 10 7 Σ 15 43 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: a.1) Média aritmética: • No caso da variável ser contínua, visto que se perdeu os valores concretos do conjunto (ficaram afetos a uma determinada classe) não se pode calcular a média amostral diretamente dos valores dos dados. • Deste modo, à cada classe vai ser atribuído um representante (xi), e a média amostral será calculada por meio desses representantes: k ∑n x i x= i=1 i (dados agrupados em classes) n onde k é o número de classes do agrupamento, ni é a freqüência absoluta da classe i e xi é o ponto médio da classe i, o qual é considerado como elemento representativo da classe. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 13 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.1) Média aritmética: a.1) Média aritmética: • Exemplo (dados agrupados em classes): Determinar a média da distribuição a seguir, a qual representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático (exemplo anterior): • Exemplo (dados agrupados em classes): Classes ni xi xini [297,00 ; 298,00[ [298,00 ; 299,00[ [299,00 ; 300,00[ [300,00 ; 301,00[ [301,00 ; 302,00[ [302,00 ; 303,00[ [303,00 ; 304,00[ [304,00 ; 305,00[ [305,00 ; 306,00[ 8 21 28 15 11 10 5 1 1 297,5 298,5 299,5 300.5 301,5 302,5 303,5 304,5 305,5 2380,0 6268,5 8386,0 4507,5 3316,5 3025,0 1517,5 304,5 305,5 Σ 100 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais 9 ∑n x i x= i i=1 n 30011,0 x= 100 x = 300 ,11 30011,0 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.1) Média aritmética (Ponderada) a.1) Média aritmética (Ponderada) • Às vezes, associam-se os números x1, x2, ..., xk a certos fatores de ponderação ou pesos w1, w2, ... , wk que dependem do significado ou importância atribuída aos mesmos. Nesse caso • Exemplo: Em um curso, a avaliação final tem peso 3 e as parciais peso 1; a nota média de um estudante que obtenha nota 8,5 na avaliação final e 7,0 e 9,0 nas provas parciais, será: k ∑w x ∑w i x= 3 i i =1 i = w1 x 1 + w 2 x 2 + ... + w k x k w1 + w 2 + ... + w k é denominada de média aritmética ponderada. ∑w x i x= i =1 3 ∑w i = ( 1 ⋅ 7 ,0 ) + ( 1 ⋅ 9 ,0 ) + ( 3 ⋅ 8 ,5 ) 41 ,5 = = 8 ,3 1+ 1+ 3 5 i i =1 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.2) Média geométrica: A média geométrica G (ou xG ) de um conjunto de n números x1, x2, ..., xn é a raiz de ordem n do produto desses números: G = n x1 ⋅ x 2 ⋅ ... x n - Exemplo: A média geométrica dos números 2, 4 e 8: 3 a.2) Média geométrica (dados agrupados): Se os elementos x1, x2, ..., xn ocorrem com as freqüências n1, n2,..., nk, sendo n1+n2+...+nk = n a freqüência total, a média geométrica G desses elementos será deduzida como: G = n x1 x1 ...x1 x 2 x 2 ...x 2 x k x k x k = n x1n1 ⋅ x 2n2 ... xknk n1 vezes n2 vezes nk vezes 3 G = 2 ⋅ 4 ⋅ 8 = 64 = 4 ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 14 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.3) Média harmônica: A média harmônica H (ou x H ) de um conjunto de n elementos x1, x2, ..., xn é a recíproca da média aritmética da recíproca dos elementos: H= 1 = 1 n 1 ∑ n j =1 x j a.4) Mediana: Para os dados colocados em ordem crescente, x ) é o valor que divide a amostra, mediana (md, Me ou ~ ou população, em duas partes iguais. Assim: n n 1 ∑x j =1 0% j 50% - Exemplo: A média harmônica dos números 2, 4 e 8: H= n n 1 ∑x j =1 = j 3 3 = = 3 ,43 1 1 1 7 + + 2 4 8 8 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.4) Mediana (variável discreta): a.4) Mediana (variável discreta): • Considerando que os dados que integram a amostra são colocados em ordem crescente, formando um vetor (x1, x2, ..., xn) - amostra ordenada -, a mediana amostral é definida como segue:  x~ = x n+ 1 n ímpar  2   x n + x n+ 2 ~ 2 x= 2  2 n par • Exemplo: Para as distribuições abaixo, determinar as respectivas medianas: 8, 5, 15,11, 4, 1, 7, 2, 9 8, 5, 15,11, 4, 1, 7, 2, 9, 3 Ordenando: Ordenando: 1, 2, 4, 5, 7, 8, 9, 11,15 1, 2, 3, 4, 5, 7, 8, 9, 11,15 Como n é ímpar, então: Como n é par, então: x~ = x n+ 1 = x5 = 7 x~ = 2 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais • Exemplo: Para a distribuição abaixo, determinar a mediana: ni Ni 1 3 5 2 1 4 9 11 Σ 11 2 2 2 = x5 + x6 5 + 7 = =6 2 2 ESTATÍSTICA APLICADA I - Estatística Descritiva a) Medidas de posição: a.4) Mediana (variável discreta, tabela de distribuição de freqüência): 1 2 3 4 x n + x n+ 2 1.5 Estatísticas Amostrais a) Medidas de posição: xi 100% x~ n = 11 (ímpar), logo ~ x será o elemento de ordem (n+1)/2, ou seja, (11+1)/2 = 6º elemento. contém o 6º elemento Da coluna da freqüência acumulada crescente, encontra-se o valor xi correspondente à classe que contém a ordem calculada, assim: ~ x = 3. ESTATÍSTICA APLICADA I - Estatística Descritiva a.4) Mediana (variável discreta, tabela de distribuição de freqüência): • Exemplo: Para a distribuição abaixo, determinar a mediana: n = 42, é par, logo ~ x será a média xi ni Ni entre os elemento de ordem n/2 e 82 85 87 89 90 9 12 11 6 4 Σ 42 9 21 32 38 42 21º 22º (n/2)+1, ou seja, 21º e 22º elementos. Como no exemplo anterior, identificam-se os elementos de ordem 21 e 22 pela Ni, ou seja, 85 e 87, assim: 85 + 87 x~ = = 86 2 ESTATÍSTICA APLICADA I - Estatística Descritiva 15 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.4) Mediana (variável discreta, tabela de distribuição de freqüência): • Exemplo: Para a distribuição abaixo, determinar a mediana: n = 42, é par, logo ~ x será a média xi ni Ni entre os elemento de ordem n/2 e 82 85 87 89 90 5 10 15 8 4 Σ 42 5 15 30 38 42 (n/2)+1, ou seja, 21º e 22º elementos. Como no exemplo anterior, identificam-se os elementos de ordem 21 e 22 pela Ni, ou seja, 87 e 87, assim: 21º e 22º 87 + 87 ~ x= = 87 2 a.4) Mediana (variável contínua, tabela de distribuição de freqüência): • Para variáveis contínuas, identifica-se a classe que contém a mediana (n/2), denominada classe Md (como a variável é contínua, não interessa se n é par ou ímpar); o valor aproximado para a mediana será calculado pela equação: n   − N Md −1  a Md 0 ,5 − FMd − 1 2  x~ = l Md + a Md = l Md + n Md f Md onde: NMd-1 é a freqüência absoluta acumulada da classe antes da classe mediana, n a dimensão da amostra e lMd , aMd e nMd são, respectivamente, o limite inferior, a amplitude e a freqüência absoluta da classe mediana. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.4) Mediana (variável contínua, tabela de distribuição de freqüência): • Exemplo: Dada a distribuição amostral, calcular a mediana: a.4) Mediana (variável contínua, tabela de distribuição de freqüência): • Exemplo: Classes ni Ni 1º Passo: Calcula-se n/2; como n=58, então 58/2=29º. 35 45 55 65 75 85 5 12 18 14 6 3 5 17 35 49 55 58 2º Passo: Identifica-se a classe Md pela Ni (classe Md=3ª). 45 55 65 75 85 95 classe Md 3º Passo: Aplica-se a fórmula: Neste caso li = 55, n = 58, Ni-1 = 17, ai = 10, ni = 18; logo: n  58    − N i − 1  ai  − 17  10 2  = 55 +  2  = 61 ,67 x~ = l i +  ni 18 58 Σ ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.5) Quartis: a.5) Quartis: • Como já visto anteriormente, a mediana é a medida de posição que divide um conjunto de dados em duas partes iguais; • Os quartis dividem um conjunto de dados em quatro partes iguais, assim: 50% 25% Q1 75% Q2 Q3 ESTATÍSTICA APLICADA I - Estatística Descritiva 50% 25% Q1 75% Q2 Q3 Q1 = 1º quartil, deixa 25% dos elementos; Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos; Q3 = 3º quartil, deixa 75% dos elementos. ESTATÍSTICA APLICADA I - Estatística Descritiva 16 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.5) Quartis: a.5) Quartis: • A determinação de Qk (k = 1, 2 e 3) para variáveis discretas segue a fórmula:  n +1 Qk = k    4  • A determinação de Qk (k = 1, 2 e 3), para o caso de variáveis contínuas, segue os passos: - 1º Passo: Calcula-se a ordem kn/4; • Exemplo: Determine o 1º e o 3º quartis da série 185, 196, 207, 305, 574, 597, 612. E da série 185, 196, 207, 305, 574, 597 ? - 2º Passo: Identifica-se a classe Qk pela freqüência acumulada N; - Aplica-se a fórmula: 7 +1 7 + 1 Q1 = 1 Q = 3  = 2º elemento → 196  = 6º elemento → 597  4   4  6 + 1  6 + 1    = 5,25º elemento → 579 ,8 Q1 = 1  = 1,75º elemento → 193,3 Q = 3  4   4   kn  − N Qk −1   4  ⋅a Q k = l Qk +  Qk nQ k ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição a) Medidas de posição: a.5) Quartis: a.5) Quartis: • Exemplo: Dada a distribuição amostral, determinar Q1 e Q3: Classes ni Ni 35 45 55 65 75 85 5 12 18 14 6 3 5 17 35 49 55 58 45 55 65 75 85 95 Σ • Exemplo: Para Q1. 1º Passo: Calcula-se n/4; como n=58, então 58/4=14,5º. 2º Passo: Identifica-se a classe Q1 pela Ni (classe Q1 =2ª). classe Q1 classe Q3 58 3º Passo: Aplica-se a fórmula: Neste caso lQ1 = 45, n = 58, NQ1-1 = 5, aQ1 = 10, nQ1 = 12; logo:  1n  − N Q1 − 1   (14 ,5 − 5 )  4  Q1 = l Q1 + ⋅ a Q1 = 45 + ⋅ 10 = 52 ,92 nQ1 12 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: a.5) Quartis: • Exemplo: Para Q3. 1º Passo: Calcula-se 3n/4; como n = 58, então 58/4 = 43,5º. • Exemplo: Diante desses resultados, pode-se afirmar que, nesta distribuição, tem-se: 2º Passo: Identifica-se a classe Q3 pela NQ3 (classe Q3 = 4ª). 3º Passo: Aplica-se a fórmula: Neste caso lQ3 = 65, n = 58, NQ1-1 = 35, aQ1 = 10, nQ1 = 14; logo:  3n  − N Q3 − 1   4  ⋅ a = 65 + (43 ,5 − 35 ) ⋅ 10 = 71 ,07 Q 3 = l Q3 +  Q3 nQ 3 14 ESTATÍSTICA APLICADA I - Estatística Descritiva 25% 35 52,92 25% 61,67 25% 25% 71,07 95 ou seja: O valor de 52,92 deixa 25% dos elementos; O valor de 61,67 deixa 50% dos elementos; O valor de 71,07 deixa 75% dos elementos. ESTATÍSTICA APLICADA I - Estatística Descritiva 17 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.6) Decis: a.6) Decis: • Os decis dividem um conjunto de dados em dez partes iguais, assim: 10% 20% 30% 40% 50% 60% 70% 80% 90% D1 D2 D3 D4 D5 D6 D7 D8 D9 D1 = 1º decil, deixa 10% dos elementos da série; D2 = 2º decil, deixa 12% dos elementos da série; D5 = 5º decil, coincide com a mediana, deixa 50% dos elementos da série; D6 = 6º decil, deixa 60% dos elementos da série; D7 = 7º decil, deixa 70% dos elementos da série; D8 = 8º decil, deixa 80% dos elementos da série; D9 = 9º decil, deixa 90% dos elementos da série. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.6) Decis (variáveis discretas): a.6) Decis: • A determinação de Dk (k = 1, 2, ..., 9) para variáveis discretas segue a fórmula:  n +1 Dk = k    10  • A determinação de Dk (k = 1, 2, ..., 9), para o caso de variáveis contínuas, segue os passos: - 1º Passo: Calcula-se a ordem kn/10; • Exemplo: Determine o 5º e o 6º decis da série 185, 196, 207, 305, 574, 597, 612. - 2º Passo: Identifica-se a classe Dk pela freqüência acumulada N; - Aplica-se a fórmula:  kn  − N Dk − 1   10  ⋅a D k = l Dk +  Dk n Dk 7 +1 D1 = 5  = 4º elemento → 305  10  7 +1 D6 = 6   = 4 ,8º elemento → 520 ,2  10  ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.7) Percentis: a.7) Percentis: • Os percentis dividem um conjunto de dados em cem partes iguais, assim: 1% P1 ESTATÍSTICA APLICADA I - Estatística Descritiva 2% 3% . . . 50% . . . 97% P2 P3 P50 98% 99% P97 P98 P99 P1 = 1º percentil, deixa 1% dos elementos; P2 = 2º percentil, deixa 2% dos elementos. P50 = 50º percentil, coincide com a mediana, deixa 50% dos elementos; P99 = 99º percentil, deixa 99% dos elementos. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 18 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.7) Percentis: a.7) Percentis: • A determinação de Pk (k = 1, 2, ..., 99), para o caso de variáveis contínuas, segue os passos: • A determinação de Pk (k = 1, 2, ..., 99), para variáveis discretas segue a fórmula:  n +1 Pk = k    100  - 1º Passo: Calcula-se a ordem kn/100; - 2º Passo: Identifica-se a classe Pk pela freqüência acumulada N; - Aplica-se a fórmula: • Exemplo: Determine o 50º e o 60º percentis da série 185, 196, 207, 305, 574, 597, 612.  kn  − N Pk − 1   100  ⋅a Pk = l Pk +  Pk n Pk 7 +1 P50 = 50  = 4º elemento → 305  100  7 + 1 D6 = 60  = 4 ,8º elemento → 520 ,2  100  ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.7) Exemplo (decil e percentil): Determinar o 4º decil e o 72º a.7) Exemplo (decil e percentil): Determinar o 4º decil e o 72º percentil da seguinte distribuição: Classes ni Ni 35 45 55 65 75 85 5 12 18 14 6 3 5 17 35 49 55 58 45 55 65 75 85 95 Σ percentil da seguinte distribuição: Cálculo de D4 1º Passo: classe D4 2º Passo: kn 4 ⋅ 58 = 23 ,2 o = 10 10 l D4 = 55 ; N D4 − 1 = 17 ; n = 58 ; a D4 = 10 ; nD4 = 18 classe P72 3º Passo: 58  4 ⋅ 58  − 17   10  ⋅ 10 = 55 ,34 D4 = 55 +  18 Classes ni Ni 35 45 55 65 75 85 5 12 18 14 6 3 5 17 35 49 55 58 45 55 65 75 85 95 Σ a) Medidas de posição: 1º Passo: classe D4 2º Passo: classe P72 kn 72 ⋅ 58 = 41 ,8 o = 100 100 l P72 = 65 ; N P72 − 1 = 35 ; n = 58 ; a P72 = 10 ; nP72 = 14 3º Passo: 58 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais Cálculo de P72  72 ⋅ 58  − 35   100  ⋅ 10 = 69 ,82 P72 = 65 +  14 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a.7) Exemplo (decil e percentil). • Portanto, na distribuição analisada, tem-se que: - O valor 55,34 indica que 40% dos elementos da distribuição estão abaixo dele e os outros 60% acima. - O valor 69,82 indica que 72% dos elementos da distribuição estão abaixo dele e os outros 28% acima. ESTATÍSTICA APLICADA I - Estatística Descritiva a.8) Moda • Moda (Mo) é a medida que indica o valor ou a gama de valores nos quais a concentração dos dados amostrais é máxima. - Para variáveis discretas, a moda é o valor dos dados que ocorre com maior freqüência; - Para variáveis contínuas, a classe modal é o intervalo de classe com maior freqüência. ESTATÍSTICA APLICADA I - Estatística Descritiva 19 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.8) Moda a.8) Moda • Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal. • Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação). ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.8) Moda (distribuições simples) a.8) Moda (dados agrupados) • Para distribuições simples (sem agrupamento em classes), a identificação da moda é facilitada pela simples observação do elemento que apresenta maior freqüência. • Para dados agrupados em classe, existem diversas fórmulas para o cálculo da moda: - Fórmula de Czuber: Após a identificação da classe modal, aplica-se a fórmula abaixo, onde - Exemplo: Para a distribuição abaixo Mo = 248. xi 243 ni 7 245 248 251 307 17 23 20 8 M o = li + ∆1 ∆1 + ∆ 2 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (dados agrupados) a.8) Moda (dados agrupados) - Exemplo: Determinar a moda para a distribuição: ni 35 45 55 65 75 85 5 12 18 14 6 3 45 55 65 75 85 95 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: Classes ⋅ ai l = limite inferior da classe modal; ∆1= diferença entre a freqüência absoluta da classe modal e a imediatamente anterior; ∆2 = diferença entre a freqüência absoluta da classe modal e a imediatamente posterior; ai = amplitude da classe modal. - A classe com maior frequência absoluta é [55, 65[; logo, ela é a classe modal. - Aplicando a fórmula de Czuber, tem-se: Mo = li + - Densidades de classes: Quando as amplitudes das classes são diferentes, deve-se calcular as densidades de classes para identificar a classe modal, as quais são obtidas por meio da relação ni/ai. ∆1 ⋅ ai ∆1 + ∆ 2 M o = 55 + 18 − 12 ⋅ 10 ( 18 − 12 ) + ( 18 − 14 ) M o = 61 ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 20 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição: a.8) Moda (dados agrupados) a.8) Moda (dados agrupados) - Exemplo: Determinar a moda para a distribuição: Salários (US$) 80 180 250 300 Mo = li + 180 250 300 500 ni ai ni/ai 70 140 140 60 100 70 50 200 0,7 2,0 2,8 0,3 - Fórmula de Pearson: Fornece uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. É dada pela relação: Mo ≅ 3~ x − 2x classe modal ∆1 2 ,8 − 2 ,0 ⋅ a i = 250 + ⋅ 50 = 262 ,12 ( 2 ,8 − 2 ,0 ) + ( 2 ,8 − 0 ,3 ) ∆1 + ∆ 2 ou seja, a moda é aproximadamente igual a diferença entre o triplo da mediana e o dobro da média ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição:  Observações:  Observações: 1. Média versus Mediana: 1. Média versus Mediana:  Diferença entre estas duas medidas fica mais clara quando se considera o exemplo das notas obtidas por um aluno como sendo: 10, 13, 11, 15, 18, 16, 14, 15, 14; nesse caso, como pode ser comprovado, a média aritmética e a mediana são iguais a 14.  A média, ao contrário da mediana, é uma medida de posição muito pouco resistente, isto é, ela é muito influenciada por valores muito grandes ou muito pequenos, mesmo que estes valores surjam em pequeno número na amostra.  Se esse aluno elevar a nota mais baixa, passando de 10 para 14, a mediana ainda será o mesmo valor, mas o valor da média sofrerá um aumento, passando para 14,4.  Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais a) Medidas de posição: a) Medidas de posição:  Observações:  Observações: 1. Média versus Mediana: 1. Média versus Mediana:  Entretanto, a preferência de uma ou de outra dependerá do contexto em que forem utilizadas: se a distribuição é simétrica essas medidas coincidem; caso contrário, observar que a mediana não é tão sensível quanto a média, às observações que são muito maiores ou muito menores do que as restantes; além disso, a média reflete o valor de todas as observações. ESTATÍSTICA APLICADA I - Estatística Descritiva  Representação das distribuições dos dados na forma de uma curva de freqüência: ESTATÍSTICA APLICADA I - Estatística Descritiva 21 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais a) Medidas de posição: b) Medidas de dispersão  Observações: 2. Relação entre as médias aritmética, geométrica e harmônica:  A média geométrica de um conjunto de números positivos é menor ou igual à sua média aritmética, mas é maior ou igual à sua média harmônica: H ≤G≤ x  O sinal de igualdade somente é válido quanto todos os números do conjunto de dados são idênticos. • São medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão, dos valores em torno da média. • Servem para medir a representatividade da média - Exemplo: Sejam as séries 20, 20, 20 e 15, 10, 20, 25, 30, como pode ser calculado, ambas possuem média aritmética igual a 20; entretanto, na primeira não existe dispersão, enquanto a segunda apresenta dispersão em torno da média 20; portanto, a média é muito mais representativa para a segunda série. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.1) Amplitude total (ou amplitude amostral): É definida como sendo a diferença entre o maior e o menor dos valores da série, ou seja: b.2) Desvio médio: O desvio médio de um conjunto de n números x1, x2 , ... , xn é definido por: n ∑d R = x máx − x min DM = i=1 n n ∑x i = i i =1 n −x = ∑ x− x n - Exemplo: Para a série 10, 12, 15, 24, 25, 30, 36 onde R = 36 – 10 = 26 - Observação: É uma medida de dispersão muito limitada, pois depende apenas dos valores externos, o que a torna instável, não sendo afetada pela dispersão dos valores internos. x = média aritmética dos números; x i − x = valor absoluto do desvio de cada número em relação à média aritmética. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.2) Desvio médio (dados agrupados): Se x1, x2 , ... , xn ocorrerem com as freqüências n1, n2, ... , nn, respectivamente, o desvio médio poderá ser indicado da seguinte forma: n ∑n DM = n i i=1 n ESTATÍSTICA APLICADA I - Estatística Descritiva ∑n di = i xi − x i =1 n = ∑n i x− x n ESTATÍSTICA APLICADA I - Estatística Descritiva b.3) Variância: A variância de um conjunto de dados é definida como o quadrado do desvio padrão, evitandose com isso que Σdi=0. - Quando é necessário distinguir entre o desvio padrão de uma população e o de uma amostra dela extraída, adota-se frequentemente o símbolo σ para o primeiro e s para o último. ESTATÍSTICA APLICADA I - Estatística Descritiva 22 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.3) Variância: b.3) Variância: - Para o caso da variância populacional são adotadas as seguintes fórmulas: - Para o caso da variância amostral são adotadas as seguintes fórmulas: n n ∑( x σ2 = i − X )2 i =1 = N ∑( x − X ) 2 (dados não agrupados) ∑( x s2 = ∑n ( x i σ2 = − x )2 ∑( x − x ) = n−1 N k i i=1 2 (dados não agrupados) n−1 k i −X) 2 i =1 = N ∑n ( x − X ) 2 (dados agrupados) i N ∑n ( x i s2 = X = média populacional; N = tamanho da população. i −x) 2 i=1 n−1 ∑n ( x − x ) =∑ i n−1 b) Medidas de dispersão b.3) Variância: • Fórmulas práticas para os cálculos das variâncias: s2 = ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão 1  ∑ ni x i2 − N  (∑ n x ) 1  ∑ ni x i2 − n−1  (∑ n x ) σ2 = (dados agrupados) x = média populacional; n = tamanho da população. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais 2 2 i i N 2 i n i    b.4) Desvio padrão: Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para se conseguir uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, toma-se a raiz quadrada da variância e obtém-se o desvio padrão. σ = σ2     s= s (desvio padrão populacional) 2 (desvio padrão amostral) ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.4) Desvio padrão: b.4) Desvio padrão: • O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. • Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: - o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados; - se s= 0, então não existe variabilidade, isto é, os dados são todos iguais. ESTATÍSTICA APLICADA I - Estatística Descritiva • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: xi 5 7 8 9 11 xi ni nixi ni 2 3 5 4 2 5 7 8 9 11 2 3 5 4 2 10 21 40 36 22 Σ 16 129 - Média aritmética: k ∑n x i x= i =1 n 5 ∑n x i i = i =1 16 i = 129 = 8 ,06 16 ESTATÍSTICA APLICADA I - Estatística Descritiva 23 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.4) Desvio padrão: b.4) Desvio padrão: • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: - Variância: - Desvio médio: DM = ∑n i x− x n = 19 ,24 = 1 ,2 16 xi ni nixi |xi-x| = |di| ni|di| 5 7 8 9 11 2 3 5 4 2 10 21 40 36 22 |5 – 8,06| = 3,06 |7 – 8,06| = 1,06 |8 – 8,06| = 0,06 |9 – 8,06| = 0,94 |11 – 8,06| = 2,94 6,12 3,18 0,30 3,76 5,88 Σ 16 129 19,24 ( - Desvio padrão: s = s 2 = 2 ,86 = 1,69 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão ) 2 nx  1  ∑ ni x i2 − ∑ i i  = n−1 n   1  ( 129 ) 2  s2 = 1 . 083 − = 2 ,86   16 − 1  16  s2 = xi ni nixi ni2xi 5 7 8 9 11 2 3 5 4 2 10 21 40 36 22 50 147 320 324 242 Σ 16 129 1.083 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão b.5) Amplitude interquartílica: • A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. • Por esse motivo, define-se uma outra medida, a amplitude interquartílica. b.5) Amplitude interquartílica: • Esta medida é, de certa forma, uma solução de compromisso, pois não é afetada, de um modo geral, pela existência de um pequeno número de valores demasiadamente grandes ou pequenos. É definida como sendo a diferença entre o 3º e 1º quartis; assim: DQ = Q3 − Q1 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão b.5) Amplitude interquartílica: • Da definição de amplitude interquartílica, pode-se concluir que 50% dos elementos do meio da amostra estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados. • Ao contrário do que acontece com o desvio padrão, uma amplitude interquartílica nula não significa necessariamente, que os dados não apresentem variabilidade. ESTATÍSTICA APLICADA I - Estatística Descritiva b.5) Amplitude interquartílica: • Alguns autores preferem calcular uma medida próxima da referida: a amplitude semiinterquartílica (ASI). ASI = Q3 − Q1 2 ESTATÍSTICA APLICADA I - Estatística Descritiva 24 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais b) Medidas de dispersão b) Medidas de dispersão b.6) Coeficiente de variação: b.6) Coeficiente de variação: • A variação ou dispersão real, determinada a partir do desvio padrão, ou qualquer outra medida de dispersão, é denominada dispersão absoluta; entretanto, uma variação ou dispersão, na medida de uma determinada distância, é inteiramente diferente quanto ao efeito, da mesma variação em uma distância menor. • A medida desse efeito é proporcionada pela dispersão relativa, definida por: Dispersão relativa = ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão b.6) Coeficiente de variação: b.6) Coeficiente de variação: • Se a dispersão absoluta é o desvio padrão e a média é a aritmética, a dispersão relativa é denominada coeficiente de variação ou de dispersão, dado por: σ X ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais b) Medidas de dispersão CV = Dispersão absoluta Média ⋅ 100 ou CV = s ⋅ 100 x • coeficiente de variação é uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. • Exemplo: Em uma empresa, o salário médio dos homens é de $4.000,00, com desvio padrão de $1.500,00, e o das mulheres é em média de $3.000,00, com desvio padrão de $1.200,00. Então: Para os homens: Para as mulheres: b) Medidas de dispersão X ⋅ 100 = • Desses valores conclui-se, portanto, que o salário das mulheres apresentam maior dispersão que os dos homens ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais σ 1500 ⋅ 100 = 37 ,5% 4000 1200 σ CV = ⋅ 100 = ⋅ 100 = 40 ,0% X 3000 CV = ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais c) Medidas de forma b.6) Coeficiente de variação: • Diz-se que a distribuição possui baixa, média ou alta variabilidade (dispersão) conforme os seguintes valores: Baixa dispersão: CV ≤ 10% Média dispersão: 10% < CV < 20% Alta dispersão: CV ≥ 20% c.1) Medidas de assimetria: • Denomina-se assimetria o grau de desvio ou afastamento da simetria de uma distribuição. • Uma distribuição de freqüência pode simétrica, assimétrica positiva ou assimétrica negativa. • Alguns analistas consideram valores diferentes: Baixa dispersão: CV ≤ 15% Média dispersão: 15% < CV < 30% Alta dispersão: CV ≥ 30% ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 25 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais c) Medidas de forma c) Medidas de forma c.1) Medidas de assimetria: c.1) Medidas de assimetria: • Uma distribuição simétrica apresenta a igualdade entre as três medidas de posição, média aritmética, mediana e modo, ou: M o = x~ = x • Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas duas são bastante utilizadas: - 1º Coeficiente de Pearson: • Em uma distribuição assimétrica positiva, ou assimétrica à direita, tem-se que: Mo < ~ x 0, a distribuição é assimétrica positiva AS < 0. a distribuição é assimétrica negativa. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais AS = ( 40 − 0 ) Q1 = 30 + ⋅ 20 = 40 80 Q 3 = 50 + ( 120 − 80 ) ⋅ 50 = 90 50 ( 80 − 0 ) ~ x = 30 + ⋅ 20 = 50 80 x − M o 66 ,85 − 41 ,429 AS = = = 0 ,796 s 31 ,96 Q + Q 3 − 2 x~ 40 + 90 − 2 AS = 1 = = 0 ,6 Q3 − Q1 90 − 40 • Denomina-se curtose o grau de achatamento de uma distribuição. • Uma distribuição de freqüência pode ser: - Mesocúrtica: quando sua forma nem é achatada e nem delgada; - Leptocúrtica: quando apresenta a forma delgada; - Platicúrdica: quando apresenta a forma achatada. - Como AS > 0, então a distribuição é assimétrica positiva. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 26 1.5 Estatísticas Amostrais 1.5 Estatísticas Amostrais c) Medidas de forma c) Medidas de forma c.2) Medidas de curtose: c.2) Medidas de curtose: • Para medir o o grau de curtose utiliza-se o coeficiente: K= Q 3 − Q1 2( P90 − P10 ) onde Q3 = 3º quartil; P90 = 90º percentil; Q1 = 1º quartil; P10 = 10º percentil. • Se K = 0,263 – a curva correspondente à distribuição é mesocúrtica; K > 0,263 – a curva é platicúrdica; K < 0,263 – a curva é leptocúrdica. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.5 Estatísticas Amostrais ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva c) Medidas de forma  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear c.2) Medidas de curtose: • Exemplo: Para a mesma distribuição do exemplo da assimetria, calcula-se ainda P10 e P90; logo: ( 16 − 0 ) P10 = 30 + ⋅ 20 = 34 80 ( 144 − 130 ) P90 = 100 + ⋅ 50 = 104 ,375 160 Q 3 − Q1 90 − 40 K= = = 0 ,355 2( P90 − P10 ) 2( 104 ,375 − 34 ) - Como K > 0,273, então a distribuição é do tipo platicúrtica. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados • • • Além dos diagramas já estudados, existem outras formas bastante utilizadas internacionalmente para apresentar os dados amostrais. Um bom modo de obter uma apresentação visual eficiente de um conjunto de dados pode ser conseguido por meio de três tipos de gráficos: diagramas de pontos, diagramas de ramo e folhas e diagramas de caixa. O diagrama de pontos é uma apresentação útil de dados, no caso de amostras pequenas (até cerca de 20 observações). Entretanto, quando o número de observações for moderadamente alto, o diagrama de ramo e folhas e o diagrama de caixa podem ser mais úteis. Questões como quantidades de dados abaixo de certo valor, tendência central (média ou mediana), dispersão (desvio-padrão), possibilidade de detectar outliers (pontos bastante diferentes do conjunto de dados) e o desvio da simetria, não são fáceis de responder, pois existem muitas observações, e a construção de um diagrama de pontos, usando esses dados, seria relativamente ineficiente . ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de pontos • Um diagrama de pontos é um gráfico estatístico que consiste em grupos de pontos de dados traçados em uma escala simples. • São utilizados para dados contínuos, quantitativos e univariados, e são muito úteis para exibir um pequeno conjunto de dados. • Esse tipo de gráfico permite uma fácil visualização de duas características dos dados: a posição (meio) e a dispersão (espalhamento ou variabilidade) ESTATÍSTICA APLICADA I - Estatística Descritiva 27 1.6 Outras Apresentações Gráficas de Dados  Diagrama de pontos 1.6 Outras Apresentações Gráficas de Dados  Diagrama de pontos • Exemplo 01 (Montgomery, 2004, p.2-3): Um engenheiro está projetando um conector de náilon para ser usado em aplicação automotiva. Ele considera estabelecer como especificação do projeto uma espessura de 3/32 pol., mas está inseguro. Oito unidades do protótipo são produzidas e suas forças de remoção são medidas, resultando nos seguintes dados (em libras): 12,6; 12,9; 13,4; 12,3; 13,6; 13,5; 12,6 e 13,1. Construa um diagrama de pontos para esses dados. 12 13 14 Força de remoção • Exemplo 02: O engenheiro do exemplo anterior decide considerar um projeto alternativo com uma espessura maior da parede do conector, 1/8 pol. Oito protótipos desse projeto são construídos, sendo as medidas observadas da força de remoção, resultando nos seguintes dados (em libras): 12,9; 13,7; 12,8; 13,9; 14,2; 13,2; 13,5 e 13,1. Construa um diagrama de pontos para esses dados, sobrepondo-o ao anterior para uma melhor análise da influência da espessura da parede na força de remoção. 15 12 14 13,0 13,4 Força de remoção 3/32 pol. 1/8 pol. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas • Esta forma de apresentação de dados tem sido freqüentemente utilizada em trabalhos técnicos do mundo inteiro. • Para construir o diagrama de ramo e folhas, dividimos o elemento amostral em duas partes: um ramo (stem), consistindo em um ou mais dígitos iniciais, e uma folha (leaf), consistindo nos dígitos restantes. Exemplo: O dado 458 é dividido em duas partes, a primeira parte 45, e a segunda parte 8. • Geralmente, escolhe-se relativamente poucos ramos em comparação ao número de observações (5 a 20 itens). • Exemplo (Montgomery, 2004, p.16): Considere o conjunto de dados abaixo, relativos à resistência a compressão de uma liga de alumínio. 105 245 207 218 160 221 228 180 157 175 183 174 190 101 149 186 199 193 171 87 121 181 194 165 160 181 180 158 176 133 156 172 158 237 150 143 110 123 169 135 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas (dados brutos) 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Folha 6 7 7 5 5 1 4 2 4 3 8 0 9 7 8 1 7 5 1 8 0 1 9 7 0 5 3 6 1 0 3 3 5 1 7 4 6 0 0 8 9 5 8 3 3 4 1 9 8 3 3 4 0 1 4 3 5 1 0 5 6 1 4 6 8 0 2 0 9 8 6 8 0 8 8 7 9 1 0 6 154 131 178 151 201 153 174 154 115 76 167 142 163 200 176 120 160 184 145 150 168 208 135 171 170 167 158 229 148 118 141 133 146 158 149 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas (dados ordenados) Frequência Ramo 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 ESTATÍSTICA APLICADA I - Estatística Descritiva 97 163 134 199 196 O diagrama de ramo e folhas resultante é apresentado a seguir: ESTATÍSTICA APLICADA I - Estatística Descritiva Ramo 15 Folha 6 7 7 1 0 0 1 1 0 0 0 0 0 0 8 1 7 5 5 5 1 3 2 0 0 1 0 3 1 8 3 3 3 1 0 1 1 4 7 8 9 4 5 3 3 2 1 6 8 5 6 4 3 4 3 9 5 8 4 5 4 4 9 9 6 7 5 6 9 7 8 8 8 8 7 8 9 6 6 8 Frequência 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1 ESTATÍSTICA APLICADA I - Estatística Descritiva 28 1.6 Outras Apresentações Gráficas de Dados 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas  Diagrama de ramo e folhas • Em alguns casos pode ser desejável construir mais intervalos ou ramos. Uma maneira de fazer isto seria dividir o ramo escolhido em dois ou mais novos ramos, conforme mostrado abaixo: Ramo 14L 14U 15L 15U Folha 1 6 0 6 2 8 0 7 3 9 1 8 Ramo 5 9 3 4 4 8 8 8 14z 14t 14f 14s 14e 15z 15t 15f 15s 15e Ramo 1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 2 1 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 N = 80 Min = 76 Max = 245 Média = 162,7 Mediana = 161,5 Q1 = 143,50 Q3 = 181,00 S2 = 33,77 Folha 1 2 3 5 0 1 4 6 8 Freqüência acumulada 0 3 4 7 8 8 8 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas 1567 1883 1203 1270 1015 845 1674 1016 1102 1605 706 2215 785 885 5 5 1 3 2 0 0 1 0 3 1 8 3 3 3 1 0 1 1 4 7 4 5 3 3 2 1 6 8 5 6 4 3 4 3 9 5 8 4 5 4 4 9 9 6 7 5 6 9 7 8 8 8 8 7 8 9 6 6 8 8 9 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de ramo e folhas • Exercício (Montgomery, 2004, p.17): Os seguintes dados são os números de ciclos até a falha, de corpos de prova de alumínio, sujeitos a uma tensão alternada repetida, de 21.000 psi e 18 ciclos por segundo: 1115 1310 1540 1502 1258 1315 1085 798 1020 865 2130 1421 1109 1481 Folha 6 7 7 1 0 0 1 1 0 0 0 0 0 0 8 1 7 5 1223 375 2265 1910 1018 1452 1890 2100 1594 2023 1315 1269 1260 1888 1782 1522 1792 1000 1820 1940 1120 910 1730 1102 1578 758 1416 1560 1055 1764 1330 1608 1535 1781 1750 1501 1238 990 1468 1512 1750 1642 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de caixa (box plot) • (a) Construa um diagrama de ramo e folhas para esses dados. (b) Você acha que o corpo de prova “sobreviverá” além de 2.000 ciclos? Justifique a sua resposta. (c) Encontre a mediana e os quartis. a) Profundidade Ramo 1 5 8 10 17 22 29 33 (5) 32 22 18 11 7 5 4 2 3 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Folha 75 06 45 10 00 02 03 10 16 01 05 30 20 10 23 00 15 58 65 90 15 02 23 15 21 02 08 50 83 40 85 98 85 16 09 38 15 52 12 42 50 88 18 15 58 30 68 22 74 64 90 20 55 85 20 60 69 70 81 35 40 60 67 78 94 81 82 92 b) Não. A probabilidade é muito pequena. c) M = 1436,5 Q1 = 1097,8 Q3 = 1735 30 65 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados  Diagrama de caixa (box plot) • Uma outra forma gráfica de apresentar os dados é o chamado diagrama de caixa (box plot) ou diagrama de caixa e linhas (box and whiskers), que permite descrever simultaneamente vários fatores importantes de uma série de dados, tais como a tendência central (média ou mediana), a dispersão (desvio-padrão), a possibilidade de detectar outliers (pontos bastante diferentes do conjunto de dados) e o desvio da simetria. • A caixa inclui a amplitude interquartil, com o canto esquerdo (ou inferior) no primeiro quartil, Q1, e o canto direito (ou superior) no terceiro quartil, Q3. Portanto, o comprimento da caixa é igual a amplitude interquartil , DQ = Q3 - Q1. • Um diagrama de caixa apresenta três quartis, em uma caixa retangular, alinhados tanto horizontal como verticalmente; opcionalmente, pode apresentar a média. • Uma linha (whisker) estende-se de cada extremidade da caixa. ESTATÍSTICA APLICADA I - Estatística Descritiva • Uma linha é desenhada através da caixa, no segundo quartil (que é o percentil 50 ou a mediana), Q2. A média, como já dito, é opcional. • A linha inferior (ou esquerda) começa no primeiro quartil indo até o menor valor do conjunto de pontos dentro das amplitudes interquartis de 1,5, a partir do primeiro quartil. ESTATÍSTICA APLICADA I - Estatística Descritiva 29 1.6 Outras Apresentações Gráficas de Dados 1.6 Outras Apresentações Gráficas de Dados  Diagrama de caixa (box plot)  Diagrama de caixa (box plot) • A linha superior (ou direita) começa no terceiro quartil indo até o maior do conjunto de pontos dentro das amplitudes interquartis de 1,5, a partir do terceiro quartil. • Dados mais afastados dos que as linhas são plotados como pontos individuais. Um ponto além da linha, porém a menos de 3 amplitudes interquartis a partir da extremidade da caixa, é chamado de dispersos (outliers). • Um ponto a mais de 3 amplitudes interquartis a partir da extremidade da caixa é chamado de um outlier extremo. Ocasionalmente, símbolos diferentes (círculos abertos e fechados, por exemplo) são usados para identificar os dois tipos de outlier. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.6 Outras Apresentações Gráficas de Dados ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva  Diagrama de caixa (box plot) • Exercício: Represente o diagrama de caixa para os dados da resistência à compressão do alumínio mostrados no exercício anterior. N = 80 Min = 76 Max = 245 Média = 162,7 Mediana = 161,5 Q1 = 143,50 Q3 = 181,00  Introdução  Conceitos e definições  Classificação dos dados  Caracterização e apresentação dos dados  Estatísticas amostrais  Outras apresentações gráficas de dados  Regressão linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Relação entre duas variáveis • Em inúmeras ocasiões o estudo descritivo não se resume ao estudo de apenas uma variável; para se ter uma visão global do problema em estudo, muitas vezes é necessário a observação de duas ou mais variáveis. • Nesse caso, em vez de uma amostra (x1, x2, ..., xn), passase a ter dados bivariados (xi, yi), i = 1, 2, ..., n. • Um dos objetivos desse estudo é a relação existente entre as variáveis do par. ESTATÍSTICA APLICADA I - Estatística Descritiva  Correlação linear • Para se ter uma idéia de como as duas variáveis se relacionam é comum representar graficamente esta relação por meio de um diagrama de dispersão. Esta representação consiste na marcação das observações em um sistema de eixos cartesianos. • Se as variáveis fornecem um diagrama de dispersão em que os pontos se colocam ao redor de uma reta crescente ou decrescente, diz-se que essas variáveis estão linearmente correlacionadas. ESTATÍSTICA APLICADA I - Estatística Descritiva 30 1.7 Regressão Linear 1.7 Regressão Linear  Correlação linear  Correlação linear • Quanto menor a dispersão dos pontos em torno da reta, mais forte será a correlação. y y y • A correlação linear será positiva ou negativa caso a tendência da reta seja crescente ou decrescente. • Se nenhuma tendência positiva ou negativa pode ser detectada, a explicação possível para os valores da segunda variável é sua média. Nesse caso, o eixo da dispersão será horizontal, contendo a média da segunda variável, e diz-se que as variáveis não são linearmente correlacionadas. x x Correlação linear forte Correlação linear fraca (positiva) (negativa) (positiva) ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Correlação linear  Correlação linear y y x Correlação linear forte • Exemplo: A tabela abaixo mostra os dados da temperatura do gás combustível (ºF) e da respectiva taxa de calor (Btu/kwh) para uma turbina de combustão, para ser usada em refrigeração, construa o diagrama de dispersão para esses dados. y y x Variáveis não correlacionadas x Variáveis não correlacionadas linearmente x Variáveis não correlacionadas linearmente x 100 125 150 175 200 225 250 275 y 99,1 98,8 98,5 98,5 98,5 98,2 98,0 97,8 x 300 325 350 375 400 425 450 500 y 97,8 97,8 97,6 97,5 97,3 97,0 96,8 96,7 • Desse diagrama pode-se extrair que talvez exista uma correlação linear entre as variáveis; esta relação pode ser traduzida por meio de uma reta. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Coeficiente de correlação linear • A determinação da correlação entre duas variáveis por meio de uma inspeção nos pares anotados ou no diagrama de dispersão correspondente é pouco precisa e subjetiva. • Essa dificuldade pode ser contornada pelo uso de uma medida que caracterize a correlação linear e seja independente do observador que esteja examinando os dados.  Coeficiente de correlação linear • Karl Pearson propôs o chamado coeficiente de correlação linear, o qual é dado pela relação: r= Cov ( x , y ) s x2 ⋅ s 2y onde: Cov (x,y) é a covariância das variáveis x e y, e seu cálculo é dado por Cov ( x , y ) = ∑ ( x − x )⋅ ( y − y ) n−1 e sx2 e sy2 são as variâncias da variáveis x e y. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 31 1.7 Regressão Linear 1.7 Regressão Linear  Coeficiente de correlação linear  Coeficiente de correlação linear • Fazendo-se as devidas substituições e simplificações, obtém-se o coeficiente de correlação de forma mais simples: s r= onde: xy • r = 0, indica que os pontos não estão correlacionados, nem apresentam tendência crescente ou decrescente. s xx ⋅ s yy (∑ y ) • r = 1, indica correlação linear positiva perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular positivo. 2 s yy = ∑ y 2 − −1≤ r ≤ 1 (∑ x ) 2 s xx = ∑ x 2 − s xy = ∑ xy − n • r = -1, indica correlação linear negativa perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular negativo. n ∑ x⋅∑ y n ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Coeficiente de correlação linear  Coeficiente de correlação linear • Nos casos em que os pontos do diagrama de dispersão estão em uma reta vertical ou horizontal, o quociente que calcula o coeficiente de correlação não está definido, pois apresenta numerador e denominador nulos. Nesse caso, o coeficiente de correlação será considerado nulo. y y x • A correlação entre duas variáveis pretende captar o fato dessas variáveis apresentarem a mesma tendência ao crescimento, ou tendências contrárias. • O fato de duas variáveis evoluírem no mesmo sentido ou em sentidos opostos fornece uma idéia do que se pode esperar sobre um valor desconhecido da variável y para um particular valor de x. x r = 0, Cov (x,y) = 0, sy2 = 0 r = 0, pois Cov (x,y) = 0, sx2 = 0 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Coeficiente de correlação linear  Coeficiente de correlação linear • Se as variáveis x e y são positivamente correlacionadas, e se procura estimar o valor de y1 para certo valor x1 menor que a média x, devese esperar o valor correspondente y1 menor que a média y ; para um valor x2 maior que a média x , deve-se esperar um valor y2 maior que a média y, acompanhando a tendência do eixo crescente dos pontos. y y2 y y1 x1 ESTATÍSTICA APLICADA I - Estatística Descritiva x x2 x ESTATÍSTICA APLICADA I - Estatística Descritiva • Os problemas que envolvem estimativas de valores desconhecidos a partir de valores históricos são chamados problemas de previsão ou predição. • O conhecimento da correlação entre duas variáveis, embora possa fornecer uma pista para a previsão de um valor desconhecido de uma delas, nada informa a respeito da qualidade dessa previsão, ou seja, não se pode, em geral, com base apenas no conhecimento da correlação, transformar a incerteza da previsão em risco (isto só pe possível quando a correlação é perfeita). • Entretanto, o fato de duas variáveis serem correlacionadas levanta a possibilidade de uma relação causal entre elas, o que é importante em problemas de previsão. ESTATÍSTICA APLICADA I - Estatística Descritiva 32 1.7 Regressão Linear 1.7 Regressão Linear  Regressão linear simples  Regressão linear simples – Modelo teórico • Como visto anteriormente, uma previsão construída baseada nas informações obtidas da correlação nada diz a respeito da confiabilidade do valor previsto. • Um método de previsão que permite a avaliação em termos de confiabilidade é a regressão linear, pois, satisfeitas determinadas condições, ela proporciona a transformação da incerteza em risco • Quando se verifica, quer por meio do gráfico de dispersão, quer pelo coeficiente de correlação linear, uma correlação forte entre duas variáveis, a relação entre essas variáveis pode ser descrita por meio de uma reta de regressão (a reta que melhor se ajusta aos dados). • Essa reta serve de modelo matemático para expressar a relação linear entre duas variáveis. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Regressão linear simples – Modelo teórico • Considere o relacionamento de duas variáveis x e y com as seguintes características: x: é a variável cujos valores são controlados e, portanto, determinados; ela é conhecida por variável independente ou variável de decisão; y: variável aleatória; é a variável que se quer prever; seu valor depende do valor atribuído a x, embora para cada valor de x se possa ter vários valores de y, devido a sua característica aleatória (variável dependente de x).  Regressão linear simples – Modelo teórico • O modelo teórico define a verdadeira reta de regressão, cuja equação pode ser escrita como: y =α +β x O valor de y é dado por: y = y+U ou y =α + β x+U onde: y é a parte funcional de y (a parte do valor de y explicada pelo valor de x); U é a parte aleatória de y, a qual é introduzida no valor de y por fatores imponderáveis. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Regressão linear simples – Modelo teórico • Nessas condições, dado um valor para x, a previsão ou expectativa para o correspondente valor de y é: y =α +β x • Entretanto, dificilmente se conhece a população dos valores de y para cada valor da variável controlada x. O que se conhece, geralmente, são alguns valores dos pares (x,y), ou seja, apenas uma amostra dessas variáveis.  Método dos mínimos quadrados • Um dos métodos mais utilizados para ajustar uma reta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), o qual consiste em determinar a reta que minimiza a soma dos quadrados dos desvios (os chamados erros ou resíduos) entre os verdadeiros valores de y e os valores estimados a partir da reta de regressão que se pretende ajustar, ŷ. ŷ^= a + bx • Portanto, com base nos dados amostrais, deve-se pensar como estimar os valores de α e β, o que pode ser ser feito de forma eficiente por meio do método dos mínimos quadrados. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 33 1.7 Regressão Linear 1.7 Regressão Linear  Método dos mínimos quadrados  Método dos mínimos quadrados • Adota-se o quadrado das diferenças, pois como os pontos se situam acima e abaixo da reta estimada, as diferenças podem ser positivas ou negativas, e na soma podem anular-se, não refletindo o ajustamento. • Sendo números positivos, esses quadrados refletem a qualidade do ajuste através de sua soma. • O modelo de regressão linear é a reta de regressão ŷi = a + bxi + εi onde ŷ é o estimador de y; a e b os estimadores de α e β. • A reta estimada é obtida de tal modo que a soma dos quadrados dos desvios ou resíduos (εi = yi – ŷ) seja mínima, ou seja, min ∑ ε i2 = min ∑ ( y i − ˆy i ) 2 = min ∑ [ y i − ( a + bx i )] 2 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Método dos mínimos quadrados  Coeficiente de explicação • Como tal, para estimar os parâmetros do modelo, é necessário que as primeiras derivadas em relação a a e a b sejam nulas, e as segundas sejam maiores ou iguais a zero, assim:  ∂ 2  ∂ a ∑ ( y i − a − bx i ) = 0    ∂ ∑ ( y i − a − bx i ) 2 = 0  ∂ b As estimativas dos mínimos quadrados para os parâmetros α e β são: a= ∑ y −b∑x = y−bx n ESTATÍSTICA APLICADA I - Estatística Descritiva , n b= ∑x⋅∑ y ∑ xy − n s = (∑ x ) s x − ∑ n 2 2 xy • Calculada a estimativa de mínimos quadrados para uma amostra dada, deve-se verificar a qualidade do ajuste dessa reta aos dados históricos. • Uma forma de medir a qualidade do ajuste é verificar qual a porcentagem da variação dos valores de y em relação à sua média pode ser explicada pela regressão de y sobre x, o que dará origem ao coeficiente de explicação R2. xx ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Coeficiente de explicação  Coeficiente de explicação • Do gráfico abaixo, onde ŷ = a + bx é a regressão de y sobre x, observa-se que o valor de yi correspondente a um valor xi pode ser composto de duas partes: a parte explicada pela média e a parte não explicada pela média. y yi ŷ y ŷ = a + bx } yi − ˆy = parte do valor de y não explicada pela média yˆ − y = parte do valor de y explicada pela regressão } } xi ESTATÍSTICA APLICADA I - Estatística Descritiva y = parte do valor de y explicada pela média x • Interessa avaliar que porcentagem da parte não explicada pela média, y i − y , pode ser explicada pela regressão de y sobre x, isto é, por yˆ − y . • No método dos mínimos quadrados, ao invés de somar essas diferenças, soma-se o quadrado delas para evitar que valores positivos e negativos se anulem. • Designando: VT = variação total, soma dos quadrados das variações de y em relação à sua média. 2 VT = ( y − y ) = ∑( i − ) VE = variação explicada, a soma dos quadrados das variações em 2 relação à média. VE = ∑ ( yˆ − y ) ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 34 1.7 Regressão Linear 1.7 Regressão Linear  Coeficiente de explicação  Método dos mínimos quadrados • O coeficiente de explicação pode ser definido agora como sendo a porcentagem da variação total representada pela variação explicada. R2 R2 = R2 = b ⋅ VE = VT ∑ x⋅∑ y ∑ xy − n (∑ y ) ∑y − n 2 ∑ ( yˆ − y ) ∑ ( y − y) • Exemplo: No exemplo anterior, observou-se no diagrama de dispersão uma possível relação linear entre as variáveis. 2 a) Confirme essa relação por meio do coeficiente de correlação; 2 i ou R2 = b ⋅ 2 s xy R2 = r 2 s yy b) Encontre a reta de regressão pelo método dos mínimos quadrados. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Método dos mínimos quadrados i x y x2 y2 xy 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500 99,1 98,8 98,5 98,5 98,5 98,2 98,0 97,8 97,8 97,8 97,6 97,5 97,3 97,0 96,8 96,7 10000 15625 22500 30625 40000 50625 62500 75625 90000 105625 122500 140625 160000 180625 202500 250000 9820,8 9761,4 9702,2 9702,2 9702,2 9643,2 9604,0 9564,8 9564,8 9564,8 9525,8 9506,2 9467,3 9409,0 9370,2 9350,9 9910,0 12350,0 14775,0 17237,5 19700,0 22095,0 24500,0 26895,0 29340,0 31785,0 34160,0 36562,5 38920,0 41225,0 43560,0 48350,0 Σ 4625 1565,9 1559375 153259,8 451365,0 ESTATÍSTICA APLICADA I - Estatística Descritiva  Método dos mínimos quadrados • Cálculos: r= s xy s xx ⋅ s yy • Cálculos: = ∑ x⋅∑ y ∑ xy − ∑ r= (∑ x ) n 2 ∑x 2 − n (∑ y ) 2 ⋅ ∑y 2 − n 4625 ⋅ 1565 ,9 451365 − 16 r= ( 4625 )2 ( 1565 ,9 )2 1559375 − ⋅ 153259 ,8 − 16 16 r = − 0 ,99 R 2 = ( − 0 ,99 )2 = 0 ,977 - O valor da correlação e do coeficiente de explicação indicam uma forte correlação linear entre a temperatura do gás combustível e a taxa de calor. Pode-se, portanto, estimar, através do MMQ os parâmetros a e b e traçar a reta de regressão: ∑ x ⋅ ∑ y 451365 − 4625 ⋅ 1565 ,9 ∑ xy − n 16 = = −0 ,0057 (4625) (∑ x ) 1559375 − ∑x − n 16 ∑ y − b ⋅ ∑ x = 1565 ,9 − ( −0 ,0057 ) ⋅ 4625 = 99 ,516 a= b= 2 2 2 n n 16 16 - Sendo assim a reta de regressão é: yˆ = a + bx = 99 ,516 − 0 ,0057 x ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Para que se evite erros de previsão, a condição inicial para um estudo de regressão linear entre duas variáveis é que essas variáveis apresentem uma razoável correlação linear. • Caso os valores de y para crescentes valores de x variem de modo aleatório, sem apresentar qualquer tendência, o valor que melhor explica y é, geralmente, a sua média; entretanto, em alguns casos, o diagrama de dispersão apresenta uma tendência não linear, isto é, uma curva bem definida, em torno da qual os pontos parecem agrupar-se. ESTATÍSTICA APLICADA I - Estatística Descritiva • Existe um grupo de funções que apresentam diagramas ajustáveis a muitas dessas tendências, e que possuem a qualidade de poder transformar-se em funções lineares com a aplicação de logaritmos ou por mudança de variável. • A forma linear dessas funções transformadas pode então ser usada para estimar os parâmetros da curva ajustada àquela tendência, conforme será estudado a seguir. ESTATÍSTICA APLICADA I - Estatística Descritiva 35 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis 1. Função potência:  Funções linearizáveis y = a.xb, com x ≥ 0 e b ≥ 0 1. Função potência: • Para este caso, a primeira e a segunda derivadas da função fornecem a forma da curva. y y y = a.xb, com x ≥ 0 e b ≥ 0 • Se x = 0, então y = 0. • Para x > 0, aplicando o logaritmo, tem-se: ln y = ln a + b.ln x • Fazendo Y = ln y, A = ln a e X = ln x, tem-se a forma linear: Y = A + b.x 01 x Crescente Concavidade para cima Contém a origem x Crescente Concavidade para baixo Contém a origem O diagrama de dispersão de (X = ln x, Y = ln y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis 2. Função exponencial: ESTATÍSTICA APLICADA I - Estatística Descritiva  Funções linearizáveis y = abx, a > 0, b > 0, x ≥ 0 • Como no caso anterior, as derivadas fornecem a forma das curvas. 2. Função exponencial: y = abx, a > 0, b > 0, x ≥ 0 • Aplicando o logaritmo, tem-se: ln y = ln a + x.ln b • Fazendo Y = ln y, A = ln a e B = ln b, tem-se a forma linear: y y Y = A + B.x a 01 x Crescente Concavidade para cima x=0→y=a x Decrescente Concavidade para cima x=0→y=a O diagrama de dispersão de (x, Y=lny) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste. ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis b 2. Função hiperbólica, tipo I: y = a + , x > 0 , a > 0 , y > 0 x • A primeira e a segunda derivadas fornecem a forma das curvas. y b>0 b , x > 0, a > 0, y > 0 x • Fazendo X = 1/x, obtém-se a forma linear: 3. Função hiperbólica, tipo I: y= a+ y = a + b.X y a b<0 O diagrama de dispersão de (X=1/x, y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste. a x Decrescente Concavidade para cima Assíntota em x = 0 e y = a ESTATÍSTICA APLICADA I - Estatística Descritiva - b/a x Crescente Concavidade para baixo Assíntota em y = a ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva 36 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis 4. Função hiperbólica, tipo II: 1 y= , a > 0, b > 0, x ≥ 0 a + bx • As derivadas da função indicam que a curva é decrescente e tem concavidade voltada para cima, com assíntotas em y = 0. Para x =0, y = 1/a. y 1/a 4. Função hiperbólica, tipo II: y= 1 , a > 0, b > 0, x ≥ 0 a + bx • Fazendo Y = 1/y, obtém-se: 1 1 = Y a + bx ou Y = a + bx O diagrama de dispersão de (x, Y=1/y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste. x ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis 5. Função logaritmo: ESTATÍSTICA APLICADA I - Estatística Descritiva  Funções linearizáveis 5. Função logaritmo: y = a + b.ln x, x > 0 • As derivadas indicam a forma da curva: • Fazendo X = ln x, obtém-se a forma linear: y y y = a + bX b<0 b>0 x e- a/b O diagrama de dispersão de (X=ln x, y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste. x e-a/b Decrescente Concavidade para cima Crescente Concavidade para baixo y = a + b.ln x, x > 0 ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Exemplo: Um estudo sobre a oferta de mercado de um produto revelou as quantidades que os produtores estariam dispostos a oferecer a vários níveis de preços x = preço 10,00 10,50 11,00 11,50 12,00 12,50 13,00 13,50 y = oferta (em 1000 un.) 427 440 447 453 460 465 470 472 ESTATÍSTICA APLICADA I - Estatística Descritiva • Exemplo: a. Construa um diagrama de dispersão para os dados da tabela; b. Calcule o coeficiente de correlação linear das variáveis; c. O diagrama de dispersão sugere o uso de alguma forma linearizável para ajustar os pontos? d. Construa o gráfico de dispersão da forma linear correspondente à função escolhida em (c); e. Calcule o coeficiente de correlação dos pares em (d); f. Comente os resultados obtidos; g. Calcule a regressão de y sobre x para a função de maior correlação; h. Calcule o coeficiente de explicação para a função escolhida em (g); i. Calcule a oferta para um preço de 15,00. ESTATÍSTICA APLICADA I - Estatística Descritiva 37 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Solução: • Solução: a. Diagrama de dispersão y b. Coeficiente de correlação. 475 470 465 460 455 450 445 440 435 430 425 420 9 9,5 10 10, 5 11 11, 5 12 12, 5 13 13, 5 14 n x y x2 y2 xy 1 2 3 4 5 6 7 8 10,0 10,5 11,0 11,5 12,0 12,5 13,0 13,5 424 440 447 453 460 465 470 472 100,00 110,25 121,00 132,25 144,00 156,25 160,00 182,25 182329 193600 198809 205209 211600 216225 220900 222284 4270,0 4620,0 4917,0 5209,5 5520,0 5812,5 6110,0 6372,0 Σ 94,0 3.634 1.115,00 1.652.456 42.831,0 ESTATÍSTICA APLICADA I x - Estatística Descritiva 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Solução: • Solução: d. Diagrama de dispersão: a forma linear é y = a + b.X, com X = ln x. b. Coeficiente de correlação. 94 ⋅ 3.634 = 131,5 8 ( 3.634 ) 2 = 1.652.456 − = 1.711 ,5 8 s xy = 42.831 − s yy ESTATÍSTICA APLICADA I - Estatística Descritiva X = ln x 2 ( 94 ) = 10 ,5 8 131,5 = 0 ,98 10 ,5 ⋅ 1.711,5 s xx = 1.115 − r= y = oferta (em 1000 un. 2,30 2,35 2,40 2,44 2,48 2,53 2,56 2,60 427 440 447 453 460 465 470 472 475 y 470 465 460 455 c. A forma do diagrama de dispersão sugere a curva logaritmica por suas características. y = a + b.ln x 450 445 440 435 430 425 420 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 ln x ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear ESTATÍSTICA APLICADA I - Estatística Descritiva 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Solução: • Solução: e. Coeficiente de correlação. e. Coeficiente de correlação. n X=ln x y X2 y2 Xy 1 2 3 4 5 6 7 8 2,30 2,35 2,40 2,44 2,48 2,53 2,56 2,60 424 440 447 453 460 465 470 472 5,29 2,52 5,76 5,95 6,15 6,40 6,55 6,77 182.329 193.600 198.809 205.209 211.600 216.225 220.900 222.284 982,1 1.034,0 1.072,8 1.105,5 1.140,8 1.176,45 1.203,2 1.227,2 Σ 19,67 3.634 48,45 1.652.456 8.947,57 ESTATÍSTICA APLICADA I - Estatística Descritiva 19 ,67 ⋅ 3.634 = 11 ,3453 8 ( 3.634 ) 2 = 1.652.456 − = 1.711 ,5 8 s xy = 8.947 ,57 − s yy ( 19 ,67 ) 2 = 0 ,0771 8 11 ,3453 r= = 0 ,9879 0 ,0771 ⋅ 1.711 ,5 s xx = 48 ,45 − f. A correlação obtida com a curva logarítmica é maior; portanto, essa função será escolhida para o processo de regressão. ESTATÍSTICA APLICADA I - Estatística Descritiva 38 1.7 Regressão Linear 1.7 Regressão Linear  Funções linearizáveis  Funções linearizáveis • Solução: • Solução: g. Cálculo da regressão linear: b= a= s xy s xx = i. Projeção da oferta para um preço de 15,00: 11 ,3453 = 147 ,1505 0 ,0771 y = 92 ,1907 + 147 ,1505 ⋅ ln x = 92 ,1907 + 147 ,1505 ⋅ ln 15 = 490 ,68 ∑ y − b ⋅ ∑ x = 3.634 − 147 ,1505 ⋅ 19 ,67 = 921907 n n 8 y = 92 ,1907 + 147 ,1505. ln x h. Cálculo do R2. R2 = b ⋅ s xy s yy = 147 ,1505 ⋅ 8 A oferta esperada quando o preço for 15,00 é de 490,68 mil unidades. 11 ,3453 = 0 ,976 1.711,5 A regressão de y sobre x explica 97,6% das variações de y a partir de sua média; os outros 2,4% são atribuídos a fatores imponderáveis. ESTATÍSTICA APLICADA I - Estatística Descritiva ESTATÍSTICA APLICADA I - Estatística Descritiva I - Estatística Descritiva FIM ESTATÍSTICA APLICADA I - Estatística Descritiva 39