Transcript
Capitulo 1- Introdução
Praticamente em todas as áreas do conhecimentos o uso da estatística
em especial das técnicas de planejamento de experimentos são imprecendiveis
para as tomadas de decisão visando a avaliação de novos procedimentos ou a
otimização de processos e produtos.
Segundo Montegomery(2001), um experimento planejado é um teste, ou
série de testes, no qual são feitas mudanças propositais nas variáveis de
entrada de um processo, de modo a podermos observar e identificar mudanças
correspondentes na resposta de saída.
Figura 1.1: Modelo geral de um processo
O processo, como mostra a Figura 1, pode ser visualizado como uma
combinação de máquinas, métodos e pessoas, que transforma um material de
entrada em um produto de saída. Este produto de saída pode ter uma ou mais
características da qualidade observáveis ou respostas. Algumas das
variáveis do processo são controláveis, enquanto outras, são
não-controláveis(embora possam ser controláveis para efeito de teste).
Algumas vezes, esses fatores não-controláveis são chamados fatores de
ruído. Os objetivos do experimento podem incluir
1. Determinação de quais variáveis são mais influentes na resposta .
2. Determinação do valor a ser atribuído aos 's influentes de modo
que esteja perto da exigência nominal.
3. Determinação do valor a ser atribuído aos 's influentes de modo
que a variabilidade em seja pequena.
4. Determinação do valor a ser atribuído aos 's influentes de modo
que os efeitos das variáveis não-controláveis sejam minimizados.
Assim, métodos de planejamento experimental podem ser usados tanto no
desenvolvimento do processo quanto na solução de problemas do processo,
para melhorar o seu desempenho ou obter um processo que seja robusto ou não-
sensível a fontes externas de variabilidade.
Aplicação dos Planejamentos Experimentais na Industria são
fundamentais para desenvolvimento de novos produtos e para o controle de
processos. Nesta área é comum aparecer problemas em que se precisa estudar
várias propriedades ao mesmo tempo e estas, por sua vez, são afetadas por
um grande número de fatores experimentais. È papel de técnicas de
planejamento de experimentos, auxiliar na fabricação de produtos com
melhores características, na diminuição do seu tempo de desenvolvimento,
aumentar a produtividade de processos e minimizar a sensibilidade a fatores
externos (NETO et al., 2001).
A análise de dados para os modelos de planejamento de experimentos
fica praticamente inviabilizada sem o uso de softwares específicos. Neste
material é apresentado as possíbilidades de análise de dados para modelos
de planejamento pelo software R.
O software R, que é uma linguagem e ambiente para computação
estatística e gráfica de domínio público (VENABLES e SMITH, 2001),
atualmente muito difundido nos grandes centros, contudo pouco conhecido em
Goiás. Este software pode ser uma ótima alternativa para o trabalho com
Análise de Experimentos, pois, tem apresentado igual ou superior eficiência
para análise de dados, além de haver material disponível na internet e
listas de discussão que servem como guia de suporte e aprendizagem.
Nesta apostila serão apresentados um resumo dos principais modelos de
planejamento de experimentos, dentre os quais destacamos: Planejamento
completamente aleatorizado com único fator, Planejamento completamente
aleatorizado com blocos, Planejamento Fatoriais e Planejamentos
Hierarquicos e para cada modelo apresentou-se a sequencia de comandos em R
para a análise estatística dos modelos, que geram os resultados finais como
o Quadro da ANOVA, as Comparações Multiplas e a Análise de Resíduos.
Capítulo 2- Elementos Básicos da Experimenta-ção
Segundo Werkema & Aguiar (1996), para se realizar de forma eficiente
um experimento, deve-se ser utilizada uma abordagem científica para o
planejamento.
Esta abordagem é identificada por meio do termo planejamento estatístico de
experimentos, que se refere ao procedimento de planejar um experimento de
forma que os dados apropriados sejam coletados em tempo e custo mínimos. A
análise destes dados por meio de técnicas estatísticas resultará em
conclusões confiáveis.
Portanto existem dois aspectos fundamentais em qualquer estudo
experimental: o planejamento do experimento e a análise estatística dos
dados. Estes dois aspectos devem ser bem avaliados, já que a técnica de
análise depende diretamente do planejamento utilizado.
Um dos grande problemas dos estudos experimentais é a coleta de dados.
Se os dados forem coletados de forma inadequada, não há técnica estatística
de análise de dados que concerte o problema e todo o experimento fica
comprometido.
2.1 Princípios Básicos
Para que seja possível planejar de modo adequado a coleta de dados,
princípios básicos do planejamento de experimentos como a réplica, a
aleatorização e a formação de blocos devem ser entendidos.
2.1.1- Réplicas
As réplicas são repetições do experimento feitas sob as mesmas
condições experimentais. O termo "sob as mesmas condições experimentais" se
refere ao fato de que os demais fatores que possam influenciar a variável
resposta de interesse sejam controlados de modo a não sofrerem variações de
uma experimentação para outra.
Em um experimento, a realização de réplicas é importante pelos
seguintes motivos:
As réplicas permitem a obtenção de uma estimativa da variabilidade
devida ao erro experimental. A partir desta estimativa é possível
avaliar se a variabilidade presente nos dados é devida somente ao erro
experimental ou se existe influência das diferentes condições
avaliadas pelo pesquisador. Se estas condições forem influentes, o
responsável pela pesquisa poderá determinar qual é a condição mais
favoravel para conduzir o experimento.
Por meio da escolha adequada do número de réplicas é possível
detectar, com precisão desejada, quaisquer efeitos produzidos pelas
diferentes condições experimentais que sejam considerados
significantes do ponto de vista prático.
2.1.2- Aleatorização
A expressão aleatorização se refere ao fato de que tanto a alocação do
material experimental às diversas condições de experimentação, quanto a
ordem segundo a qual os ensaios individuais do experimento serão
realizados, são determinados ao acaso. A aleatorização torna possível a
plicação dos métodos estatísticos para a análise dos dados. A maioria dos
modelos subjacentes e estes métodos estatísticos exigem que os componentes
do erro experimental sejam variáveis aleatórias independentes e a
aleatorização geralmente torna válida esta exigência.
A aleatorização permite ainda que os efeitos de fatores não-
controlados, que afetam a variável resposta e que podem estar presentes
durante a realização do experimento, sejam balanceados entre todas as
possíveis medidas. Este balanceamento evita possíveis confundimentos na
avaliação dos resultados devido à atuação destes fatores.
2.1.3- Formação de Blocos
Em muitas situações experimentais é necessário planejar o experimento
de forma que a variabilidade resultante de fatores externos conhecidos,
sobre os quais não existe interesse, possa ser sistematicamente controlada
e avaliada.
Se estes fatores externos não forem controlados, mesmo usando a
aleatorização, o erro experimental irá refletir tanto o erro aleatório
inerente ao experimento, quanto a variabilidade existente em função desses
fatores.
Nesta situação, deve-se formar blocos para os varios fatores externos
de influência, e realizar repetições completas do experimento em cada
bloco, dessa forma em cada bloco poderão ser observadas as diferenças
existentes devido ao fator de interesse, minimizando assim o efeito dos
fatores pertubadores no resultado final do experimento. Aqui cada bloco
corresponde a um corpo de prova. Note que o objetivo principal do
experimento não é medir o efeito destes fatores pertubadores, mas sim
avaliar com maior eficiência os efeitos dos fatores de interesse.
Assim de forma genérica podemos definir que blocos são conjuntos
homogêneos de unidades experimentais.
2.1.4- Terminologia Básica
Na terminologia básica para um planejamento de experimentos, destaca-se:
Unidade experimental: É a unidade básica para a qual será feita a
medida da resposta.
Fatores: São as variáveis cuja influência sobre a variável resposta
está sendo estudada no experimento.
Niveis de um Fator: Os diferentes modos de presença de um fator no
estudo considerado são denominados níveis do fator.
Tratamento: As combinações específicas dos níveis de diferentes
fatores são denominadas tratamentos. Quando há apenas um fator, os
níveis deste fator correspondem aos tratamentos.
Ensaio: Cada realização do experimento em uma determinada condição de
interesse(tratamento) é denominada ensaio, isto é, um ensaio
corresponde a aplicação de um tratamento a uma unidade experimental.
Variável Resposta: O resultado de interesse registrado após a
realização de um ensaio é denominado variável resposta.
Vamos considerar um exemplo apresentado em Werkema & Aguiar (1996) para
ilustrar melhor os princípios básicos do planejamento de experimentos:
Exemplo 2.1- Suponha que um engenheiro esteja interessado em estudar o
efeito produzido por três diferentes banhos(meios) de têmpera: têmpera em
água, em óleo e em solução aqüosa de cloreto de sódio (água salgada) na
dureza de um determinado tipo de aço. Aqui o propósito era determinar qual
banho de têmpera produziria a dureza máxima do aço. Com este objetivo ele
decidiu submeter um determinado número de amostras da liga, que
denominaremos corpos de prova, a cada meio de têmpera e a seguir mediu a
dureza da liga.
Vamos ilustrar a aplicação dos princípios do planejamento neste problema.
Réplica: Neste caso uma réplica do experimento completo consiste em medir a
dureza de um corpo de prova submetido à têmpera em água, de um segundo
corpo de prova submetido à têmpera em óleo e de um terceiro temperado em
solução de cloreto de sódio.Isto é, realizar uma réplica do experimento
completo significa coletar uma observação da variável resposta em cada
condição experimental considerada no estudo. Portanto, se seis corpos de
prova são temperados em cada banho (água, óleo e água salgada), sendo feita
a seguir a medida da dureza de cada um destes corpos de prova, dizemos que
foram realizadas seis réplicas do experimento(sendo realizados dessa forma
6x3=18 ensaios).
Aleatorização: Neste experimento a aleatorização deve-se fazer presente
pela distribuição ao acaso dos corpos de prova entre os banhos de têmpera.
Este procedimento atenua por exemplo situações onde a espessura dos corpos
de prova são ligeiramente diferentes, assim de todas as amostras com
espessura maior foram submetidas a um mesmo banho de têmpera este
provavelmente estará em situação vantajosa e os resultados do experimento
estarão tendenciosos.
Blocos: Supor que os corpos de prova são provenientes de corridas
diferentes ( ou matérias primas diferentes), se planejarmos um experimento
onde estes corpos de prova sejam distribuídos ao acaso entre os diferentes
banhos de têmpera, as diferenças entre os corpos de prova irão acrescentar
uma variabilidade adicional às medidas de dureza, o que poderá mascarar os
efeitos devidos ao fator de interesse (banho de têmpera). Para eliminar do
erro experimental a variabilidade devida ao fato de os corpos de prova
terem sido produzidos em corridas diferentes, deve-se realizar o
experimento da seguinte maneira: cada corpo de prova será dividido em três
partes iguais, sendo cada parte submetida a um diferente banho de têmpera.
Deste modo, dentro de cada terno formado pelas três partes de um mesmo
corpo de prova, a influência devida às características particulares de cada
corpo de prova deverá ocorrer de forma aproximadamente igual para cada um
dos banhos de têmpera.
Dentro da terminologia básica temos que:
Unidade Experimental: Corpo de prova do aço utilizado no estudo.
Fatores: Banhos de têmpera.
Níveis do Fator: água, água salgada e óleo
Ensaio: Cada ensaio consiste em tratar um corpo de prova em um determinado
banho de têmpera.
Variável Resposta: É a dureza do corpo de prova medida após a realização
da têmpera.
2.1.5- Roteiro para a Realização de um Bom Experimento.
Para usar a abordagem estatística no planejamento e na análise de um
experimento é necessário que as pessoas envolvidas na experimentação
tenham, antecipadamente, uma idéia clara do que será estudado e da forma
como os dados serão coletados. Também é recomendado que se tenha uma idéia
qualitativa de como os dados serão analisados. Um roteiro para a realização
de um bom experimento é apresentado a seguir:
1. Reconhecimento e relato do problema. Na prática, geralmente é difícil
perceber que existe um problema que exige experimentos planejados
formais, de maneira que não pode ser fácil obter-se um relato claro
de problema que é aceito por todos. No entanto é de primordial
importância desenvolver todas as idéias do problema e definir de
forma clara os objetivos específicos do experimento.
2. Escolha dos fatores e dos níveis. Devem ser escolhidos os fatores que
devem variar, os intervalos sobre os quais esses fatores variarão e
os níveis específicos nos quais cada rodada será feita. Exige-se
conhecimento do processo para fazer isso, esse conhecimento em geral
é uma combinação de experiência prática e conhecimento teórico. É
importante a investigação de todos os fatores que possam ser
importantes e evitar ser excessivamente influenciado pela experiência
passada.
3. Escolha da variável resposta: Na escolha da variável resposta, o
experimentador deve ter certeza de que aquela variável realmente
fornece informação útil sobre o processo em estudo e a capacidade de
medida dessa variável. Se a capacidade do medidor é baixa, então
apenas grandes efeitos dos fatores serão detectados pelo experimento,
ou será necessário muitas réplicas.
4. Escolha do planejamento experimental. A escolha do planejamento
envolve consideração sobre o tamanho da amostra(número de
replicações), seleção de uma ordem adequada de rodadas para as
tentativas experimentais, ou se a formação de blocos ou outras
restrições de aleatorização estão envolvidas.
5. Realização do experimento. Quanto da realização do experimento, é de
vital importância monitorar o processo, para garantir que tudo
esteja sendo feito de acordo com o planejamento. Erros no
procedimento experimental nessa etapa, em geral comprometem a
validade do experimento.
6. Análise dos dados. Métodos estatísticos devem ser usados para
analisar os dados, de modo que os resultados e conclusões sejam
objetivos e não de opinião. Se o experimento foi planejado
corretamente o método estatístico para análise não será um problema.
A análise de resíduos e a verificação da validade do modelo são
importantes e devem ser feitas.
7. Conclusões e recomendações. Uma vez analisados os dados, o
experimento deve acarretar conclusões práticas sobre os resultados e
recomendar um curso de ação. Deve-se auxiliar de métodos gráficos,
particularmente na apresentação dos resultados para outras pessoas.
Seqüências de acompanhamento e testes de confirmação devem ser também
realizados para validar as conclusões do experimento.
2.2 – Exercícios do Capítulo
1. Planeje um experimento para comparar quatro drogas no alívio de
cefaléias, supondo que você dispõe de um conjunto de pacientes
similares.
2. Planeje um experimento para comparar três fórmulas de adubação no
crescimento de Pinus, supondo que você dispõe de um terreno
heterogêneo que deve ser dividido em cinco blocos e que em cada bloco
podem ser alocadas nove parcelas.
3. Planeje um experimento para comparar dois testes de inteligência
tomando cada criança como um bloco.
4. Planeje um experimento para comparar o desempenho(tempo de realização
da tarefa) de três máquinas empacotadeiras, dispondo de 5 operadores.
Capítulo 3 - Planejamento Completamente Alea-torizado com Único Fator.
Para a comparação de dois tratamentos( duas populações) vindos de
populações normais, utiliza-se em o teste t-student, desde que as
suposições sejam válidas. Para comparação de mais de dois tratamentos não é
muito recomendado sua utilização, visto que serão necessárias várias
comparações, o que acaretará um aumento no erro tipo I. Essa situação é
ilutrada em Montegomery (2001).
O problema para a comparação de tratamentos por meio de ensaios
realizados em ordem aleatória é descrito abaixo.
Consideremos que existem diferentes níveis (tratamentos de um
único fator) que queremos comparar. A resposta para cada um dos
tratamentos é uma variável aleatória. A ilustração da disposição dos dados
é ilustrado na Tabela abaixo:
Tabela 3.1: Esquema da disposição de dados para Experimento Aleatorizado
com Fator Único.
"Tratamento"Observações "Totais"Médias "
"1 "[pic"[pic"[pi"[pic" " "
" "] "] "c] "] " " "
"2 "[pic"[pic"[pi"[pic" " "
" "] "] "c] "] " " "
" "[pic"[pic"[pi"[pic" " "
" "] "] "c] "] " " "
" "[pic"[pic"[pi"[pic" " "
" "] "] "c] "] " " "
" " " " " " " "
Aqui representa a ª - ésima observação feita sob o ª-
ésimo tratamento. Neste caso estamos considerando a situação em que há um
número igual de observações, , em cada tratamento.
3.1 – Modelo Estatístico
Cada observação na Tabela 3.1, pode ser descrita pelo seguinte
modelo estatístico linear,
, (3.1)
com e .
Aqui,
é uma v.a. denotando a (ij)ª obeservação;
é a média geral, comum a todos os tratamentos;
é o efeito do i-ésimo tratamento;
é a componente do erro aleatório.
Supondo que , ou seja, os erros são independentes e normalmente
distribuidos com média zero e variância . Dessa forma, cada tratamento
pode ser pensado como uma população normal com média e variância
, ou seja, .
Assim, vamos apresentar o procedimento para testar a igualdade das
médias populacionais. Esse modelo de análise de variância é chamado de
efeitos fixos. Os efeitos dos tratamentos são definidos, em geral,
como desvios da média geral , de modo que
Representando, , o total das observações sob o i-ésimo tratamento e
por a média das observações sob o i-ésimo tratamento, analogamente,
o total geral e a média geral,
,
, " Número total de observações"
Estamos interessados em testar a igualdade das médias dos
tratamentos. Pela equação 3.1, este procedimento é equivalente a testar as
hipóteses:
(3.2)
Dessa forma se é verdadeira, cada observação consiste de uma média
geral mais uma realização da componente do erro aleatório .
Assim se é verdadeira a mudança dos níveis do fator (tratamentos) não
tem qualquer efeito sobre a resposta média.
A análise de variância particiona a variabilidade total na amostra de
dados em duas partes então o teste proposto em (3.2) é baseado na
comparação de duas estimativas independentes da variância populacional.
A variabilidade total dos dados é dada a partir da soma de quadrados totais
(3.3)
Mas pode-se particionar de forma que:
(3.4)
Demonstração: Ver Montogomery 2001.
A relação em (3.4), mostra que a variabilidade total nos dados, medida pela
soma de quadrados total, pode ser particionada em uma soma de quadrados das
diferenças entre as médias dos tratamentos e a média geral, e na soma de
quadrados das diferenças entre as observações dentro de cada tratamento e
a média do respectivo tratamento. Diferenças entre médias de tratamentos
observadas e a média geral quantificam diferenças entre tratamentos,
enquanto diferenças das observações dentro de um tratamento e a média do
tratamento podem ser devidas apenas a um erro aleatório.
Dessa forma, reescrevemos (3.4) como
, onde:
: Soma dos quadrados total.
: Soma dos quadrados devido aos tratamentos.
: Soma dos quadrados dos erros.
Calculando os valores esperados de e tem-se :
(3.5)
Demonstração: Ver Montgomery (2001)
Sob verdadeira, temos que
Se é verdadeira, então
A razão é chamada média quadrática dos tratamentos. Logo, se é
verdadeira, é um estimador não-viciado de , enquanto que, se
é verdadeira, estima mais um termo positivo que
incorpora a variação devida à diferença entre as médias dos tratamentos.
Da mesma forma, tem-se que
(3.6)
Então a média quadrática dos erros é um estimador não-viciado de
, independente de ser ou não verdadeira.
Analisaremos também a partição dos graus de liberdade.
: tem graus de liberdade
: tem graus de liberdade
: tem graus de liberdade
Supondo que cada uma das populações possa ser modelada com uma
distribuição normal. Com essa suposição pode-se mostrar que, sob ,
então:
(3.7)
Se é verdadeira e são estimadores não viciados de
, mas se é falsa então será maior que , assim sob a
hipótese alternativa, será grande. Dessa forma um teste de hipótese é
construído. Devemos rejeitar se o valor da estatística é grande, isso
implica em uma região crítica unilateral superior. Então rejeita-se
se . No geral utiliza-se o seguinte quadro para ANOVA.
Tabela 3.2 - Quadro da Anova
"Fonte de Variação " " " " "
"Entre Tratamentos " " " " "
"Dentro dos Tratamentos " " " " "
"(Erro) " " " " "
"Total " " " " "
Estimativas dos efeitos dos tratamentos:
,
3.2 Análise de Resíduos.
O modelo matemático de um planejamento completamente aleatorizado,
considera que as observações sejam distribuidas de forma normal, com mesma
variância. Essas suposições podem ser verificadas através da análise de
resíduos.
Um resíduo é a diferença entre uma observação e seu valor
estimado (ou ajustado) a partir do modelo estatístico que esta sendo
utilizado, denotado por . Para o modelo específico temos que ,
com cada resíduo sendo , ou seja, a diferença entre uma observação e a
média correspondente observada do tratamento.
Para identificar se as suposições estão sendo violadas utilizamos
básicamente três tipos de gráficos: Resíduos X Ordem de Coleta, Resíduos X
Tratamentos (médias ) e Gráfico de probabilidade normal dos Resíduos.
O gráfico de Resíduos X Ordem de Coleta busca identificar algum tipo
de associação dos resíduos com a ordem de coleta das observações. A
identificação de algum tipo de associação viola a suposição de
indepêndencia entre os dados, portanto espera-se em uma análise de resíduos
que não haja associoação entre resíduos e ordem de coleta. O gráfico deve
apresentar uma configuração aleatória entre resíduos e ordem de coleta.
Figura 3.1: Gráfico Resíduo X Ordem
Na Figura 3.1, tem-se uma típica configuração aleatória entre ordem X
resíduos, validando a suposição de independência entre as observações.
O gráfico de Resíduos X Tratamento, busca identificar algum tipo de
alteração na dispersão dos resíduos para cada tratamento. Se houver
dispersões muito diferentes entre tratamentos pode significar que a
variação não é constante, e uma importante suposição do modelo estará
violada. O gráfico deve apresentar uma configuração de dispersão semelhante
para todos os tratamentos.
Figura 3.2: Resíduo X Média dos Tratamentos
Na Figura 3.2, verifica-se um caso típico de não violação da suposição de
igualdade da variância.
O gráfico de probabilidade normal dos resíduos identifica se os dados
apresentam uma distribuição normal. Os resíduos plotados contra os quantils
de uma distribuição normal devem ficar de forma aproximada ao longo de uma
reta. Neste caso pode-se usar um teste estatístico baseado no coeficiente
de correlação para identificar uma possível lineariedade.
Figura 3.3: Gráfico de Probabilidade Normal para os Resíduos.
Em situações como na Figura 3.3, percebemos que pontos centrais
estavam localizados, de forma aproximada, ao longo de uma reta, o que
indica que os componentes do erro do modelo seguiam uma distribuição
normal. No entanto para confirmar essa hipótese sugere-se utilizar um teste
para normalidade.
3.3 Comparações Multiplas
A análise de variância nós indica que há uma diferença entre as
médias, mas ela não diz qual média que difere.Existem procedimentos
específicos chamados de procedimentos de comparação múltipla, para testar
as diferenças entre as médias específicas seguindo uma análise de
variância. Dentre os testes mais conhecidos destacamos o teste Tukey
(Montgomery,2001).
3.3.1 Teste de Tukey
O teste de Tukey, está baseado na amplitude total estudentizada e pode
ser usado para comparar todos os pares de contrastes que envolvem
diferenças de médias.
O teste é exato de nível quando o número de repetições é o mesmo para
todos tratamentos e aproximado quando o número de repetições é diferente
para os tratamentos. Este teste pode ainda ser usado para a construção de
intervalos de confiança para a difernça entre as médias dos tratamentos.
O procedimento está baseado na distribuição de amplitude total
estudentizada (studentized range statistic) dada por:
(3.8)
onde e são as maiores e menores médias amostrais
respectivamente, calculadas para um grupo de amostras. A distribuição
de , com sendo o percentil superior de pontos de com
graus de liberdade, associado ao estimador é calculada
computacionalmente.
Para um número igual de repetições, o teste Tukey detecta diferenças
significativas entre pares de duas médias se o valor absoluto da diferenças
das médias amostrais execeder
De forma equivalente, constrói-se intervalos de de confiança para
todos os pares de médias dada por:
, .
Para tamanhos amostrais diferentes (diferente n° de repetições), temos:
e
, respectivamente.
3.4- Análise Estatística de um Planejamento Completamente Aleatorizado com
o uso do Software R.
Neste tópico vamos ilustrar a utilização do software R na análise de
dados para o modelo de planejamento de experimento completamente
aleatorizado.
3.4.1- Descrição do Programa
O software R, que é uma linguagem e ambiente para computação
estatística e gráfica de domínio público (VENABLES e SMITH, 2001),
atualmente muito difundido nos grandes centros.
A linguagem R é derivada da linguagem do Software S-plus. Sua sintaxe é
semelhante com a linguagem C, e sua estrutura é de linguagem funcional. A
tela inicial do programa está ilustrada na figura abaixo:
Figura 3.4 : Tela Inicial do Software R.
O simbolo > indica a linha de comando ("prompt") na qual serão digitados os
comandos para a execusão das análises.
O R tem um sistema de ajuda on-line que permite que a documentação seja
exibida em um browser (explorer,mozilla,ou similar). Para iniciar este
sistema on-line clique em "help" depois "html help".
Para uma consulta rápida, quando já se sabe o nome da função, basta digitar
help(nome_da_função).
Para conhecer ou lembrar os parâmetros ou argumentos da função utilize o
comando args(nome_da_função).
Quando se quer listar todas as funções que possuem um determinado termo
utiliza-se o comando apropos(termo). Por Exemplo:
> apropos(vector)
[1] ".__C__vector" "as.data.frame.vector" "as.vector"
[4] "as.vector.factor" "is.vector" "vector"
Por ser gratuito, o R não possui suporte oficial. Existe uma lista de
discussão através do endereço http://www.r-project.org/mail.html, que se
tem mostrado um suporte interativo bastante eficiente.
3.4.2 – Aplicação do Software R na analise de dados para o planejamento de
experimentos completamente aleatorizado com único fator.
Para ilustrarmos a aplicação desse modelo, utilizamos o problema
proposto em Werkema & Aguiar (1996) descrito abaixo:
Os técnicos de uma indústria metalúrgica, desejam avaliar a dureza de peças
de aço após diferentes banhos de têmpera. O experimento consistiu em
submeter nove peças de aço a cada tipo de banho de têmpera (água, óleo A e
óleo B), a seguir medir a dureza no centro das peças temperadas e comparar
as durezas médias obtidas, com o objetivo de identificar o meio de têmpera
mais adequado. Este é um exemplo de um experimento com um único fator
(banho de têmpera) com níveis (água, óleo A e óleo B) e = 9
réplicas. Neste experimento, os 27 ensaios ou testes foram realizados em
ordem aleatória. Na Tabela 9, apresenta-se os resultados do experimento.
Tabela 3.3 : Dados do experimento com a ordem dos ensaios.
Neste caso a matriz de planejamento de experimento pode ser montada com a
seguinte seqüência de comandos para entrar com os dados do experimento:
Montando as colunas resposta e ordem:
>y<- scan() : Depois do comando o próximo passo é digitar os valores da
resposta seguidos de enter e para encerrar digite enter duas vezes.
>or<- scan() : Depois do comando o próximo passo é entrar com os dados da
ordem do ensaio da mesma forma anterior.
Montando a variável tratamento:
>x<-rep(1:3,each=9) : no caso temos 3 tratamentos com 9 repetições, ou,
>x1<-factor(rep(1:3,each=9),labels=c("agua","oleoA","oleoB"))
Montando o data.frame ( matriz de dados e fatores)
bt<-data.frame(resp=y, ordem=or, trat=x1)
Assim, a matriz de planejamento terá a seguinte forma:
resp ordem trat
1 36.7 24 agua
2 38.9 12 agua
*
*
*
26 35.8 6 oleoB
27 35.5 27 oleoB
Para a análise descritiva o primeiro passo é indicar o caminho das
variáveis no data.frame, isso é feito com o comando attach(bt) . O comando
tapply, possibilita a manipulação de dados no data.frame. Para um resumo
descritivo usamos a seqüência:
tapply(resp,trat,summary)
$água
Min. 1st Qu. Median Mean 3rd Qu. Max.
36.70 37.20 38.00 37.99 38.80 38.90
$óleoA
Min. 1st Qu. Median Mean 3rd Qu. Max.
35.30 35.70 36.00 36.21 36.80 37.50
$óleoB
Min. 1st Qu. Median Mean 3rd Qu. Max.
34.20 35.00 35.30 35.28 35.70 36.50
O comando resultou em um resumo descritivo das respostas por tratamento.
Uma inspeção gráfica pode ser obtida pelo Gráfico de Box-Cox.
>plot(resp~trat,xlab="Banho de Têmpera",ylab="Dureza", col ="red")
Figura 3.5: Box-Plot para os Valores de Dureza Obtidos em cada Banho de
Têmpera.
Pela Figura 3.5 e medidas descritivas acima, pode-se observar que
parece haver uma diferença entre os banhos de óleo e o de água, sendo que a
maior dureza média foi observada no banho de água.
O problema agora é verificar se essas diferenças de fato são
significativas ou podem ser de origem aleatória. Para constatarmos se de
fato as diferenças são significativas utilizaremos à análise de variância.
Para a Análise de Variância temos a seguinte seqüência de comandos:
aov(formula, data = NULL, projections = FALSE, qr = TRUE,
contrasts = NULL, ...)
Este comando efetua e guarda todos os resultados da ANOVA do modelo
(formula)
av<-aov(resp~trat) :
O comando names(av) lista todos os vetores de resultados gerados pela
ANOVA como por exemplo o vetor de resíduos.
> names(av)
[1] "coefficients" "residuals" "effects" "rank"
"fitted.values" "assign" "qr"
[8] "df.residual" "contrasts" "xlevels" "call"
"terms" "model"
Para utilizar esses vetores deve-se referenciar como por exemplo av$res ou
av$fitt , aqui será listado o vetor de resíduos e o vetor de valores
ajustados pelo modelo proposto.
Agora utiliza-se o comando summary(av) ou anova(av) , que geram a Tabela
da ANOVA abaixo:
Analysis of Variance Table
Response: resp
Df SumSq Mean Sq F value Pr(>F)
trat 2 34.145 17.073 28.389 4.732e-
07 ***
Residuals 24 14.433 0.601
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Assim, como é um valor bem maior que 1, temos evidências
significativas para concluir que pelo menos um tratamento difere dos
demais. Essa evidência é mais facilmente verificado pelo p-value que neste
caso é dado por Pr(>F)=4.732e-07 , ou seja, a diferença é significativa a
um nível de abaixo de 0.001.
Dessa forma verifica-se que as médias diferem, isto é, que o tipo de
banho utilizado afeta a dureza das peças temperadas.
Detectado a diferença entre tratamentos o próximo passo e identificar
de fato qual dos tratamentos esta diferindo do outro. Nesta etapa vamos
utilizar o teste de Tukey. O comando para o teste de Tukey é:
>TukeyHSD(av)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = resp ~ trat)
$trat
diff lwr upr
oleoA-agua -1.7777778 -2.690713 -0.8648426
oleoB-agua -2.7111111 -3.624046 -1.7981760
oleoB-oleoA -0.9333333 -1.846268 -0.0203982
Percebe-se, através do teste paras diferenças entre tratamentos e o
intervalo de confiança para as diferenças, que todos os tratamentos são
diferentes entre si e a ordem é dada por:
Água > Óleo A > Óleo B
Figura 3.6: Comparações Múltiplas.
O resultado pode ser melhor ilustrado pela Figura 3.6, que é gerado através
do comado:
> plot(TukeyHSD(av))
O modelo de análise de variância assume que as observações são
independentes, com distribuição normal de mesma variância em cada
tratamento. Dessa forma devemos analisar o comportamento dos resíduos
através dos seguintes gráficos:
Gráfico de resíduos contra ordem de coleta das observações (tempo)
Gráfico de resíduos contra Valores Ajustados
Gráfico de probabilidade normal.
Para o Gráfico de resíduos contra ordem de coleta das observações
(tempo), utiliza-se o comando:
>plot (ordem,av$res,xlab="Ordem",ylab="Resíduos",col="red")
Aqui "ordem" é o vetor associado a ordem de realização do experimento,
"av$res" é o vetor relacionado com os resíduos gerados pelo modelo, xlab é
o nome da coordenada x, ylab é o nome da coordenada y e col é a cor
desejada. Da mesma forma para Resíduos X Valores Ajustados temos:
Figura 3.7 – Gráficos: Resíduos X Ordem e Resíduos X Valores Ajustados
>plot(av$fit,av$res, xlab="Valores Ajustados",ylab="Resíduos",col="blue")
Para o Gráfico Normal tem-se a seqüência de comando:
>qqnorm(av$res,xlab="Quantil da Normal",ylab="Resíduos")
Este comando plot os quantis da distribuição normal contra os valores dos
resíduos ordenados
>qqline(av.$res)
Este comando ajusta a reta entre os pontos. Neste caso espera-se que os
dados se alinhem em torno da reta ajustada.
Figura 3.8 – Gráfico Normal de Probabilidade dos Resíduos
Considerando o gráfico dos Resíduos X ordem, não se identifica nenhum
relação existente, validando dessa forma a suposição de independência entre
os resíduos. Para o gráfico de resíduos X valores ajustados (médias) a
suposição testada era a de variação igual para ambos os tratamentos, neste
caso também parece não haver ocorrido violação da suposição. No gráfico
normal de probabilidade (QQ-Plot) os dados também parecem não terem
violado de forma comprometedora a suposição de normalidade.
Abaixo apresenta-se os testes de Bartlett para homogeneidade de variâncias
nos tratamentos e Shapiro-Wilk para normalidade dos resíduos.
O Teste de Bartlett é usado através do comando:
>bartlett.test(av$res,trat)
Bartlett test of homogeneity of variances
data: resp and trat
Bartlett's K-squared = 0.199, df = 2, p-value = 0.9053
Como visto não se rejeita a hipótese de igualdade de variâncias, portanto
essa suposição não foi violada.
O teste de normalidade de Shapiro-Wilk é usado através do comando:
>shapiro.test(av$res)
Shapiro-Wilk normality test
data: av$res
W = 0.9613, p-value = 0.3954
Da mesma forma, não se rejeita a hipótese de normalidade dos resíduos,
portanto a suposição de normalidade não foi violada.
Conclusão Final:
Todos os tratamentos (água, óleo A e óleo B) diferem entre si.
A ordem da durabilidade para o tipo de tratamento é: Água > Óleo A >
Óleo B.
O modelo utilizado para a análise foi adequado, não violando nenhuma
suposição inicial.
3.5 - Exercícios do Capítulo
1. Considere um experimento para determinar o efeito da vazão de C2F6
sobre a uniformidade do ataque químico em uma pastilha de silicone
usada na fabricação de um circuito integrado. Três vazões são usadas
no experimento e a uniformidade (%) resultante, para seis replicatas,
é mostrado a seguir.
Faça um estudo descritivo, visando comparar os níveis do fator
(tabela decritiva e Box-Plot).
Faça um análise de variância completa usando e verifique
quais as vazões de gás que produzem diferentes uniformidades
médias de ataque químico.
2. Um experimento foi feito para determinar se quatro temperaturas
específicas de queima afetam a densidade de um certo tipo de tijolo. O
experimento conduziu aos seguintes dados.
Faça um estudo descritivo, visando comparar os níveis do fator
(tabela decritiva e Box-Plot).
Faça um análise de variância completa usando e verifique
quais níveis de temperatura que produzem diferentes densidades nos
tijolos.
3. A resistência à compressão do concreto está sendo estudada e quatro
técnicas diferentes de mistura estão sendo investigadas. Os seguintes
dados foram coletados.
Faça um estudo descritivo, visando comparar os níveis do fator
(tabela decritiva e Box-Plot).
Faça um análise de variância completa usando e verifique se
as misturas afetam a resistência do concreto.
4. Um engenheiro eletrônico está interessado no efeito, na condutividade
do tubo, de cinco tipos diferentes de recobrimento de tubos de raios
catódicos em uma tela de um sistema de telecomunicações. Os seguintes
dados de condutividade são obtidos. Se , você pode isolar
qualquer diferença na condutividade média devido ao tipo de
recobrimento?
Capítulo 4- Planejamento de Experimentos em Blocos Completamente
Aleatorizados.
4.1 Introdução
Em muitas situações experimentais, a presença de fontes externas
perturbadoras conhecidas pode provocar variabilidade extra e alterar os
efeitos dos fatores de interesse, confundindo dessa forma a análise final
do planejamento experimental.
Os planejamentos de experimentos com blocos completamente
aleatorizados são planejamentos experimentais nos quais parte dessa
variabilidade devida a fatores externos conhecidos é controlada.
Um exemplo desse estudo pode ser ilustrado em uma situação onde se deseja
testar a eficiência de diferentes processos de produção para a mesma
finalidade sabendo que a matéria-prima, que é vinda de diferentes
fornecedores pode influenciar no resultado. Aqui não se tem interesse em
testar a matéria prima e sim os processos, no entanto a matéria-prima que
não vem de forma padronizada pode confundir o desempenho dos processos.
Nesta situação, os diferentes lotes de matéria-prima devem ser
tratados como blocos. Dentro do bloco devem ser realizados todos os ensaios
correspondentes aos possíveis tratamentos (ou níveis do fator de
interesse). Ainda dentro do bloco, a associação dos tratamentos ás unidades
experimentais e a ordem de realização dos ensaios devem ser determinadas ao
acaso.
4.2 Formulação Teórica
Para este modelo, vamos considerar em geral, que existem
tratamentos que serão avaliados em blocos. A disposição dos dados é
ilustrada na Tabela abaixo:
" "Blocos " "
"Trat "1 "2 "... "b "Totais "
"1 " " "... " " "
"2 "[pic" "... " " "
" "] " " " " "
" " " " " " "
" " " "... " " "
"Totais " " "... " " "
Nesta situação será coletada apenas uma observação para cada
tratamento (nível do fator), em cada bloco. A maneira como os tratamentos
serão alocados às unidades experimentais e a ordem de realização dos
ensaios, dentro de cada bloco, serão determinadas de modo aleatório. Em
função da primeira aleatorização dos tratamentos com os blocos, dizemos que
os blocos representam uma restrição a aleatorização.
O modelo estatístico para esse experimento é
, e . (4.1)
onde
: observações coletadas sob o i-ésimo tratamento no j-ésimo bloco.
: média geral.
: efeito do i-ésimo tratamento.
: efeito do j-ésimo bloco.
: erro aleatório associado à observação .
Aqui será feita a suposição de que os erros aleatórios são
independentes e distribuídos de forma normal com média zero e variância
, ou seja, . Os tratamentos e blocos serão considerados,
inicialmente, como fatores fixos.
Temos ainda que os efeitos dos tratamentos e dos blocos são definidos
como desvios da média global, de modo que e . Considerando
também que os tratamentos e os blocos não interagem.
Assim, estamos interessados em testar a igualdade dos efeitos do
tratamento. Isto é:
(4.2)
Dessa forma a análise de variância pode ser estendida ao planejamento
em blocos completamente aleatorizados. O procedimento usa a soma de
quadrados total, , que representa uma partição da variabilidade total
das observações em relação à variabilidade explicada pelo tratamento, pelos
blocos e pelo acaso.
(4.3)
Aqui:
: soma da observações no i-ésimo tratamento
: soma da observações no j-ésimo bloco
: soma total
: média das observações no i-ésimo tratamento
: média das observações no j-ésimo bloco
: média geral de todas as observações.
: Total de observações.
A demonstração da partição de pode ser vista em Montegomery,
2001. A identidade da soma quadrática pode ser representada simbolicamente
por
(4.4)
onde,
: Soma de quadrados total.
: Soma de quadrados devido aos tratamentos.
: Soma de quadrados devido aos blocos.
: Soma do quadrado dos resíduos.
O desmembramento do grau de liberdade correspondente a essas somas
quadráticas é dado da seguinte forma. Para observações, terá
graus de liberdade, para tratamentos e blocos, e
terão e graus de liberdade respectivamente. Para
temos graus de liberdade por subtração. A idéia do teste é a mesma do
planejamento completamente aleatorizado, procurando trabalhar com os
quadrados médios. Para este modelo os quadrados médios são:
: Quadrado Médio dos Tratamentos
: Quadrado Médio dos Blocos.
: Quadrado Médio dos Resíduos.
Pode ser demonstrado (ver Montgomery, 2002) que os valores esperados
dessas médias quadráticas são:
(4.5)
(4.6)
(4.7)
Dessa forma, se a hipótese nula for verdadeira de modo que todos os
efeitos do tratamento , então será um estimador não tendencioso
de , enquanto se for falsa, estimará mais um termo
quadrático positivo. O quadrado médio dos resíduos será sempre um estimador
não tendencioso de . Dessa forma para testar a hipótese nula de que os
efeitos dos tratamentos sejam iguais a zero, utilizamos a estatística
que, sob , terá uma distribuição F, com graus de liberdade.
Assim, rejeita-se a hipótese nula , com um nível de significância
, se
O quadro da ANOVA será dado por:
Tabela 4.1 – Quadro da Anova
"Fonte de "SQ "GL "QM " "
"Variação " " " " "
"Tratamentos " " " " "
"Blocos " " " " "
"Erros " " " " "
"Total " " " " "
A estatística , aparece como teste para o efeito dos blocos. A
validade dessa razão como uma estatística de teste para a hipótese nula de
nenhum efeito do bloco é duvidosa, uma vez que os blocos representam uma
restrição à aleatoriedade, ou seja, usamos a aleatoridade apenas dentro dos
blocos. Podemos considerar, se os blocos forem realizados em uma ordem
aleatória, que um valor grande para dá indicativos para efeitos
significativos dos blocos, mas não podemos afirmar esses resultados como
para o teste do efeito dos tratamentos.
4.3-Análise de Resíduos (Verificação da Adequação do Modelo)
Da mesma forma, no caso dos planejamentos em blocos completamente
aleatorizados deve ser verificada a validade das suposições de normalidade
dos erros, igualdade de variância das observações nos tratamentos, nos
blocos e ausência da interação tratamento-bloco. A análise de resíduo é a
principal ferramenta utilizada para esta verificação. Para os planejamentos
em blocos completamente aleatorizados os resíduos são definidos por
(4.8)
As verificações serão feitas por meio do estudo dos gráficos de resíduos
como: Gráficos de resíduos X Valores Ajustados; Gráficos de Resíduos x
Tratamentos; Resíduos x Blocos e Gráfico de probabilidade Normal. Aqui pode-
se também usar o teste de Barllets para testar a igualdade de variâncias e
o teste de ShapiroWilk para Normalidade dos resíduos.
4.4- Comparações Múltiplas.
Da mesma forma pode-se utilizar o teste de Tukey, considerando agora uma
pequena alteração no grau de liberdade do , que agora possui
graus de liberdade e substituir o número n de réplicas pelo número de
blocos b.
4.5 – Aplicação do Software R na analise de dados para o planejamento de
experimento aleatorizado em blocos completos.
Para ilustrarmos a aplicação desse modelo, utilizamos outro problema
proposto em Werkema & Aguiar, (1996) descrito abaixo:
Com o objetivo de reduzir o tempo de reação de um processo químico, uma
indústria resolve realizar um experimento com quatro tipos de catalisadores
(A,B,C e D). No entanto os técnicos perceberam que a matéria-prima
utilizada na reação não era totalmente homogênea e representava uma fonte
de variabilidade que afetava o desempenho do processo. Uma maneira de
contornar este problema consistia em selecionar vários lotes de matéria-
prima e comparar os quatro catalisadores nas condições relativamente
homogêneas dentro de cada lote. Dessa forma, a equipe decidiu usar cinco
lotes disponíveis no estoque da industria e para cada lote extrair quatro
porções de matéria-prima, de modo que cada porção fosse suficiente para
fabricar uma batelada de produto, e alocar aleatoriamente a cada uma destas
porções um dos catalisadores considerados no estudo. Estabeleceu-se a
aleatorização da ordem de realização dos ensaios. Neste caso, cada ensaio
corresponde à produção de uma batelada da substância química utilizando uma
das combinações porção de matéria-prima/catalisador. Portanto estamos
diante de um experimento aleatorizado em blocos completos.
Cada bloco corresponde a um lote de matéria prima e os tratamentos ou
níveis do fator correspondem aos tipos de catalisador. Dentro de um bloco,
a associação dos tratamentos às unidades experimentais e a ordem de
realização dos ensaios são determinadas ao acaso.
Os dados desse experimento estão ilustrados abaixo:
Tabela 4.2: Dados do experimento com Catalisadores
4.5.1 - Entrada de dados e análise descritiva usando o Software R.
Aqui a matriz de planejamento será montada da seguinte forma:
Repostas:
y<- scan() : Depois do comando o próximo passo é entrar com os dados da
resposta.
Montando a variável Bloco e Tratamento:
b<-rep(1:5,each=4) : no caso temos 5 blocos com 4 repetições.
tr<-rep(1:5,4) : no caso temos 4 tratamentos com 5 repetições.
Uma opção mais completa pode ser definida por:
b<-
factor(rep(1:5,each=4),labels=c("Lote1","Lote2","Lote3","Lote4","Lote5"))
tr<- factor(rep(1:4,5),labels=c("A","B","C","D"))
Montando o Data.frame
decab<-data.frame(resp=y,trat=tr,bloco=b)
> decab
resp trat bloco
1 41 A Lote1
2 43 B Lote1
*
*
*
19 38 C Lote5
20 40 D Lote5
Da mesma forma utilizando o comando attach() e tapply(), a um resumo
descritivo considerando os fatores.
attach(decab)
> tapply(resp,trat,summary)
$A
Min. 1st Qu. Median Mean 3rd Qu. Max.
33.0 34.0 39.0 37.4 40.0 41.0
$B
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.0 40.0 42.0 41.4 43.0 45.0
$C
Min. 1st Qu. Median Mean 3rd Qu. Max.
38.0 38.0 43.0 42.4 45.0 48.0
$D
Min. 1st Qu. Median Mean 3rd Qu. Max.
40 41 43 43 45 46
> tapply(resp,bloco,summary)
$Lote1
Min. 1st Qu. Median Mean 3rd Qu. Max.
41.0 42.5 43.0 43.0 43.5 45.0
$Lote2
Min. 1st Qu. Median Mean 3rd Qu. Max.
34.00 36.25 37.50 37.50 38.75 41.00
$Lote3
Min. 1st Qu. Median Mean 3rd Qu. Max.
40.00 43.75 45.00 44.50 45.75 48.00
$Lote4
Min. 1st Qu. Median Mean 3rd Qu. Max.
39.00 41.25 42.50 42.50 43.75 46.00
$Lote5
Min. 1st Qu. Median Mean 3rd Qu. Max.
33.00 36.75 39.00 37.75 40.00 40.00
Uma inspeção gráfica, pode ser obtida pelos comandos:
par(mfrow=c(2,1))
plot(trat,resp,xlab="Tratamento",ylab="Respostas")
plot(bloco,resp,xlab="Bloco",ylab="Respostas")
Figura 4.1: Box-Plot para os tempos de reação segundo tratamento
(catalisador) e bloco (lotes de matéria-prima).
Pela Figura 4.1 e medidas descritivas acima, pode-se observar que parece
haver uma diferença entre os tempos, sendo que o menor tempo de reação
parece estar associado ao catalisador A.
> coplot(resp~trat"bloco,panel=panel.smooth,rows=1,xlab=c("Medidas por
Catalisador", paste("Bloco")),ylab="Tempo de Reação")
O problema agora é verificar se essas diferenças de fato são significativas
ou podem ser de origem aleatória. Para constatarmos se de fato as
diferenças são significativas utilizaremos à análise de variância.
> eb.av<-aov(resp~trat+bloco)
> anova(eb.av)
Analysis of Variance Table
Response: resp
Df Sum Sq Mean Sq F value Pr(>F)
trat 3 95.350 31.783 13.430 0.0003839 ***
bloco 4 165.200 41.300 17.451 6.098e-05 ***
Residuals 12 28.400 2.367
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelo quadro da anova acima, verifica-se que existe diferença entre
tratamentos, com relação aos blocos tem-se uma indicação de que
apresentaram efeito significativo, sendo dessa forma seu uso indispensável
neste experimento.
Detectado a diferença entre tratamentos o próximo passo e identificar de
fato qual dos tratamentos esta diferindo do outro. Nesta etapa vamos
utilizar o teste de Tukey.
Comando:
>TukeyHSD(eb.av)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = resp ~ trat + bloco)
$trat
diff lwr upr
B-A 4.0 1.111354 6.888646
C-A 5.0 2.111354 7.888646
D-A 5.6 2.711354 8.488646
C-B 1.0 -1.888646 3.888646
D-B 1.6 -1.288646 4.488646
D-C 0.6 -2.288646 3.488646
$bloco
diff lwr upr
Lote2-Lote1 -5.50 -8.967325 -2.032675
Lote3-Lote1 1.50 -1.967325 4.967325
Lote4-Lote1 -0.50 -3.967325 2.967325
Lote5-Lote1 -5.25 -8.717325 -1.782675
Lote3-Lote2 7.00 3.532675 10.467325
Lote4-Lote2 5.00 1.532675 8.467325
Lote5-Lote2 0.25 -3.217325 3.717325
Lote4-Lote3 -2.00 -5.467325 1.467325
Lote5-Lote3 -6.75 -10.217325 -3.282675
Lote5-Lote4 -4.75 -8.217325 -1.282675
Percebe-se, através do teste paras diferenças entre tratamentos e o
intervalo de confiança para as diferenças, que o catalisador A proporciona
menor tempo de reação comparado com todos os tratamentos.
Para este modelo devem-se construir os gráficos de resíduos contra valores
ajustados; gráfico de resíduos contra tratamentos; gráfico de resíduos
contra blocos e gráfico de probabilidade normal. Da mesma forma, podem-se
utilizar alguns testes para verificar as hipóteses de variância constante e
normalidade dos dados.
Na Figura abaixo contém os gráficos descritos acima, para a análise de
resíduos.
Figura 4.2: Gráficos para Análise de Resíduo do modelo de planejamento de
experimentos em blocos completos.
A seqüência dos comandos para a análise de resíduos da Figura 4.2, é
descrita abaixo:
> par(mfrow=c(2,2))
> plot(eb.av$fit,eb.av$res,xlab="Valores
Ajustados",ylab="Resíduos",col="blue")
> plot(trat,eb.av$res,xlab="Tratamentos",ylab="Resíduos",col="blue")
> plot(bloco,eb.av$res,xlab="Blocos",ylab="Resíduos",col="blue")
> qqnorm(eb.av$res,xlab="Quantil da Normal",ylab="Resíduos",col="blue")
> qqline(eb.av$res)
Pela Figura 4.2, parece não existir nenhuma violação grave na suposição do
modelo. Aplicando os testes de normalidade e homogeneidade de variâncias
tem-se os seguintes resultados:
Para o teste da Normalidade dos Resíduos temos:
> shapiro.test(eb.av$res)
Shapiro-Wilk normality test
data: eb.av$res
W = 0.9217, p-value = 0.1066
Para testar a homogeneidade das variâncias temos:
> bartlett.test(eb.av$res,trat)
Bartlett test of homogeneity of variances
data: eb.av$res and trat
Bartlett's K-squared = 0.8093, df = 3, p-value = 0.8472
>bartlett.test(eb.av$res,bloco)
Bartlett test of homogeneity of variances
data: eb.av$res and bloco
Bartlett's K-squared = 0.5292, df = 4, p-value = 0.9706
Como a suposições de normalidade e nem de variância constante foram
rejeitadas, pode-se considerar o modelo como válido e a análise encerrada.
4.6- Conclusões Finais
Existe diferença entre o tempo médio de reação entre os tratamentos,
sendo que o Catalisador A apresenta menor tempo de reação.
O modelo utilizado na análise se mostrou apropriado, sem apresentar
violações.
Dessa forma recomenda-se a utilização do Catalisador A na produção,
pois irá aumentar a produtividade do processo.
4.7- Exercícios do Capítulo
1- Um experimento foi conduzido a fim de investigar o escapamento de
corrente elétrica em um aparelho SOS MOSFETS. A finalidade do
experimento foi investigar como o escapamento de corrente varia com o
comprimento do canal. Quatro comprimentos diferentes foram
selecionados. Para cada comprimento do canal, cinco larguras
diferentes foram também usadas. A largura deve ser considerada como
fator pertubador. Eis os dados.
2- No artigo intitulado "O efeito do projeto do bocal na estabilidade e
desempenho de jatos turbulentos de água", na revista Fire Safety
Journal,Vol.4,agosto de 1981,C.Theobald descreve um experimento em que
uma medida da forma foi determinada para vários tipos diferentes de
bocais, com níveis diferentes de velocidade do jato de saída. O
interesse nesse experimento está principalmente no tipo de bocal,
sendo a velocidade um fator que provoca distúrbio. Os dados são
apresentados a seguir.
O tipo de bocal afeta a medida da forma? Compare os bocais,
usando os diagramas de caixa e a análise de variância.
Compare as diferenças entre os bocais utilizando o gráfico box-
plot.
Faça a análise de resíduos para o modelo.
3- Um experimento foi realizado para determinar o efeito de quatro tipos
diferentes de ponteiras em um teste de dureza de uma liga metálica.
Quatro corpos de prova da liga foram obtidos e cada ponteira foi
testada uma vez em cada corpo de prova, produzindo os seguintes dados:
Faça uma análise de variância completa para checar se existe
diferença nas medidas de dureza entre as ponteiras.
Capítulo 5 – Planejamentos Fatorias
Em muitas situações práticas podemos ter interesse em estudar o efeito de
dois ou mais fatores, nestas situações um experimento fatorial deve ser
utilizado. Nos experimentos fatorias, os fatores variam de forma
simultânea, especificamente, queremos dizer que em cada tentativa completa
ou replicação do experimento, são investigadas todas as combinações dos
níveis dos fatores. Por exemplo, se há dois fatores A e B, com níveis
para o fator A e níveis para o fator B, então cada replicação contém
todas as combinações possíveis.
O efeito de um fator é definido como a mudança na resposta produzida por
uma mudança no nível do fator. Isso é chamado efeito principal, porque se
refere aos fatores principais no estudo.
Se a diferença na resposta entre os níveis de um fator não é a mesma em
todos os níveis dos outros fatores, então esse efeito é chamado de
interação. Abaixo apresentamos exemplos gráficos de planejamentos com dois
fatores com e sem interação.
Figura 5.1: Sem Interação
Figura 5.2: Presença de Interação
5.1- Planejamento Fatorial com dois fatores.
Vamos considerar neste caso o planejamento com dois fatores. Aqui
consideramos A e B, com e níveis respectivamente. Se o
experimento é replicado vezes, a disposição dos dados pode ser
ilustrada na tabela abaixo:
Tabela 5.1: Disposição dos dados para um experimento fatorial com dois
fatores
" "Fator B "
"Fator A "1 "2 "… " "
"1 " " " " "
" " " "… " "
"2 " " " " "
" " " "… " "
" " " " " "
" " " " " "
" " " "… " "
Em geral, a observação na ij-ésima cela na k-ésima repetição é . Aqui,
na coleta de dados, as observações devem ser feitas em ordem
aleatória. O planejamento fatorial com dois fatores é um planejamento
completamente aleatorizado. Vamos supor, inicialmente, que ambos os fatores
tenham efeitos fixos.
O modelo matemático para observações de um experimento fatorial com dois
fatores é dado por
; (5.1)
onde:
: é o efeito médio geral
: é o efeito do i-ésimo nível do fator A.
: é o efeito do j-ésimo nível do fator B.
: é o efeito da interação entre A e B.
: é o erro aleatório. Da mesma forma, vamos considerar que
Ambos os fatores são considerados fixos, e o efeito dos tratamentos são
definidos como desvios da média geral, dessa forma e .
Similarmente os efeitos da interação são considerados fixos e são definidos
de forma que . Como existirão réplicas no experimento, tem-se um
total de observações.
No experimento fatorial com dois fatores, tem-se interesse em testar o
efeito dos dois fatores. Especificamente, estamos interessados em testes de
hipóteses sobre a igualdade do efeito do tratamento das linhas (Fator A)
(5.2)
E a igualdade de efeito do tratamento das colunas (Fator B).
(5.3)
Também, tem-se interesse em se testar o efeito da interação entre linhas e
colunas, ou seja,
(5.4)
5.1.1- Análise Estatística para o modelo de efeitos fixos.
Sejam o total das observações no i-ésimo nível do fator A, o
total das observações no j-ésimo nível do fator B, o total das
observações na ij-ésima cela da Tabela 1, e , , e como
as correspondentes médias de linha, coluna, cela e total. Isto é,
;
;
;
A análise de variância decompõe a soma de quadrados total
(5.5)
Da seguinte forma:
.
Ou, simbolicamente,
(5.6)
A decomposição dos graus de liberdade é ilustrada na tabela abaixo:
Tabela 5.2 – Decomposição dos graus de liberdade.
"Efeito "Graus de Liberdade "
"A " "
"B " "
"Interação AB " "
"Erro " "
"Total " "
Cada soma de quadrados dividido pelos respectivos graus de liberdade
formam os quadrados médios. Assim
: Quadrado médio do tratamento A.
: Quadrado médio do tratamento B.
: Quadrado médio da Interação.
: Quadrado médio dos Erros.
Os valores esperados dos quadrados médios são:
(5.7)
(5.8)
(5.9)
(5.10)
Note que se as hipóteses nulas sobre o efeito das linhas A, efeitos das
colunas B e da interação AB são verdadeiras então são todos
estimativas de .
Dessa forma, se existe diferenças entre os efeitos dos tratamentos em A,
então será maior que . Similarmente, se existe diferenças nos
efeitos dos tratamentos em B, ou na interação AB, então a correspondente
média quadrática será maior que . Portanto o teste de significância de
ambos os efeitos e interações, é simplesmente usar a razão entre as médias
quadráticas e o quadrado médio dos resíduos .
Se for assumido que o modelo da equação 5.1 é adequado e que os são
independentes e identicamente distribuídos de forma normal com variância
constante , então cada razão de quadrados médios , e
é distribuído como uma com , e graus de liberdade do
numerador respectivamente e graus de liberdade do denominador. A
região critica para um teste com nível de significância, será valores
da razão de quadrados que exceder o quantil da com um nível e
respectivos graus de liberdade.
O procedimento é resumido na tabela de Análise de Variância abaixo:
Tabela 5.3 – Quadro da ANOVA
"Fonte de "Soma de "Graus de " Quadrado Médio " "
"Variação "Quadrados "Liberdade " " "
" " " " " "
"A " " " " "
" " " " " "
"B " " " " "
" " " " " "
"Interação " " " " "
" " " " " "
"Erro " " " " "
" " " " " "
"Total " " " " "
5.1.2- Análise de Resíduo para o Modelo Fatorial com 2 fatores fixos.
Do mesmo modo que nos experimentos com um fator, discutidos anteriormente,
os resíduos de um experimento fatorial desempenham papel importante na
garantia de adequação do modelo. Os resíduos de um experimento fatorial de
dois fatores são
(5.11)
Isto é, os resíduos são, simplesmente, a diferença entre as observações e
as médias das celas correspondentes (ver Montgomery, 2001). Da mesma forma
a utilização de gráficos e testes para checar a adequação das suposições
serão de grande importância. Para o modelo fatorial de dois fatores A e B,
destacamos os seguintes gráficos e testes.
1. Gráfico da probabilidade normal. Usado com os resíduos, checa se os
mesmos seguem uma distribuição normal. Aqui também utiliza-se o teste
de normalidade como por exemplo Shapiro-Wilky.
2. Gráfico de resíduos X níveis do fator A. Checa a homogeneidade da
variância nos níveis de A.
3. Gráfico de resíduos X níveis do fator B. Checa a homogeneidade da
variância nos níveis de B.
4. Gráfico de resíduos X valores preditos . Checa a homogeneidade da
variância de forma geral. Para testar a homogeneidade da variância
pode-se usar o teste de Bartey.
5. Gráfico de resíduos X Ordem de coleta. Checa a suposição de
independência entre as observações.
Se forem observadas evidências de fortes violações na suposição do modelo,
esse deve ser invalidado ou deve-se proceder a transformações dos dados
originais (ver Montgomery, 2001).
5.1.3- Comparações Múltiplas
Identificado o efeito significativo nos níveis dos fatores, deve-se
utilizar um teste de comparações múltiplas, para a identificação das
diferenças específicas. Novamente será utilizado nesta fase o teste de
comparações múltiplas de Tukey.
Vale ressaltar que quando a interação é significativa, a comparação entre
médias de um mesmo fator pode ser mascarada pelo efeito da interação. Uma
alternativa para essa situação é por exemplo fixar o fator B em um nível
específico e aplicar o teste Tukey para as médias do fator A neste nível
fixado.
5.2- O Modelo de Planejamento Fatorial Geral
Os resultados do experimento fatorial com dois fatores podem ser facilmente
estendidos para o caso geral onde existem níveis do fator A,
níveis do fator B, níveis do fator C, e assim por diante. No
geral, existirão observações totais para réplicas completas do
experimento. Aqui, deve-se ter no mínimo duas réplicas () para
determinar as somas de quadrados envolvidas no modelo.
Se todos os fatores no experimento são fixos, pode-se facilmente formular e
testar hipóteses sobre os efeitos principais e interações. Neste caso,
testes estatísticos para cada efeito principal e interação podem ser
construídos pela divisão da correspondente média de quadrados dos efeitos
ou interação pela média quadrática dos erros. Todos são testes ,
unilaterais a direita. O número de graus de liberdade para os efeitos
principais é o número de níveis do fator menos um e o número de graus de
liberdade para interação é o produto do número de graus de liberdade
associado com os componentes individuais da interação. Por exemplo,
considerando o modelo com três fatores temos:
, com
(5.12)
Assumindo que A,B e C são fixados, a tabela resumo da análise de
variância, incluindo a esperança dos quadrados médios é dada abaixo.
Tabela 5.4 – Quadro da Anova (Modelo Fatorial com Três Fatores)
"Fonte "Soma de "Graus de "Quadrado"Esperança da Média " "
"de "Quadrados"Liberdade "Médio "Quadrática " "
"Variaçã" " " " " "
"o " " " " " "
"A " " " " " "
"B " " " " " "
"C " " " " " "
"AB " " " " " "
"AC " " "[pi" " "
" " " "c] " " "
"BC " " " " " "
"ABC " " "[pi" " "
" " " "c] " " "
"Erro " " " " " "
"Total " " " " " "
A soma de quadrados total é encontrada da mesma forma anterior, sendo dada
por
(5.13)
As somas de quadrados dos efeitos principais são encontradas a partir dos
totais dos fatores A, Be C como segue
(5.14)
(5.15)
(5.16)
A soma de quadrados dos efeitos das interações, com dois fatores, é dada
para cada par como:
(5.17)
(5.18)
(5.19)
A soma de quadrados da interação de três fatores A, B e C é dada por:
(5.20)
Por fim a soma de quadrados dos erros é obtida da seguinte forma:
(5.21)
O procedimento de análise é semelhante aos modelos anteriores, comparando a
estatística com a distribuição tabela com os respectivos graus
de liberdade.
5.3 – Aplicação do Software R na analise de dados para o Planejamento de
Experimentos Fatoriais .
Novamente, para ilustrarmos a aplicação desse modelo, utilizamos outro
problema proposto em Werkema & Aguiar, (1996) descrito abaixo:
Em uma indústria fabricante de equipamentos eletrônicos uma furadeira é
utilizada para furar as placas de circuito impresso produzidas. Com o
objetivo de reduzir a variabilidade do processo de furação, a equipe do
controle de qualidade, decidiu planejar um experimento para identificar os
fatores responsáveis pela elevada variabilidade. Foi decidido estudar dois
fatores potencialmente influentes sobre a variabilidade do processo:
velocidade de rotação (Fator A) e diâmetro (Fator B) da broca utilizada na
furadeira. Foram escolhidos três níveis para cada fator: , e
polegadas para o diâmetro e 40, 60 e 80 rpm para a velocidade de
rotação da broca. Aqui foi decidido realizar um experimento fatorial com
quatro réplicas. Como era muito difícil medir diretamente a variação no
diâmetro dos furos, foi decidido medi-la indiretamente pela vibração que
ocorria na placa que esta correlacionada com a variação. Dessa forma, em
trinta e seis placas de teste foram instalados acelerômetros que permitiam
medir a vibração nos eixos coordenados (X,Y,Z) das placas.
Deve-se salientar que a placa utilizada em cada ensaio foi escolhida ao
acaso e a ordem de realização dos ensaios também foi determinada
aleatoriamente.
Os dados do Experimento estão ilustrados na tabela abaixo:
Tabela 5.5: Dados do Experimento Velocidade X Diâmetro da Broca
5.3.1 - Entrada de dados e análise descritiva usando o Software R.
Aqui a matriz de planejamento será montada da seguinte forma:
y<- scan() : Depois do comando o próximo passo é entrar com os dados da
resposta.
Montando os Fatores:
d1<-factor(rep(1:3,each=12),labels=c("D1","D2","D3")) : Vetor que
caracteriza os diâmetros.
v1<-factor(rep(rep(1:3,each=4),3),labels=c("V1","V2","V3")) : Vetor que
caracteriza as velocidades. Dessa forma o data.frame será:
defca<-data.frame(resp=y, diam=d1,vel=v1)
> debca
resp diam vel
1 10.6 D1 V1
2 16.8 D1 V1
*
*
*
35 35.5 D3 V3
36 31.9 D3 V3
Da mesma forma utilizando o comando attach() e tapply(), a um resumo
descritivo considerando respectivamente:Média por velocidade, Média por
Diâmetro e Média por Velocidade X Diâmetro
> tapply(resp,vel,mean)
V1 V2 V3
16.14167 21.54167 23.55000
> tapply(resp,diam,mean)
D1 D2 D3
14.52500 20.10833 26.60000
> tapply(resp,list(vel,diam),mean)
D1 D2 D3
V1 14.425 12.975 21.025
V2 14.375 23.450 26.800
V3 14.775 23.900 31.975
Pelas descrições apresentadas acima, parece haver diferenças entre níveis
de velocidade, níveis de diâmetro e também diferenças entre as interações.
Para confirmar tal indicação procede-se a análise de variância.
5.3.2 - Análise de Variância, Comparações Múltiplas e Análise de Resíduos.
Os comandos para análise de variância do modelo fatorial são dados por:
> avdefca<-aov(resp~vel*diam)
> anova(avdefca)
Analysis of Variance Table
Response: resp
Df Sum Sq Mean Sq F value Pr(>F)
vel 2 352.31 176.15 31.9001 7.749e-08 ***
diam 2 876.48 438.24 79.3624 4.939e-12 ***
vel:diam 4 193.83 48.46 8.7753 0.0001129 ***
Residuals 27 149.10 5.52
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Por meio dos resultados no quadro da anova foi possível concluir que a
velocidade, o diâmetro da broca e também a interação entre estes dois
fatores afetavam a vibração da superfície das placas durante o processo de
furação.Para auxiliar a interpretação de como os fatores exercem seus
efeitos sugerimos uma inspeção gráfica ilustrando as médias por fatores e
os gráficos de interação. A seqüência de comandos para se realizar uma
inspeção gráfica é descrita abaixo:
par(mfrow=c(2,2))
plot(diam,resp,xlab="Diâmetro",ylab="Vibração",col="blue")
plot(vel,resp,xlab="Velocidade",ylab="Vibração",col="blue")
interaction.plot(vel,diam,resp,trace.label=("Diâmetro"),xlab="Velocidade",yl
ab="Vibração Média",col="blue")
interaction.plot(diam,vel,resp,trace.label=("Velocidade"),xlab="Diâmetro",yl
ab="Vibração Média",col="blue")
Figura 5.3: Box-Plot para a vibração segundo os fatores Diâmetro e
Velocidade e os Gráficos de Interação entre os Fatores.
Pela Figura 5.3, constata-se o fato de que a interação era significativa,
indicado pela ausência de paralelismo entre as linhas. A partir da análise
desta figura, é possível obter uma indicação de que a vibração foi baixa
para a broca D1 (1/16) em qualquer velocidade de rotação e para a broca D2
(1/12), na velocidade de 40 rpm. Sabe-se que quanto menores fossem o
diâmetro e a velocidade de rotação, mais baixo era a taxa de produção da
furadeira e ainda que a taxa de produção era mais afetada pelas variações
de velocidade do que pelas variações no diâmetro da broca. Portanto para
manter uma taxa de produção satisfatória, a melhor condição de operação do
processo parece ser utilizar a broca D1 (1/16) com velocidade de rotação
igual a 80 rpm.
Para confirmar os resultados acima procedemos a comparações múltiplas.
>TukeyHSD(avdefca)
Este comando gera todas as possíveis comparações múltiplas, no entanto como
o efeito das interações foi significativo, tem-se um interesse maior por
estas comparações. Assim
>TukeyHSD(avdefca,"vel:diam",ordered=T)
Este comando vai gerar todas as combinações para as interações,
selecionando as interações que de interesse tem-se:
$"vel:diam"
diff lwr upr
V1:D1-V2:D1 0.050 -5.5408860 5.640886
V3:D1-V2:D1 0.400 -5.1908860 5.990886
V3:D1-V1:D1 0.350 -5.2408860 5.940886
Podemos ver que o não existe diferença significativa entre os níveis de
velocidade e o nível do diâmetro em D1. Podemos confirmar, através do
desdobramento da análise de variância da interação que a interação no nível
D1 não é significativa.
Vamos desdobrar os efeitos da velocidade em cada nível do diâmetro
utilizando o comando de efeito alinhado ( / ). O comando é ilustrado
abaixo.
> av2f<-aov(resp~diam/vel)
> summary(av2f,split=list("diam:vel"=list(D1=1,D2=2,D3=3)))
Df Sum Sq Mean Sq F value Pr(>F)
diam 2 876.48 438.24 79.3624 4.939e-12
***
diam:vel 6 546.14 91.02 16.4836 6.766e-08 ***
diam:vel: D1 1 0.13 0.13 0.0244 0.876915
diam:vel: D2 1 67.00 67.00 12.1333 0.001705 **
diam:vel: D3 1 0.24 0.24 0.0435 0.836422
Residuals 27 149.10 5.52
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Para este modelo deve-se construir para a análise de resíduos os gráficos
de resíduos contra ordem, gráfico de resíduos contra valores ajustados,
gráfico de resíduos contra fator velocidade, gráfico de resíduos contra
fator diâmetro e gráfico de probabilidade normal.
Da mesma forma, pode-se utilizar alguns testes para verificar as hipóteses
de independência, variância constante e normalidade dos dados. A seqüência
dos comandos para geração dos gráficos é dada por:
par(mfrow=c(3,2))
plot(ordem,avf$res,xlab="Ordem",ylab="Resíduos",col="blue")
plot(avf$fit,avf$res,xlab="Valores Ajustados",ylab="Resíduos",col="blue")
plot(vel,avf$res,xlab="Velocidade",ylab="Resíduos",col="blue")
plot(diam,avf$res,xlab="Diâmetro",ylab="Resíduos",col="blue")
qqnorm(avf$res,xlab="Quantil da Normal",ylab="Resíduos",col="blue")
qqline(avf$res)
Figura 5.4: Gráficos para Análise de Resíduo do modelo de Planejamento
Fatorial.
Para o teste da Normalidade dos Resíduos temos:
> shapiro.test(avf$res)
Shapiro-Wilk normality test
data: avf$res
W = 0.9457, p-value = 0.07633
Para testar a homogeneidade das variâncias temos:
> bartlett.test(avf$res,vel)
Bartlett test of homogeneity of variances
data: avf$res and vel
Bartlett's K-squared = 0.7899, df = 2, p-value = 0.6737
> bartlett.test(avf$res,diam)
Bartlett test of homogeneity of variances
data: avf$res and diam
Bartlett's K-squared = 0.8408, df = 2, p-value = 0.6568
Como a suposições de normalidade e nem de variância constante foram
rejeitadas, pode-se considerar o modelo como válido e a análise encerrada.
5.4- Conclusões Finais
Os efeitos da velocidade, broca e a interação broca X velocidade
são significativos;
A vibração foi baixa para a broca D1 (1/16) em qualquer
velocidade de rotação;
A melhor condição de funcionamento, considerando alto índice de
produção e baixa vibração é a combinação: broca D1 e velocidade
de rotação igual a 80 rpm.
Todas as suposições foram testadas e nenhuma foi violada.
5.5- Exercícios do Capítulo
1- Um experimento envolve uma bateria usada no mecanismo de lançamento de
um míssil. Dois tipos de materiais podem ser usados para fazer as
placas da bateria. O objetivo é projetar uma que não seja
relativamente afetada pela temperatura ambiente. A resposta da saída
da bateria é a vida efetiva em horas. Dois níveis de temperatura são
selecionados e um experimento fatorial com quatro réplicas é corrido.
Os dados são mostrados a seguir.
2- Um experimento foi utilizado para avaliar a adesão de tintas zarções
para aviões. Existem dois métodos de aplicação: imerção e aspersão, e
três tipos de zarção. Três corpos de prova foram pintados com cada
zarção usando um dos métodos de aplicação.Os dados dos experimentos
estão mostrados na tabela abaixo.
Identifique, atravêz da analise fatorial o melhor método e tipo
de tinta para melhorar a adesão da tinta.
3- Um experimento foi realizado para estudar o efeito do tipo do vidro e
do tipo do fósforo sobre o brilho de um tubo de televisão. A resposta
media é a corrente necessária (em microamps) para se obter determinado
nível de brilho. Os dados são mostrados abaixo. Analise-os e tire
conclusões.
Capítulo 6 – Planejamento Hierarquico
Nos planejamentos experimentais, quando existe a presença de dois ou mais
fatores a forma como os fatores estão relacionados interfere na análise.
Quando o relacionamento é cruzado, ou seja, os níveis de um fator são
identicos em
todos os níveis do outro fator a análise é realizada como nas formas
descritas anteriormente. No entanto, quando o relacionamento é hierárquico,
ou seja, cada nível de um fator está associado a um diferente conjunto de
níveis do segundo fator, procede-se aos experimentos hierárquicos.
Figura 6.1- Estrutura de um Experimento com Dois Fatores Cruzados
Figura 6.1- Estrutura de um Experimento com Fatores Hierárquicos
6.1- O modelo Estatístico
O modelo estatístico para o planejamento hierárquico com dois fatores fixos
pode ser dado por:
com (6.1)
onde
: média global comum a todos os tratamentos.
: efeito do i-ésimo nível do fator A.
: efeito do j-ésimo nível do fator B aninhado sob o i-ésimo nível do
fator A.
: componente do erro aleatório, onde
Neste modelo existem níveis para o fator A, níveis para o fator B
aninhados sob cada nível de A e réplicas. O índice indica que o
j-ésimo nível do fator B está aninhado sob o i-ésimo nível do fator A.
É importante destacar que não pode existir interação entre os fatores A e B
em um experimento hierárquico, já que cada nível do fator A está associado
a um diferente conjunto de níveis do fator B.
Nos planejamentos hierárquicos estaremos interessados em testar as
seguintes hipóteses:
Ausência de efeitos do fator A:
para pelo menos um
. (6.2)
Ausência de efeitos do fator B dentro de cada nível do fator A.
, para todo .
, para pelo menos uma combinação
. (6.3)
Da mesma forma, o procedimento utilizado para testar as hipóteses acima
consiste em decompor a variabilidade total dos dados em parcelas de
variabilidade devidas aos efeitos do fator A, do fator B aninhado em A e do
erro aleatório. É possível mostrar que a soma de quadrados total,, que
é uma medida da variabilidade total das observações, pode ser expressa por:
(6.4)
A equação (6.4) pode ser expressa simbolicamente por:
(6.5)
onde
: soma de quadrados devida ao fator A.
: soma de quadrados devida ao fator B sob os níveis de A.
: soma de quadrados residual.
O quadro geral da anova para o modelo hierárquico é descrito abaixo:
Tabela 6.1- Quadro da ANOVA
"Fonte de "SQ "GL "QM " "
"Variação " " " " "
"Fator A " " " " "
"Fator B(A) " " " " "
"Erros " " " " "
"Total " " " " "
O procedimento de análise é semelhante aos modelos anteriores, comparando a
estatística com a distribuição tabela com os respectivos graus
de liberdade.
6.2 Análise de resíduo e comparações múltiplas.
Os resíduos de um experimento hierárquico com dois fatores são definidos
por
(6.6)
Aqui os gráficos utilizados aqui são: Gráfico da probabilidade normal,
Gráfico de resíduos X níveis do fator A, Gráfico de resíduos X valores
preditos e Gráfico de resíduos X Ordem de coleta. Buscando checar as
suposições de normalidade, variação constante e suposição de independência
dos resíduos.
Se forem observadas evidências de fortes violações na suposição do modelo,
esse deve ser invalidado ou deve-se proceder a transformações dos dados
originais (ver Montgomery, 2001).
Aqui o teste Tukey também é utilizado para comparações múltiplas.
6.3 – Aplicação do Software R na analise de dados para o Planejamento
Hierárquico.
Novamente, para ilustrarmos a aplicação desse modelo, utilizamos outro
problema proposto em Werkema & Aguiar, (1996) descrito abaixo:
Considere uma indústria de autopeças que produz um determinado tipo de peça
empregando quatro máquinas de marcas diferentes, sendo cada máquina
controlada por dois diferentes operadores em sistema de rodízio. A
principal característica de qualidade das peças fabricadas é o seu
diâmetro, que deve satisfazer à especificação 30,83±0,16. O processo de
produção vinha apresentando uma elevada variabilidade e, conseqüentemente,
não vinha sendo capaz de atender as especificações (Montgomery, 2004). A
equipe técnica responsável pelo processo suspeitava que a variabilidade no
diâmetro das peças pudesse estar sendo provocada, principalmente por
diferenças entre as máquinas. Para avaliar essa suspeita, a equipe decidiu
realizar um experimento onde foram medidos os diâmetros de três peças
produzidas por cada operador de cada uma das máquinas. Os dados do
experimento foram coletados em ordem aleatória e estão ilustrados na Tabela
abaixo:
Os dados do Experimento estão ilustrados na Tabela abaixo:
Tabela 6.2 : Dados do Experimento Maquina X Operador.
6.3.1 - Entrada de dados e análise descritiva usando o Software R.
Aqui a matriz de planejamento será montada da seguinte forma:
Repostas:
y<- scan() : Depois do comando o próximo passo é entrar com os dados da
resposta.
oh m<-factor(rep(1:4,each=6),labels=c("M1","M2","M3","M4")) : vetor
associado as máquinas.
> o<-factor(rep(rep(1:2,each=3),4),labels=c("O1","O2")) : vetor associado
aos operadores.
Montando o data.frame
> dh<-data.frame(resp=y,maq=m,op=o)
Assim, a disposição dos dados fica da forma:
resp maq op
1 30.66 M1 O1
2 30.78 M1 O1
*
*
*
24 30.89 M4 O2
Da mesma forma para a descrição dos dados, temos:
> attach(dh)
> tapply(resp,maq,summary)
Resumo por Máquina
$M1
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.66 30.79 30.84 30.83 30.87 31.00
$M2
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.67 30.77 30.88 30.85 30.97 30.97
$M3
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.69 30.71 30.85 30.85 30.99 31.03
$M4
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.69 30.73 30.83 30.86 31.00 31.09
Resumo descritivo por operador
> tapply(resp,op,summary)
$O1
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.66 30.76 30.88 30.86 30.97 31.03
$O2
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.67 30.74 30.83 30.84 30.92 31.09
Figura 12 – Média por Máquina e por Operadores
Como nesse planejamento o efeito é hieráquico, não devemos analisar a
diferença entre operadores somente em dois níveis, pois o que ocorre na
verdade é que são duplas diferentes de operadores para cada máquina.
6.3.2 - Análise de Variância, Comparações Múltiplas e Análise de Resíduos.
> dh.av<-aov(resp~maq/op,data=dh)
> anova(dh.av)
Analysis of Variance Table
Response: resp
Df Sum Sq Mean Sq F value Pr(>F)
maq 3 0.00355 0.00118 0.2676 0.8478
maq:op 4 0.34028 0.08507 19.2613 5.829e-06 ***
Residuals 16 0.07067 0.00442
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelos resultados no quadro da anova acima, é possível concluir que as
máquina não exercem um efeito significativo sobre o diâmetro das peças, no
entanto para cada máquina, os diâmetros das peças produzidas pelos dois
operadores diferiam de modo significativo.
Para evidenciar os resultados acima, procede-se a comparações múltiplas.
> TukeyHSD(dh.av,ordered=T)
Tukey multiple comparisons of means
95% family-wise confidence level
factor levels have been ordered
Fit: aov(formula = resp ~ maq/op, data = dh)
$maq
diff lwr upr
M3-M1 0.021666667 -0.08810937 0.1314427
M2-M1 0.023333333 -0.08644270 0.1331094
M4-M1 0.033333333 -0.07644270 0.1431094
M2-M3 0.001666667 -0.10810937 0.1114427
M4-M3 0.011666667 -0.09810937 0.1214427
M4-M2 0.010000000 -0.09977604 0.1197760
$"maq:op"
diff lwr
upr
M4:O1-M3:O2 0.01000000 -0.177865767 0.1978658
M2:O2-M3:O2 0.03000000 -0.157865767 0.2178658
M1:O1-M3:O2 0.04000000 -0.147865767 0.2278658
M1:O2-M3:O2 0.19333333 0.005467567 0.3811991
M2:O1-M3:O2 0.25000000 0.062134233 0.4378658
M3:O1-M3:O2 0.27666667 0.088800900 0.4645324
M4:O2-M3:O2 0.29000000 0.102134233 0.4778658
M2:O2-M4:O1 0.02000000 -0.167865767 0.2078658
M1:O1-M4:O1 0.03000000 -0.157865767 0.2178658
M1:O2-M4:O1 0.18333333 -0.004532433 0.3711991
M2:O1-M4:O1 0.24000000 0.052134233 0.4278658
M3:O1-M4:O1 0.26666667 0.078800900 0.4545324
M4:O2-M4:O1 0.28000000 0.092134233 0.4678658
M1:O1-M2:O2 0.01000000 -0.177865767 0.1978658
M1:O2-M2:O2 0.16333333 -0.024532433 0.3511991
M2:O1-M2:O2 0.22000000 0.032134233 0.4078658
M3:O1-M2:O2 0.24666667 0.058800900 0.4345324
M4:O2-M2:O2 0.26000000 0.072134233 0.4478658
M1:O2-M1:O1 0.15333333 -0.034532433 0.3411991
M2:O1-M1:O1 0.21000000 0.022134233 0.3978658
M3:O1-M1:O1 0.23666667 0.048800900 0.4245324
M4:O2-M1:O1 0.25000000 0.062134233 0.4378658
M2:O1-M1:O2 0.05666667 -0.131199100 0.2445324
M3:O1-M1:O2 0.08333333 -0.104532433 0.2711991
M4:O2-M1:O2 0.09666667 -0.091199100 0.2845324
M3:O1-M2:O1 0.02666667 -0.161199100 0.2145324
M4:O2-M2:O1 0.04000000 -0.147865767 0.2278658
M4:O2-M3:O1 0.01333333 -0.174532433 0.2011991
Pelo quadro acima, verifica-se que as máquinas não exercem efeitos
significativos e que operadores nas máquinas diferem quanto aos diâmetros
produzidos (negrito). Um estudo descritivo pode nós auxiliar, apontandos as
principais diferenças ocorridas.
> tapply(resp,list(maq,op),mean)
O1 O2
M1 30.75333 30.90667
M2 30.96333 30.74333
M3 30.99000 30.71333
M4 30.72333 31.00333
Ordenando essa matriz, percebe-se dois grupos de trabalhadores operando de
maneiras distintas
(M3O2) 30.71333 (M1O2) 30.90667
(M4O1) 30.72333 (M2O1) 30.96333
(M2O2) 30.74333 (M3O2) 30.99000
(M1O1) 30.75333 (M4O2) 31.00333
O primeiro grupo, três primeiros, trabalhando muito próximos do limite
inferior e os três ultimos muito próximos do limite superior. De posse
dessa informações recomenda-se instituir uma programa de treinamento e
padronização de procedimentos.
Para a análise de resíduos temos a seguinte seqüência de comandos:
>g1<-tapply(resp,list(maquina:operador),mean)
>sort(g1)
Maq3:Op2 Maq4:Op1 Maq2:Op2 Maq1:Op1 Maq1:Op2 Maq2:Op1 Maq3:Op1 Maq4:Op2
30.71333 30.72333 30.74333 30.75333 30.90667 30.96333 30.99000 31.00333
>barplot(sort(g1),ylim=c(30.70,31.01))
> par(mfrow=c(2,2))
> plot(oh,dh.av$res,xlab="Ordem",ylab="Resíduos",col="blue")
>plot(dh.av$fit,dh.av$res,xlab="Valores
Ajustados",ylab="Resíduos",col="blue")
> plot(maq,dh.av$res,xlab="Máquina",ylab="Resíduos",col="blue")
> qqnorm(dh.av$res,xlab="Quantil da Normal",ylab="Resíduos",col="blue")
> qqline(dh.av$res)
Figura 12: Gráficos para Análise de Resíduo do modelo de Planejamento
Hierárquico.
Para o teste da Normalidade dos Resíduos temos:
> shapiro.test(dh.av$res)
Shapiro-Wilk normality test
data: dh.av$res
W = 0.9811, p-value = 0.9153
> bartlett.test(dh.av$res,maq)
Bartlett test of homogeneity of variances
data: dh.av$res and maq
Bartlett's K-squared = 2.2514, df = 3, p-value = 0.5219
Como a suposições de normalidade e nem de variância constante foram
rejeitadas, pode-se considerar o modelo como válido e a análise encerrada.
6.4- Conclusões Finais
As máquinas não exercem um efeito significativo sobre o diâmetro das
peças;
Para cada máquina os diâmetros produzidos pelos operadores diferiam;
Foi identificado padrões diferentes de produção entre os operadores,
sugerindo um programa de capacitação;
As suposições do modelo não foram violadas.
6.5- Exercícios do Capítulo:
1. Para comparar o grau de alfabetização dos alunos de diferentes
professores de diferentes escolas, um pesquisador sorteou três escolas
da mesma região administrativa e, dentro de cada escola, sorteou
quatro professores que ensinavam a ler e a escrever. Depois, sorteou
cinco alunos de cada professor. Submeteu então todos os alunos à mesma
prova. As notas dos alunos, nessa prova, estão apresentadas na Tabela
abaixo. Faça a análise de variância para este caso.
2. Uma retífica de motores deseja investigar o motivo do grande tempo
gasto para a realização do serviço de retífica do motor tipo A. A
empresa possuia três máquinas diferentes que faziam o trabalho de
retífica e que cada máquina era controlada por dois operadores fixos.
A equipe técnica da empresa estava considerando que a causa para o
elevado tempo de retífica poderia ser diferenças entre máquinas e/ou
diferenças entre operadores. O experimento foi conduzido de tal forma
que cada operador ficou responsável pela retífica de 6 peças,
utilizando a máquina que usualmente operava. Os tempos gastos para a
conclusão da retífica são mostrados abaixo:
Faça a análise de variância e discuta a causa para o elevado tempo de
retífica.
7-Bibliográfia Utilizada
NETO, B. B.; SCARMINIO, I.S. ; BRUNS, R.E.Como Fazer Experimentos: Pesquisa
e desenvolvimento na ciência e na industria. Campinas, SP, Editora da
Unicamp, 2001.
MONTGOMERY, D.C.Desing and analysis of experiments, 5th edition. New York,
Willey,2001.
MONTGOMERY, D.C.Introdução ao Controle Estatístico de Qualidade, 4º edição.
Rio de Janeiro,RJ, LTC, 2004.
VENABLES, W.N. ; SMITH, D. M. An Introduction to R: Notes on R: A
programing Environment for data analysis and grafics, site http://www.r-
project.org.
VIERA,SONIA. Estatística Experimental, 2º edição. São Paulo-SP,Atlas,1999.
WERKEMA, M.C.C. ; AGUIAR, S.; Planejamento e Análise de Experimentos: como
identificar as principais variáveis influentes em um processo. Belo
Horizonte, MG, Série Ferramentas da Qualidade, Fundação Cristiano Ottoni,
Escola de Engenharia da UFMG,1996.