1. EducaçãoMatemáticaEstatísticasEstatísticas e Histogramas
Manual de Estatística para Leigos com Prática Online, 2ª Edição

Por Deborah J. Rumsey

Um histograma é um gráfico de barras feito para dados quantitativos. Como os dados são numéricos, você os divide em grupos sem deixar espaços entre eles (para que as barras sejam conectadas). O eixo Y mostra as frequências (contagens) ou frequências relativas (porcentagens) dos dados que se enquadram em cada grupo.

Como criar um histograma

Para criar um histograma, primeiro divida seus dados em um número razoável de grupos de igual comprimento. Registre o número de valores no conjunto de dados que se enquadram em cada grupo (em outras palavras, faça uma tabela de frequência). Se um ponto de dados cair no limite, tome uma decisão sobre qual grupo o colocar, mantendo-se consistente (sempre coloque-o no mais alto dos dois ou sempre no menor dos dois). Faça um gráfico de barras, usando os grupos e suas frequências - um histograma de frequência.

Se você dividir as frequências pelo tamanho total da amostra, obtém a porcentagem que cai em cada grupo. Uma tabela que mostra os grupos e suas porcentagens é uma tabela de frequência relativa. O histograma correspondente é um histograma de frequência relativa.

Você pode usar o Minitab ou um pacote de software diferente para criar histogramas ou os histogramas manualmente. De qualquer forma, sua escolha de larguras de intervalo (chamadas de compartimentos por pacotes de computador) pode ser diferente daquela vista nas figuras, o que é bom, desde que o seu pareça semelhante. E eles usarão, desde que você não use um número excepcionalmente baixo ou alto de barras e suas barras tenham a mesma largura.

Você também pode escolher diferentes pontos de início / fim para cada intervalo, e isso também é bom. Apenas certifique-se de rotular tudo claramente para que seu instrutor possa ver o que você está tentando fazer. E seja consistente com os valores que acabam na borda; sempre coloque-os no grupo inferior ou sempre no grupo superior. Se você tiver escolha, no entanto, faça seus histogramas usando um pacote de computador como o Minitab. Isso torna sua tarefa muito mais fácil.

Veja a seguir um exemplo de como criar os dois tipos de histogramas.

As pontuações dos testes para uma classe de 30 alunos são mostradas na tabela a seguir.

Os histogramas de frequência e os histogramas de frequência relativa têm a mesma aparência; eles acabaram de usar escalas diferentes no eixo Y.

O histograma de frequência para os dados das pontuações é mostrado na figura a seguir.

histograma de frequência

Você encontra as frequências relativas pegando cada frequência e dividindo por 30 (o tamanho total da amostra). As frequências relativas para esses três grupos são 8/30 = 0,27 ou 27%; 16/30 = 0,53 ou 53%; e 6/30 = 0,20 ou 20%, respectivamente.

Um histograma baseado em frequências relativas parece o mesmo que o histograma (dos mesmos dados). A única diferença é a etiqueta no eixo Y.

Compreendendo os histogramas

Um histograma fornece informações gerais sobre três recursos principais de seus dados quantitativos (numéricos): a forma, o centro e a dispersão.

A forma de um histograma é mostrada por seu padrão geral. Muitos padrões são possíveis e alguns são comuns, incluindo o seguinte:

  • Em forma de sino: parece um sino - um grande caroço no meio e caudas que caem de cada lado na mesma proporção. (Figura a) Inclinado à direita: uma grande parte dos dados é ajustada para a esquerda, com algumas observações maiores sendo arrastadas para a direita. (Figura b) Inclinado para a esquerda: grande parte dos dados é definida para a direita, com algumas observações menores sendo arrastadas para a esquerda. (Figura c) Uniforme: todas as barras têm uma altura semelhante. (Figura d) Bimodal: Dois picos, ou (Figura e) Em forma de U: bimodal com os dois picos nas extremidades baixa e alta, com menos dados no meio. (Veja a Figura 4-1 (Figura f) Simétrico: parece o mesmo em cada lado quando você o divide no meio; histogramas em forma de sino, uniformes e em U são todos exemplos de dados simétricos. (Figuras a, d e f)
padrões comuns de histograma

Você pode visualizar o centro de um histograma de duas maneiras. Um é o ponto no eixo x onde o gráfico se equilibra, levando em consideração os valores reais dos dados. Esse ponto é chamado de média e você pode encontrá-lo localizando o ponto de equilíbrio (imagine que os dados estejam em uma balança). A outra maneira de visualizar o centro é localizar a linha no histograma, onde 50% dos dados estão em ambos os lados. A linha é chamada de mediana e representa o meio físico do conjunto de dados. Imagine cortar o histograma ao meio para que metade da área fique nos dois lados da linha.

A dispersão refere-se à distância entre os dados, em relação um ao outro ou em relação a algum ponto central. Uma maneira grosseira de medir o spread é encontrar a faixa ou a distância entre o maior valor e o menor valor. Outra maneira é procurar a distância média do meio, também conhecido como desvio padrão. É difícil obter o desvio padrão apenas olhando para um histograma, mas você pode ter uma idéia aproximada se você tomar o intervalo dividido por 6. Se as alturas das barras próximas ao meio parecerem muito altas, isso significa que a maioria das os valores estão próximos da média, indicando um pequeno desvio padrão. Se as barras parecerem curtas, você pode ter um desvio padrão maior.

Você pode fazer estatísticas resumidas reais para calcular os dados quantitativos, mas um histograma pode fornecer uma orientação geral para encontrar esses marcos. E, como gráficos de pizza e gráficos de barras, nem todos os histogramas são justos, completos e precisos. Você precisa saber o que procurar para avaliá-los.

Como corrigir dados distorcidos com histogramas

Você precisa fazer considerações especiais para conjuntos de dados distorcidos, em termos de quais estatísticas são as mais apropriadas para usar e quando. Você também deve estar ciente de como o uso de estatísticas erradas pode fornecer respostas enganosas.

Você pode relacionar a média e a mediana para aprender sobre a forma dos seus dados. Ter a média e a mediana próximas de iguais criará uma forma aproximadamente simétrica

A média é afetada pelos valores discrepantes nos dados, mas a mediana não. Se a média e a mediana estiverem próximas, os dados não serão distorcidos e provavelmente não conterão valores discrepantes de um lado ou do outro. Isso significa que os dados têm a mesma aparência em cada lado do meio, que é a definição de dados simétricos (consulte a, d ou f na figura anterior).

O fato de a média e a mediana estarem próximas indica que os dados são aproximadamente simétricos pode ser usado em um tipo diferente de pergunta de teste. Suponha que alguém lhe pergunte se os dados são simétricos e você não possui um histograma, mas possui a média e a mediana. Compare os dois valores da média e da mediana e, se estiverem próximos, os dados serão simétricos. Se não estiverem, os dados não serão simétricos.

Como identificar um histograma enganoso

Os leitores podem ser enganados por um histograma de maneiras que não são possíveis com um gráfico de barras. Lembre-se de que um histograma lida com dados numéricos, e não categóricos, o que significa que você precisa determinar como deseja que os dados numéricos divididos em grupos sejam exibidos no eixo horizontal. E como você determina esses agrupamentos pode fazer o gráfico parecer muito diferente. Observe os histogramas que usam escala para enganar os leitores. Assim como nos gráficos de barras, você pode exagerar as diferenças usando uma escala menor no eixo vertical de um histograma e minimizar as diferenças usando uma escala maior.