Estudo de amplitude, variância e desvio padrão para medir a dispersão dos dados.
Medidas de Dispersão e Análise de Variabilidade Estatística
Variabilidade: por que a média não basta?
Medidas de tendência central (média, mediana e moda) indicam onde os dados se concentram, mas não dizem como eles se espalham ao redor desse centro. Em termos práticos, duas distribuições podem ter a mesma média e, ainda assim, representar realidades completamente diferentes.
Pense em dois conjuntos com média 7:
Conjunto A: $\{1, 2, 2, 12, 12, 13\}$
Conjunto B: $\{5, 6, 7, 7, 8, 9\}$
Os dois têm média 7, mas:
no Conjunto A, há crianças muito pequenas e adolescentes, ou seja, grande heterogeneidade;
no Conjunto B, as idades são próximas, indicando homogeneidade.
Essa diferença é capturada pelas medidas de dispersão, que quantificam a variabilidade do conjunto.
Em resumo:
centralidade responde “qual é o valor típico?”
dispersão responde “o quão próximos (ou distantes) os valores estão desse típico?”
Amplitude: a dispersão mais simples
A amplitude (ou amplitude total) mede a extensão do conjunto olhando apenas para os extremos.
2.1 Definição
$A = x{\max} - x{\min}$
2.2 Interpretação
Se $A$ é grande, existe grande distância entre o menor e o maior valor.
Se $A$ é pequena, os dados estão concentrados em um intervalo curto.
2.3 Exemplo
Diâmetros (cm): $\{2{,}1,\ 2{,}0,\ 2{,}2,\ 2{,}9,\ 2{,}4\}$
$x{\max} = 2{,}9$
$x{\min} = 2{,}0$
$A = 2{,}9 - 2{,}0 = 0{,}9$ cm
2.4 Limitação crítica
A amplitude é muito sensível a outliers.
Um único valor anômalo pode aumentar muito $A$.
Ela ignora completamente a “massa” central dos dados.
Por isso, amplitude é útil como triagem rápida, mas insuficiente como descrição completa de variabilidade.
Desvio médio: distância média ao centro (com módulo)
Uma ideia natural é medir o afastamento de cada valor em relação à média. Porém, existe um obstáculo matemático:
3.1 A soma dos desvios simples dá zero
Para qualquer conjunto $x1, \dots, xn$:
$\sum{i=1}^{n}(xi - \bar{x}) = 0$
Isso acontece porque valores acima da média geram desvios positivos, e valores abaixo geram desvios negativos que se compensam.
Exemplo
Dados: $\{10, 15, 25, 10\}$
$\bar{x} = (10+15+25+10)/4 = 60/4 = 15$
Desvios: $-5, 0, 10, -5$
Soma: $-5 + 0 + 10 - 5 = 0$
Se a soma sempre zera, ela não mede dispersão.
3.2 Desvio médio absoluto (DM)
Para evitar cancelamento, usa-se o valor absoluto.
$DM = \frac{\sum{i=1}^{n} |xi - \bar{x}|}{n}$
Exemplo
Dados: $\{4, 8, 9, 15\}$
Média: $\bar{x} = (4+8+9+15)/4 = 36/4 = 9$
Desvios absolutos:
$|4-9|=5$
$|8-9|=1$
$|9-9|=0$
$|15-9|=6$
Desvio médio:
$DM = (5+1+0+6)/4 = 12/4 = 3$
Interpretação: em média, os valores se afastam 3 unidades da média.
3.3 Observações importantes
O DM volta na mesma unidade dos dados.
Ele considera todos os valores, mas tem menos “força algébrica” em vários desenvolvimentos teóricos do que a variância (por causa do módulo).
Variância: dispersão baseada em quadrados
A variância usa os quadrados dos desvios em relação à média:
elimina o sinal negativo (porque $(-a)^2=a^2$);
dá mais peso a desvios grandes (porque o quadrado cresce rapidamente).
4.1 Definição conceitual
A ideia central é medir:
$\sum (xi - \bar{x})^2$
E depois “normalizar” dividindo pelo tamanho do conjunto (com cuidado: população vs amostra).
4.2 Fórmula de computação (expansão algébrica)
Começando por:
$\sum (xi - \bar{x})^2$
Expanda o quadrado:
$\sum (xi^2 - 2xi\bar{x} + \bar{x}^2)$
Distribua o somatório:
$\sum xi^2 - 2\bar{x}\sum xi + \sum \bar{x}^2$
Agora use duas identidades:
$\sum xi = n\bar{x}$
$\sum \bar{x}^2 = n\bar{x}^2$ (porque $\bar{x}^2$ é constante)
Substituindo:
$\sum xi^2 - 2\bar{x}(n\bar{x}) + n\bar{x}^2 = \sum xi^2 - 2n\bar{x}^2 + n\bar{x}^2$
Logo:
$\sum (xi - \bar{x})^2 = \sum xi^2 - n\bar{x}^2$
Essa forma é útil para cálculos manuais e conferência.
4.3 Variância populacional e variância amostral
Variância populacional (quando os dados são o universo inteiro):
$\sigma^2 = \frac{\sum{i=1}^{N} (xi - \mu)^2}{N}$
usa-se $\mu$ para a média da população;
divide-se por $N$.
Variância amostral (quando os dados são uma amostra e queremos estimar a variância da população):
$s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$
O uso de $n-1$ no denominador é conhecido como Correção de Bessel. A razão é a seguinte:
Quando usamos a média amostral ($\bar{x}$) no cálculo — em vez da média populacional verdadeira ($\mu$), que é desconhecida —, os desvios $(xi - \bar{x})$ tendem a ser um pouco menores do que os desvios reais $(xi - \mu)$.
Isso acontece porque $\bar{x}$ é calculada a partir dos próprios dados, 'ajustando-se' a eles. Consequentemente, a soma dos quadrados dos desvios em relação a $\bar{x}$ é minimizada.
Dividir por $n$ resultaria em uma estimativa viesada que, em média, subestima a verdadeira variância populacional $\sigma^2$.
Dividir por $n-1$ (os graus de liberdade) compensa essa subestimação, produzindo um estimador não viesado para $\sigma^2$. Ou seja, espera-se que, ao calcular $s^2$ repetidamente de diferentes amostras, a média dessas estimativas se aproxime de $\sigma^2$.
4.4 Atenção a uma pegadinha comum
Variância sempre é não negativa.
A unidade da variância é a unidade do dado ao quadrado (ex.: $\text{min}^2$, $\text{kg}^2$), o que dificulta interpretação direta.
Desvio padrão: interpretação na unidade original
O desvio padrão é a raiz quadrada da variância:
populacional: $\sigma = \sqrt{\sigma^2}$
amostral: $s = \sqrt{s^2}$
Vantagens:
volta para a unidade original dos dados;
é a medida de dispersão mais usada em estatística, pois conecta descrição e inferência.
5.1 Interpretação intuitiva
O desvio padrão pode ser entendido como um “tamanho típico” dos desvios em relação à média, com maior peso para desvios grandes.
5.2 Exemplo de regularidade
Duas candidatas têm a mesma média, mas desempenhos diferentes:
A: $\{6, 5, 5, 4\}$
B: $\{8, 9, 0, 3\}$
Ambas podem ter média 5 (ou próxima), mas:
a candidata A oscila pouco (mais homogênea);
a candidata B oscila muito (mais heterogênea).
Numa análise de “regularidade”, menor desvio padrão indica maior estabilidade.
Coeficiente de variação (CV): dispersão relativa
Comparar apenas desvio padrão pode enganar quando as médias são muito diferentes. O coeficiente de variação mede dispersão relativa à média.
6.1 Definição
$CV = \left(\frac{s}{\bar{x}}\right)\times 100\%$
Características:
é adimensional (percentual);
permite comparar variabilidade entre conjuntos em escalas diferentes.
6.2 Exemplo comparativo
Turma 1: $\bar{x}=6{,}2$, $s=2{,}6$ → $CV \approx (2{,}6/6{,}2)\cdot 100\% \approx 41{,}9\%$
Turma 2: $\bar{x}=8{,}5$, $s=3{,}0$ → $CV \approx (3{,}0/8{,}5)\cdot 100\% \approx 35{,}3\%$
Mesmo com desvio padrão maior, a Turma 2 tem menor dispersão relativa e tende a ser mais homogênea.
6.3 Limitação do CV
Se $\bar{x}=0$, o CV é indefinido.
Se a média estiver muito próxima de zero, o CV pode explodir e perder sentido prático.
Síntese comparativa das principais medidas
| Medida | Fórmula (ideia central) | Unidade | Melhor uso | Limitação principal |
|---|---|---|---|---|
| Amplitude | $x{\max}-x{\min}$ | original | triagem rápida | depende só dos extremos |
| Desvio médio | $\frac{\sum |xi-\bar{x}|}{n}$ | original | distância média linear | menos usado em teoria por causa do módulo |
| Variância | $\frac{\sum (xi-\bar{x})^2}{n}$ ou $\frac{\sum (xi-\bar{x})^2}{n-1}$ | unidade$^2$ | base para inferência | difícil interpretar pela unidade ao quadrado |
| Desvio padrão | $\sqrt{\text{variância}}$ | original | regularidade e comparação direta | sensível a outliers (via quadrados) |
| Coef. variação | $\frac{s}{\bar{x}}\cdot 100\%$ | % | comparar escalas diferentes | inválido quando $\bar{x}=0$ |
Exemplo integrado: tempos de percurso (amostra)
Tempos (min): $\{48, 54, 50, 46, 44, 52, 49\}$ (amostra de 7 trajetos)
8.1 Média
Soma: $48+54+50+46+44+52+49 = 343$
$\bar{x} = 343/7 = 49$ minutos
8.2 Desvios em relação à média
$48-49=-1$
$54-49=5$
$50-49=1$
$46-49=-3$
$44-49=-5$
$52-49=3$
$49-49=0$
Quadrados:
$(-1)^2=1$
$5^2=25$
^2=1$
$(-3)^2=9$
$(-5)^2=25$
$3^2=9$
$0^2=0$
Soma dos quadrados: +25+1+9+25+9+0 = 70$
8.3 Variância amostral
$s^2 = \frac{70}{7-1} = \frac{70}{6} \approx 11{,}67\ \text{min}^2$
8.4 Desvio padrão amostral
$s = \sqrt{11{,}67} \approx 3{,}42$ minutos
8.5 Interpretação
A média é 49 min.
A variabilidade típica (na escala original) é cerca de 3,4 min.
Isso indica que, embora existam trajetos mais longos (54) e mais curtos (44), a oscilação é moderada: o tempo de percurso tende a ser relativamente previsível.
Conclusão conceitual
Para descrever bem um conjunto de dados, é preciso combinar:
uma medida de centralidade (onde está o centro);
uma medida de dispersão (quão espalhados estão os valores).
A leitura conjunta é o que permite decidir se um conjunto é homogêneo, se há instabilidade, e se a média é ou não representativa.