1. Início
  2. Explorar
  3. Matemática
  4. Medidas de Dispersão

Medidas de Dispersão – Matemática | Tuco-Tuco

Estudo de amplitude, variância e desvio padrão para medir a dispersão dos dados.

Medidas de Dispersão e Análise de Variabilidade Estatística Variabilidade: por que a média não basta? Medidas de tendência central (média, mediana e moda) indicam onde os dados se concentram, mas não dizem como eles se espalham ao redor desse centro. Em termos práticos, duas distribuições podem ter a mesma média e, ainda assim, representar realidades completamente diferentes. Pense em dois conjuntos com média 7: Conjunto A: $\{1, 2, 2, 12, 12, 13\}$ Conjunto B: $\{5, 6, 7, 7, 8, 9\}$ Os dois têm média 7, mas: no Conjunto A, há crianças muito pequenas e adolescentes, ou seja, grande heterogeneidade; no Conjunto B, as idades são próximas, indicando homogeneidade. Essa diferença é capturada pelas medidas de dispersão, que quantificam a variabilidade do conjunto. Em resumo: centralidade responde “qual é o valor típico?” dispersão responde “o quão próximos (ou distantes) os valores estão desse típico?” Amplitude: a dispersão mais simples A amplitude (ou amplitude total) mede a extensão do conjunto olhando apenas para os extremos. 2.1 Definição $A = x{\max} - x{\min}$ 2.2 Interpretação Se $A$ é grande, existe grande distância entre o menor e o maior valor. Se $A$ é pequena, os dados estão concentrados em um intervalo curto. 2.3 Exemplo Diâmetros (cm): $\{2{,}1,\ 2{,}0,\ 2{,}2,\ 2{,}9,\ 2{,}4\}$ $x{\max} = 2{,}9$ $x{\min} = 2{,}0$ $A = 2{,}9 - 2{,}0 = 0{,}9$ cm 2.4 Limitação crítica A amplitude é muito sensível a outliers. Um único valor anômalo pode aumentar muito $A$. Ela ignora completamente a “massa” central dos dados. Por isso, amplitude é útil como triagem rápida, mas insuficiente como descrição completa de variabilidade. Desvio médio: distância média ao centro (com módulo) Uma ideia natural é medir o afastamento de cada valor em relação à média. Porém, existe um obstáculo matemático: 3.1 A soma dos desvios simples dá zero Para qualquer conjunto $x1, \dots, xn$: $\sum{i=1}^{n}(xi - \bar{x}) = 0$ Isso acontece porque valores acima da média geram desvios positivos, e valores abaixo geram desvios negativos que se compensam. Exemplo Dados: $\{10, 15, 25, 10\}$ $\bar{x} = (10+15+25+10)/4 = 60/4 = 15$ Desvios: $-5, 0, 10, -5$ Soma: $-5 + 0 + 10 - 5 = 0$ Se a soma sempre zera, ela não mede dispersão. 3.2 Desvio médio absoluto (DM) Para evitar cancelamento, usa-se o valor absoluto. $DM = \frac{\sum{i=1}^{n} |xi - \bar{x}|}{n}$ Exemplo Dados: $\{4, 8, 9, 15\}$ Média: $\bar{x} = (4+8+9+15)/4 = 36/4 = 9$ Desvios absolutos: $|4-9|=5$ $|8-9|=1$ $|9-9|=0$ $|15-9|=6$ Desvio médio: $DM = (5+1+0+6)/4 = 12/4 = 3$ Interpretação: em média, os valores se afastam 3 unidades da média. 3.3 Observações importantes O DM volta na mesma unidade dos dados. Ele considera todos os valores, mas tem menos “força algébrica” em vários desenvolvimentos teóricos do que a variância (por causa do módulo). Variância: dispersão baseada em quadrados A variância usa os quadrados dos desvios em relação à média: elimina o sinal negativo (porque $(-a)^2=a^2$); dá mais peso a desvios grandes (porque o quadrado cresce rapidamente). 4.1 Definição conceitual A ideia central é medir: $\sum (xi - \bar{x})^2$ E depois “normalizar” dividindo pelo tamanho do conjunto (com cuidado: população vs amostra). 4.2 Fórmula de computação (expansão algébrica) Começando por: $\sum (xi - \bar{x})^2$ Expanda o quadrado: $\sum (xi^2 - 2xi\bar{x} + \bar{x}^2)$ Distribua o somatório: $\sum xi^2 - 2\bar{x}\sum xi + \sum \bar{x}^2$ Agora use duas identidades: $\sum xi = n\bar{x}$ $\sum \bar{x}^2 = n\bar{x}^2$ (porque $\bar{x}^2$ é constante) Substituindo: $\sum xi^2 - 2\bar{x}(n\bar{x}) + n\bar{x}^2 = \sum xi^2 - 2n\bar{x}^2 + n\bar{x}^2$ Logo: $\sum (xi - \bar{x})^2 = \sum xi^2 - n\bar{x}^2$ Essa forma é útil para cálculos manuais e conferência. 4.3 Variância populacional e variância amostral Variância populacional (quando os dados são o universo inteiro): $\sigma^2 = \frac{\sum{i=1}^{N} (xi - \mu)^2}{N}$ usa-se $\mu$ para a média da população; divide-se por $N$. Variância amostral (quando os dados são uma amostra e queremos estimar a variância da população): $s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$ O uso de $n-1$ no denominador é conhecido como Correção de Bessel. A razão é a seguinte: Quando usamos a média amostral ($\bar{x}$) no cálculo — em vez da média populacional verdadeira ($\mu$), que é desconhecida —, os desvios $(xi - \bar{x})$ tendem a ser um pouco menores do que os desvios reais $(xi - \mu)$. Isso acontece porque $\bar{x}$ é calculada a partir dos próprios dados, 'ajustando-se' a eles. Consequentemente, a soma dos quadrados dos desvios em relação a $\bar{x}$ é minimizada. Dividir por $n$ resultaria em uma estimativa viesada que, em média, subestima a verdadeira variância populacional $\sigma^2$. Dividir por $n-1$ (os graus de liberdade) compensa essa subestimação, produzindo um estimador não viesado para $\sigma^2$. Ou seja, espera-se que, ao calcular $s^2$ repetidamente de diferentes amostras, a média dessas estimativas se aproxime de $\sigma^2$. 4.4 Atenção a uma pegadinha comum Variância sempre é não negativa. A unidade da variância é a unidade do dado ao quadrado (ex.: $\text{min}^2$, $\text{kg}^2$), o que dificulta interpretação direta. Desvio padrão: interpretação na unidade original O desvio padrão é a raiz quadrada da variância: populacional: $\sigma = \sqrt{\sigma^2}$ amostral: $s = \sqrt{s^2}$ Vantagens: volta para a unidade original dos dados; é a medida de dispersão mais usada em estatística, pois conecta descrição e inferência. 5.1 Interpretação intuitiva O desvio padrão pode ser entendido como um “tamanho típico” dos desvios em relação à média, com maior peso para desvios grandes. 5.2 Exemplo de regularidade Duas candidatas têm a mesma média, mas desempenhos diferentes: A: $\{6, 5, 5, 4\}$ B: $\{8, 9, 0, 3\}$ Ambas podem ter média 5 (ou próxima), mas: a candidata A oscila pouco (mais homogênea); a candidata B oscila muito (mais heterogênea). Numa análise de “regularidade”, menor desvio padrão indica maior estabilidade. Coeficiente de variação (CV): dispersão relativa Comparar apenas desvio padrão pode enganar quando as médias são muito diferentes. O coeficiente de variação mede dispersão relativa à média. 6.1 Definição $CV = \left(\frac{s}{\bar{x}}\right)\times 100\%$ Características: é adimensional (percentual); permite comparar variabilidade entre conjuntos em escalas diferentes. 6.2 Exemplo comparativo Turma 1: $\bar{x}=6{,}2$, $s=2{,}6$ → $CV \approx (2{,}6/6{,}2)\cdot 100\% \approx 41{,}9\%$ Turma 2: $\bar{x}=8{,}5$, $s=3{,}0$ → $CV \approx (3{,}0/8{,}5)\cdot 100\% \approx 35{,}3\%$ Mesmo com desvio padrão maior, a Turma 2 tem menor dispersão relativa e tende a ser mais homogênea. 6.3 Limitação do CV Se $\bar{x}=0$, o CV é indefinido. Se a média estiver muito próxima de zero, o CV pode explodir e perder sentido prático. Síntese comparativa das principais medidas | Medida | Fórmula (ideia central) | Unidade | Melhor uso | Limitação principal | |---|---|---|---|---| | Amplitude | $x{\max}-x{\min}$ | original | triagem rápida | depende só dos extremos | | Desvio médio | $\frac{\sum |xi-\bar{x}|}{n}$ | original | distância média linear | menos usado em teoria por causa do módulo | | Variância | $\frac{\sum (xi-\bar{x})^2}{n}$ ou $\frac{\sum (xi-\bar{x})^2}{n-1}$ | unidade$^2$ | base para inferência | difícil interpretar pela unidade ao quadrado | | Desvio padrão | $\sqrt{\text{variância}}$ | original | regularidade e comparação direta | sensível a outliers (via quadrados) | | Coef. variação | $\frac{s}{\bar{x}}\cdot 100\%$ | % | comparar escalas diferentes | inválido quando $\bar{x}=0$ | Exemplo integrado: tempos de percurso (amostra) Tempos (min): $\{48, 54, 50, 46, 44, 52, 49\}$ (amostra de 7 trajetos) 8.1 Média Soma: $48+54+50+46+44+52+49 = 343$ $\bar{x} = 343/7 = 49$ minutos 8.2 Desvios em relação à média $48-49=-1$ $54-49=5$ $50-49=1$ $46-49=-3$ $44-49=-5$ $52-49=3$ $49-49=0$ Quadrados: $(-1)^2=1$ $5^2=25$ ^2=1$ $(-3)^2=9$ $(-5)^2=25$ $3^2=9$ $0^2=0$ Soma dos quadrados: +25+1+9+25+9+0 = 70$ 8.3 Variância amostral $s^2 = \frac{70}{7-1} = \frac{70}{6} \approx 11{,}67\ \text{min}^2$ 8.4 Desvio padrão amostral $s = \sqrt{11{,}67} \approx 3{,}42$ minutos 8.5 Interpretação A média é 49 min. A variabilidade típica (na escala original) é cerca de 3,4 min. Isso indica que, embora existam trajetos mais longos (54) e mais curtos (44), a oscilação é moderada: o tempo de percurso tende a ser relativamente previsível. Conclusão conceitual Para descrever bem um conjunto de dados, é preciso combinar: uma medida de centralidade (onde está o centro); uma medida de dispersão (quão espalhados estão os valores). A leitura conjunta é o que permite decidir se um conjunto é homogêneo, se há instabilidade, e se a média é ou não representativa.