1. Início
  2. Explorar
  3. Matemática
  4. Estatística e Probabilidade
  5. Medidas de Dispersão

Medidas de Dispersão - Matemática | Tuco-Tuco

Aula de Matemática (Estatística e Probabilidade): Medidas de Dispersão. Estudo de amplitude, variância e desvio padrão para medir a dispersão dos dados. Estude gratuitamente para vestibular e ENEM no Tuco-Tuco.

Medidas de Dispersão e Análise de Variabilidade Estatística Variabilidade: por que a média não basta? Medidas de tendência central (média, mediana e moda) indicam onde os dados se concentram, mas não dizem como eles se espalham ao redor desse centro. Em termos práticos, duas distribuições podem ter a mesma média e, ainda assim, representar realidades completamente diferentes. Pense em dois conjuntos com média 7: Conjunto A: $\{1, 2, 2, 12, 12, 13\}$ Conjunto B: $\{5, 6, 7, 7, 8, 9\}$ Os dois têm média 7, mas: no Conjunto A, há crianças muito pequenas e adolescentes, ou seja, grande heterogeneidade; no Conjunto B, as idades são próximas, indicando homogeneidade. Essa diferença é capturada pelas medidas de dispersão, que quantificam a variabilidade do conjunto. Em resumo: centralidade responde “qual é o valor típico?” dispersão responde “o quão próximos (ou distantes) os valores estão desse típico?” Amplitude: a dispersão mais simples A amplitude (ou amplitude total) mede a extensão do conjunto olhando apenas para os extremos. 2.1 Definição $A = x{\max} - x{\min}$ 2.2 Interpretação Se $A$ é grande, existe grande distância entre o menor e o maior valor. Se $A$ é pequena, os dados estão concentrados em um intervalo curto. 2.3 Exemplo Diâmetros (cm): $\{2{,}1,\ 2{,}0,\ 2{,}2,\ 2{,}9,\ 2{,}4\}$ $x{\max} = 2{,}9$ $x{\min} = 2{,}0$ $A = 2{,}9 - 2{,}0 = 0{,}9$ cm 2.4 Limitação crítica A amplitude é muito sensível a outliers. Um único valor anômalo pode aumentar muito $A$. Ela ignora completamente a “massa” central dos dados. Por isso, amplitude é útil como triagem rápida, mas insuficiente como descrição completa de variabilidade. Desvio médio: distância média ao centro (com módulo) Uma ideia natural é medir o afastamento de cada valor em relação à média. Porém, existe um obstáculo matemático: 3.1 A soma dos desvios simples dá zero Para qualquer conjunto $x1, \dots, xn$: $\sum{i=1}^{n}(xi - \bar{x}) = 0$ Isso acontece porque valores acima da média geram desvios positivos, e valores abaixo geram desvios negativos que se compensam. Exemplo Dados: $\{10, 15, 25, 10\}$ $\bar{x} = (10+15+25+10)/4 = 60/4 = 15$ Desvios: $-5, 0, 10, -5$ Soma: $-5 + 0 + 10 - 5 = 0$ Se a soma sempre zera, ela não mede dispersão. 3.2 Desvio médio absoluto (DM) Para evitar cancelamento, usa-se o valor absoluto. $DM = \frac{\sum{i=1}^{n} |xi - \bar{x}|}{n}$ Exemplo Dados: $\{4, 8, 9, 15\}$ Média: $\bar{x} = (4+8+9+15)/4 = 36/4 = 9$ Desvios absolutos: $|4-9|=5$ $|8-9|=1$ $|9-9|=0$ $|15-9|=6$ Desvio médio: $DM = (5+1+0+6)/4 = 12/4 = 3$ Interpretação: em média, os valores se afastam 3 unidades da média. 3.3 Observações importantes O DM volta na mesma unidade dos dados. Ele considera todos os valores, mas tem menos “força algébrica” em vários desenvolvimentos teóricos do que a variância (por causa do módulo). Variância: dispersão baseada em quadrados A variância usa os quadrados dos desvios em relação à média: elimina o sinal negativo (porque $(-a)^2=a^2$); dá mais peso a desvios grandes (porque o quadrado cresce rapidamente). 4.1 Definição conceitual A ideia central é medir: $\sum (xi - \bar{x})^2$ E depois “normalizar” dividindo pelo tamanho do conjunto (com cuidado: população vs amostra). 4.2 Fórmula de computação (expansão algébrica) Começando por: $\sum (xi - \bar{x})^2$ Expanda o quadrado: $\sum (xi^2 - 2xi\bar{x} + \bar{x}^2)$ Distribua o somatório: $\sum xi^2 - 2\bar{x}\sum xi + \sum \bar{x}^2$ Agora use duas identidades: $\sum xi = n\bar{x}$ $\sum \bar{x}^2 = n\bar{x}^2$ (porque $\bar{x}^2$ é constante) Substituindo: $\sum xi^2 - 2\bar{x}(n\bar{x}) + n\bar{x}^2 = \sum xi^2 - 2n\bar{x}^2 + n\bar{x}^2$ Logo: $\sum (xi - \bar{x})^2 = \sum xi^2 - n\bar{x}^2$ Essa forma é útil para cálculos manuais e conferência. 4.3 Variância populacional e variância amostral Variância populacional (quando os dados são o universo inteiro): $\sigma^2 = \frac{\sum{i=1}^{N} (xi - \mu)^2}{N}$ usa-se $\mu$ para a média da população; divide-se por $N$. Variância amostral (quando os dados são uma amostra e queremos estimar a variância da população): $s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$ O uso de $n-1$ no denominador é conhecido como Correção de Bessel. A razão é a seguinte: Quando usamos a média amostral ($\bar{x}$) no cálculo — em vez da média populacional verdadeira ($\mu$), que é desconhecida —, os desvios $(xi - \bar{x})$ tendem a ser um pouco menores do que os desvios reais $(xi - \mu)$. Isso acontece porque $\bar{x}$ é calculada a partir dos próprios dados, 'ajustando-se' a eles. Consequentemente, a soma dos quadrados dos desvios em relação a $\bar{x}$ é minimizada. Dividir por $n$ resultaria em uma estimativa viesada que, em média, subestima a verdadeira variância populacional $\sigma^2$. Dividir por $n-1$ (os graus de liberdade) compensa essa subestimação, produzindo um estimador não viesado para $\sigma^2$. Ou seja, espera-se que, ao calcular $s^2$ repetidamente de diferentes amostras, a média dessas estimativas se aproxime de $\sigma^2$. 4.4 Atenção a uma pegadinha comum Variância sempre é não negativa. A unidade da variância é a unidade do dado ao quadrado (ex.: $\text{min}^2$, $\text{kg}^2$), o que dificulta interpretação direta. Desvio padrão: interpretação na unidade original O desvio padrão é a raiz quadrada da variância: populacional: $\sigma = \sqrt{\sigma^2}$ amostral: $s = \sqrt{s^2}$ Vantagens: volta para a unidade original dos dados; é a medida de dispersão mais usada em estatística, pois conecta descrição e inferência. 5.1 Interpretação intuitiva O desvio padrão pode ser entendido como um “tamanho típico” dos desvios em relação à média, com maior peso para desvios grandes. 5.2 Exemplo de regularidade Duas candidatas têm a mesma média, mas desempenhos diferentes: A: $\{6, 5, 5, 4\}$ B: $\{8, 9, 0, 3\}$ Ambas podem ter média 5 (ou próxima), mas: a candidata A oscila pouco (mais homogênea); a candidata B oscila muito (mais heterogênea). Numa análise de “regularidade”, menor desvio padrão indica maior estabilidade. Coeficiente de variação (CV): dispersão relativa Comparar apenas desvio padrão pode enganar quando as médias são muito diferentes. O coeficiente de variação mede dispersão relativa à média. 6.1 Definição $CV = \left(\frac{s}{\bar{x}}\right)\times 100\%$ Características: é adimensional (percentual); permite comparar variabilidade entre conjuntos em escalas diferentes. 6.2 Exemplo comparativo Turma 1: $\bar{x}=6{,}2$, $s=2{,}6$ → $CV \approx (2{,}6/6{,}2)\cdot 100\% \approx 41{,}9\%$ Turma 2: $\bar{x}=8{,}5$, $s=3{,}0$ → $CV \approx (3{,}0/8{,}5)\cdot 100\% \approx 35{,}3\%$ Mesmo com desvio padrão maior, a Turma 2 tem menor dispersão relativa e tende a ser mais homogênea. 6.3 Limitação do CV Se $\bar{x}=0$, o CV é indefinido. Se a média estiver muito próxima de zero, o CV pode explodir e perder sentido prático. Síntese comparativa das principais medidas | Medida | Fórmula (ideia central) | Unidade | Melhor uso | Limitação principal | |---|---|---|---|---| | Amplitude | $x{\max}-x{\min}$ | original | triagem rápida | depende só dos extremos | | Desvio médio | $\frac{\sum |xi-\bar{x}|}{n}$ | original | distância média linear | menos usado em teoria por causa do módulo | | Variância | $\frac{\sum (xi-\bar{x})^2}{n}$ ou $\frac{\sum (xi-\bar{x})^2}{n-1}$ | unidade$^2$ | base para inferência | difícil interpretar pela unidade ao quadrado | | Desvio padrão | $\sqrt{\text{variância}}$ | original | regularidade e comparação direta | sensível a outliers (via quadrados) | | Coef. variação | $\frac{s}{\bar{x}}\cdot 100\%$ | % | comparar escalas diferentes | inválido quando $\bar{x}=0$ | Exemplo integrado: tempos de percurso (amostra) Tempos (min): $\{48, 54, 50, 46, 44, 52, 49\}$ (amostra de 7 trajetos) 8.1 Média Soma: $48+54+50+46+44+52+49 = 343$ $\bar{x} = 343/7 = 49$ minutos 8.2 Desvios em relação à média $48-49=-1$ $54-49=5$ $50-49=1$ $46-49=-3$ $44-49=-5$ $52-49=3$ $49-49=0$ Quadrados: $(-1)^2=1$ $5^2=25$ ^2=1$ $(-3)^2=9$ $(-5)^2=25$ $3^2=9$ $0^2=0$ Soma dos quadrados: +25+1+9+25+9+0 = 70$ 8.3 Variância amostral $s^2 = \frac{70}{7-1} = \frac{70}{6} \approx 11{,}67\ \text{min}^2$ 8.4 Desvio padrão amostral $s = \sqrt{11{,}67} \approx 3{,}42$ minutos 8.5 Interpretação A média é 49 min. A variabilidade típica (na escala original) é cerca de 3,4 min. Isso indica que, embora existam trajetos mais longos (54) e mais curtos (44), a oscilação é moderada: o tempo de percurso tende a ser relativamente previsível. Conclusão conceitual Para descrever bem um conjunto de dados, é preciso combinar: uma medida de centralidade (onde está o centro); uma medida de dispersão (quão espalhados estão os valores). A leitura conjunta é o que permite decidir se um conjunto é homogêneo, se há instabilidade, e se a média é ou não representativa. Exercícios: Considere o conjunto de dados: {3, 7, 10, 15, 18}. Qual é a amplitude desse conjunto? Considere o conjunto de dados: {4, 4, 8, 8}. A média aritmética é 6. Qual é o desvio médio desse conjunto? Considere os dados {2, 4, 6, 8}. Qual é o desvio médio absoluto (em relação à média) desse conjunto? Dois conjuntos de dados possuem as seguintes informações: - Conjunto A: {5, 5, 5, 5} - Conjunto B: {3, 7, 11, 15} Considerando a variância populacional, qual dos conjuntos possui maior variância? O cálculo da variância populacional pode ser simplificado usando uma fórmula operacional. Um conjunto de dados populacionais estritamente quantitativos possui n = 5 elementos. Sabe-se que a soma das observações é Σx_i = 40 e que a soma dos quadrados dessas observações é Σx_i² = 360. Com base estritamente nesses dados, determine a variância populacional do conjunto. O Desvio Médio Absoluto (DMA) é uma medida de dispersão que, por utilizar valores absolutos, é menos sensível a grandes desvios do que a variância. Dado o conjunto discreto e numérico $\{2, 4, 8, 10, 16\}$, calcule o valor exato do seu Desvio Médio Absoluto. Em qualquer conjunto de dados numéricos, qual é o resultado da soma de todos os desvios individuais em relação à média aritmética? (Considere desvio como $d_i = x_i - \bar{x}$) Ao comparar dois grupos de atletas, o Grupo A apresenta desvio padrão $\sigma_A = 2,5$ e média $\bar{x}_A = 10$, enquanto o Grupo B apresenta $\sigma_B = 2,5$ e média $\bar{x}_B = 20$. Qual grupo é considerado mais homogêneo? Se todos os valores de um conjunto de dados forem multiplicados por uma constante positiva $k = 3$, o que acontece com a variância do novo conjunto? Considere o conjunto de dados $X = \{2, 2, 2, 2, 2\}$. Qual é o valor do desvio padrão desse conjunto? Um conjunto possui média 50 e desvio padrão 10. Qual é o coeficiente de variação deste conjunto? Qual é a principal limitação da 'Amplitude' como medida de dispersão? Em uma tabela de frequências, onde o valor $x_1 = 5$ aparece com frequência $f_1 = 3$, como esse par contribui para o numerador do cálculo da variância? Se a variância de um conjunto de dados é 12,25, qual é o desvio padrão? As propriedades operatórias da variância revelam como a dispersão reage a transformações lineares na escala dos dados. Uma corporação avaliou os salários de seus funcionários e constatou uma variância populacional $\sigma^2$. Devido a uma reestruturação financeira, todos os funcionários receberão um aumento exato de 10% sobre seus salários atuais, acrescido de um bônus fixo de R$ 500,00. Analiticamente, o que ocorrerá com o valor da nova variância populacional dessa folha de pagamento? Se um conjunto de dados representa a massa de objetos em quilogramas ($kg$), qual será a unidade de medida da variância e do desvio padrão, respectivamente? A ocorrência de parâmetros estatísticos extremos em uma análise de dispersão delimita características singulares da base de dados. Um conjunto composto por 3.000 dados quantitativos possui uma variância populacional constatada exatamente igual a zero ($\sigma^2 = 0$). Diante deste fato matemático, o que se pode concluir estritamente sobre a estrutura dessa base de dados? Na estatística inferencial, a variância amostral (s²) é usada como estimador da variância populacional (σ²). Em sua fórmula, a soma dos quadrados dos desvios em relação à média amostral é dividida por (n-1) (graus de liberdade) em vez de n, procedimento conhecido como correção de Bessel. Qual é a justificativa matemática fundamental para o uso do fator (n-1)? A fusão de bases de dados exige propriedades operatórias de momentos estatísticos. Duas turmas escolares realizaram a mesma avaliação. A turma A possui $20$ alunos, obteve média geral $6{,}0$ e variância populacional interna de $4{,}0$. A turma B possui $30$ alunos, também obteve média geral $6{,}0$, porém com variância populacional de $9{,}0$. Agrupando-se todos os alunos em um grupo único de 50 pessoas, qual será o valor exato da variância global deste novo conjunto? A compreensão matemática da variância permite encontrar o valor mínimo de uma soma de quadrados dos desvios. Considere uma população com n = 10 observações, média μ = 15 e variância σ² = 4. A função S(c) = Σ (x_i - c)² atinge seu valor mínimo para c = μ. Qual é esse valor mínimo de S(c)? Calcule a variância populacional do conjunto de dados {5, 10, 15}.