Estatística descritiva e inferencial básica – Gestão Governamental e Métodos Aplicados | Tuco-Tuco
Variáveis, medidas de tendência central e dispersão, distribuição normal, amostragem, intervalos de confiança e testes de hipóteses.
Estatística Descritiva e Inferencial Básica
Introdução e conceitos fundamentais
A Estatística é a ciência que desenvolve e aplica métodos para coletar, organizar, resumir, analisar e interpretar dados, com o objetivo de extrair informações relevantes e apoiar a tomada de decisão sob incerteza. Tradicionalmente, divide‑se em duas grandes áreas complementares:
Estatística Descritiva: ocupa‑se da organização, sumarização e apresentação dos dados, sem pretender ir além do conjunto observado. Seus instrumentos são as tabelas, os gráficos e as medidas‑resumo (média, mediana, desvio‑padrão etc.).
Estatística Inferencial: utiliza os dados amostrais para fazer afirmações sobre a população de onde a amostra foi extraída, quantificando a incerteza por meio de probabilidades. Seus instrumentos incluem intervalos de confiança e testes de hipóteses.
No setor público, a estatística é onipresente: embasa a construção de indicadores sociais, o desenho de amostras de pesquisas como a PNAD e o Censo Escolar, a avaliação de impacto de políticas e o monitoramento de metas.
1.1 População, amostra, parâmetro e estimativa
População (N): conjunto completo de elementos que compartilham uma característica de interesse para o estudo. Ex.: todas as escolas públicas do país, todos os beneficiários do Bolsa Família.
Amostra (n): subconjunto da população, selecionado segundo um plano amostral, com o propósito de representar a população. Ex.: 500 escolas sorteadas aleatoriamente.
Parâmetro: medida numérica que descreve uma característica da população. É um valor fixo, mas geralmente desconhecido. Ex.: média populacional ($\mu$), desvio‑padrão populacional ($\sigma$), proporção populacional ($\pi$).
Estatística (ou estimador): medida calculada a partir dos dados da amostra. É uma variável aleatória, pois seu valor depende da amostra sorteada. Ex.: média amostral ($\bar{x}$), desvio‑padrão amostral ($s$), proporção amostral ($p$).
O objetivo da inferência estatística é utilizar as estatísticas para estimar (ou testar hipóteses sobre) os parâmetros populacionais, com um grau de incerteza mensurável.
Tipos de variáveis
A classificação correta das variáveis orienta a escolha das técnicas de análise e das representações gráficas adequadas.
Qualitativas (categóricas):
Nominais: não têm ordem natural. Ex.: sexo, cor da pele, religião, região de residência, partido político. A única medida de tendência central possível é a moda.
Ordinais: possuem uma ordem ou hierarquia, mas as diferenças entre categorias não são quantificáveis. Ex.: escolaridade (fundamental, médio, superior), classe social (A, B, C, D, E), grau de satisfação (insatisfeito, neutro, satisfeito). Admite‑se mediana e percentis, mas a média aritmética pode ser questionável.
Quantitativas (numéricas):
Discretas: assumem valores enumeráveis, geralmente números inteiros. Ex.: número de filhos, número de processos em um tribunal, quantidade de multas aplicadas.
Contínuas: podem assumir qualquer valor em um intervalo, inclusive decimais. Ex.: altura, peso, salário, tempo de espera, distância percorrida.
Estatística descritiva: medidas de tendência central
3.1 Média aritmética ($\bar{x}$)
É a soma de todos os valores dividida pelo número de observações. Representa o “centro de gravidade” dos dados.
$\bar{x} = \frac{\sum{i=1}^{n} xi}{n}$
Vantagem: utiliza toda a informação disponível.
Desvantagem: extremamente sensível a valores atípicos (outliers). Um único salário muito alto pode inflar a média salarial de um grupo.
No setor público: a média é usada para gasto médio por aluno, renda per capita, tempo médio de espera etc.
3.2 Mediana (Md)
É o valor que divide o conjunto ordenado de dados ao meio: 50% das observações estão abaixo e 50% acima.
Cálculo: se $n$ é ímpar, a mediana é o valor central. Se $n$ é par, calcula‑se a média dos dois valores centrais.
Vantagem: é resistente a outliers; a presença de valores extremos não a afeta.
Aplicação: amplamente empregada em distribuições assimétricas, como a renda domiciliar (a mediana é preferível à média para descrever o “domicílio típico”).
3.3 Moda (Mo)
É o valor que aparece com maior frequência no conjunto de dados. Uma distribuição pode ser unimodal, bimodal ou multimodal.
Vantagem: é a única medida de tendência central aplicável a variáveis qualitativas nominais.
Desvantagem: em conjuntos de dados pequenos ou contínuos, pode não ser representativa.
3.4 Relação entre média, mediana e moda e a forma da distribuição
Distribuição simétrica: $\bar{x} \approx Md \approx Mo$.
Assimetria positiva (cauda à direita): $Mo < Md < \bar{x}$. Ex.: distribuição de salários, onde poucos ganham muito e a maioria ganha pouco.
Assimetria negativa (cauda à esquerda): $\bar{x} < Md < Mo$. Menos comum em fenômenos sociais.
Medidas de dispersão
As medidas de dispersão quantificam a variabilidade dos dados, complementando as medidas de centro.
4.1 Amplitude total
Diferença entre o valor máximo e o valor mínimo. É a medida mais simples, porém muito influenciada por outliers.
4.2 Variância ($s^2$ para amostra, $\sigma^2$ para população)
Capta o desvio quadrático médio em relação à média.
$s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$
A divisão por $n-1$ (graus de liberdade) fornece um estimador não‑viesado da variância populacional.
4.3 Desvio‑padrão ($s$)
É a raiz quadrada da variância. Retorna a medida à unidade original dos dados, facilitando a interpretação.
Quanto maior o desvio‑padrão, maior a heterogeneidade dos dados.
4.4 Coeficiente de variação (CV)
Relaciona desvio‑padrão e média, sendo expresso em percentagem:
$CV = \frac{s}{\bar{x}} \times 100$
Permite comparar a variabilidade de conjuntos com unidades ou escalas distintas. Ex.: a dispersão dos gastos municipais com saúde (em reais) pode ser comparada à dispersão dos gastos com educação, desde que ambas as variáveis tenham o CV.
4.5 Quartis e intervalo interquartílico (IQR)
Os quartis dividem o conjunto de dados ordenado em quatro partes de igual tamanho:
Q1 (primeiro quartil): deixa 25% dos dados abaixo.
Q2 (segundo quartil): coincide com a mediana (50%).
Q3 (terceiro quartil): deixa 75% dos dados abaixo.
O intervalo interquartílico é $IQR = Q3 - Q1$. Mede a dispersão dos 50% centrais e é resistente a outliers. O boxplot é o gráfico que representa a mediana, os quartis, o IQR e os valores extremos.
Distribuições de probabilidade
5.1 Distribuição Normal (Gaussiana)
É a distribuição mais importante da estatística. Possui forma de sino, é simétrica em torno da média e seus parâmetros são $\mu$ e $\sigma$.
Regra Empírica (68‑95‑99,7): aproximadamente 68% dos dados estão a 1 desvio‑padrão da média; 95% a 2 desvios‑padrão; 99,7% a 3 desvios‑padrão.
Escore padronizado (Z): indica quantos desvios‑padrão um valor está acima ou abaixo da média.
$z = \frac{x - \mu}{\sigma}$
Importância: pelo Teorema Central do Limite (TCL), a média amostral de um grande número de observações independentes se aproxima de uma distribuição normal, independentemente da forma da distribuição original. Isso justifica o uso de intervalos de confiança e testes de hipóteses mesmo quando a população não é normal.
5.2 Outras distribuições importantes
Binomial: modela o número de sucessos em $n$ ensaios independentes, cada um com probabilidade de sucesso $p$. Ex.: proporção de eleitores que aprovam determinada política.
Poisson: modela a contagem de eventos raros em um intervalo fixo (tempo, área). Ex.: número de acidentes de trânsito em um cruzamento por mês.
t de Student: similar à normal, mas com caudas mais pesadas. Utilizada quando o desvio‑padrão populacional é desconhecido e a amostra é pequena ($n < 30$). Converge para a normal à medida que os graus de liberdade aumentam.
Qui‑quadrado ($\chi^2$): utilizada para testes de associação em variáveis categóricas (teste de independência) e para testar a aderência a um modelo.
F de Snedecor: surge da razão de duas variâncias e é usada na ANOVA e na comparação de modelos de regressão.
Amostragem
6.1 Amostragem probabilística
Toda unidade da população tem probabilidade conhecida e maior que zero de ser selecionada. Permite calcular a margem de erro e generalizar estatisticamente.
Aleatória simples (AAS): cada elemento da população tem a mesma probabilidade de ser selecionado, e as seleções são independentes. Ex.: sorteio de CPFs do CadÚnico.
Sistemática: seleciona‑se um início aleatório e, a partir dele, toma‑se cada $k$‑ésimo elemento ($k = N/n$). Ex.: entrevistar um a cada dez pacientes em uma fila.
Estratificada: a população é dividida em estratos homogêneos, e sorteia‑se uma amostra dentro de cada estrato. Reduz a variância quando os estratos realmente diferem entre si. Ex.: amostrar separadamente zonas urbana e rural de um município.
Por conglomerados (clusters): a população é dividida em conglomerados (heterogêneos internamente); sorteiam‑se alguns conglomerados e estuda‑se todos os seus elementos. Reduz custos logísticos. Ex.: sortear escolas e entrevistar todos os professores das escolas selecionadas.
Em múltiplos estágios: combinação dos anteriores. Ex.: Censo Escolar — sorteiam‑se municípios, depois escolas, depois turmas.
6.2 Amostragem não probabilística
A probabilidade de seleção é desconhecida. Útil para pesquisas exploratórias, mas não permite generalização estatística rigorosa.
Conveniência: seleciona‑se quem está disponível. Ex.: entrevistas em uma praça.
Por julgamento (intencional): o pesquisador seleciona unidades que julga representativas.
Por cotas: define‑se cotas (sexo, idade) e seleciona‑se até preenchê‑las. Similar a uma estratificada, mas sem aleatorização dentro das cotas.
Bola de neve (snowball): um entrevistado indica outro, útil para populações de difícil acesso.
Inferência estatística: estimação
7.1 Estimação pontual
Fornece um único valor como estimativa do parâmetro. Ex.: $\bar{x}$ para estimar $\mu$. Contudo, o valor pontual não informa sobre a precisão.
7.2 Intervalo de confiança (IC)
Faixa de valores que, com um nível de confiança - \alpha$ (usualmente 95%), contém o parâmetro populacional. A interpretação correta é frequentista: se repetíssemos o processo de amostragem infinitas vezes, a proporção de intervalos que conteriam o verdadeiro parâmetro seria - \alpha$.
Para a média com $\sigma$ conhecido e normalidade:
$IC{\mu (1-\alpha)} = \bar{x} \pm z{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$
Margem de erro: $z{\alpha/2} \cdot \sigma / \sqrt{n}$. Para reduzir a margem de erro pela metade, o tamanho da amostra precisa quadruplicar.
Interpretação errônea comum: não se pode dizer que há 95% de probabilidade de o parâmetro estar no intervalo calculado; o parâmetro é fixo, o intervalo é aleatório.
Testes de hipóteses
8.1 Estrutura lógica
Formulam‑se duas hipóteses complementares:
$H0$ (hipótese nula): representa o status quo, a ausência de efeito ou de diferença.
$H1$ (hipótese alternativa): afirma que há efeito, diferença ou associação.
Escolhe‑se o nível de significância $\alpha$ (tradicionalmente 0,05), que é a probabilidade máxima tolerada de cometer um Erro Tipo I (rejeitar $H0$ quando ela é verdadeira).
Calcula‑se a estatística do teste e o valor‑p (p‑valor), que é a probabilidade de obter um resultado tão ou mais extremo que o observado, supondo $H0$ verdadeira.
Toma‑se a decisão: se p‑valor < $\alpha$, rejeita‑se $H0$ (resultado estatisticamente significativo). Caso contrário, não se rejeita $H0$.
8.2 Erros possíveis
Erro Tipo I ($\alpha$): falso positivo — rejeitar $H0$ quando ela é verdadeira. A probabilidade é controlada pelo pesquisador ao definir $\alpha$.
Erro Tipo II ($\beta$): falso negativo — não rejeitar $H0$ quando $H1$ é verdadeira. Depende do tamanho do efeito real e do tamanho da amostra.
Poder do teste ( - \beta$): probabilidade de rejeitar corretamente uma $H0$ falsa. Testes com amostras maiores têm maior poder.
8.3 Significância estatística × relevância prática
Um resultado pode ser estatisticamente significativo (p < 0,05) e, ainda assim, ter efeito de magnitude tão pequena que não justifica uma política pública. A significância informa sobre a confiança na existência do efeito; a magnitude do efeito informa sobre sua importância.
Correlação e regressão
9.1 Correlação
Mede o grau de associação linear entre duas variáveis quantitativas.
Coeficiente de correlação de Pearson ($r$): varia de $-1$ a $+1$. $r = 0$ indica ausência de correlação linear; $|r| \approx 1$ indica forte correlação. Sensível a outliers.
Correlação de Spearman ($\rho$): baseia‑se nos postos (ordens), não nos valores brutos. É uma medida não‑paramétrica, adequada para variáveis ordinais e para relações não‑lineares monotônicas.
Cuidado fundamental: correlação não implica causalidade. Duas variáveis podem estar associadas por conta de uma terceira variável (confundidora) ou por mero acaso.
9.2 Regressão linear simples
Modela a relação entre uma variável dependente ($y$) e uma variável independente ($x$):
$y = \beta0 + \beta1 x + \varepsilon$
$\beta0$: intercepto.
$\beta1$: coeficiente angular — efeito de $x$ sobre $y$.
$\varepsilon$: erro aleatório (ruído).
$R^2$: coeficiente de determinação — proporção da variância de $y$ explicada pelo modelo (varia de 0 a 1). Um $R^2$ elevado não garante causalidade; um modelo pode ter $R^2$ alto e ser espúrio.
9.3 Regressão linear múltipla
Extensão para várias variáveis independentes: $y = \beta0 + \beta1 x1 + \beta2 x2 + ... + \betak xk + \varepsilon$. Permite isolar o efeito de cada variável, controlando pelas demais. Ex.: estimar o efeito do gasto por aluno no desempenho escolar ($x1$), controlando pelo nível socioeconômico médio da escola ($x2$). A hipótese de ceteris paribus é crucial.
ANOVA (Análise de Variância)
A ANOVA é um método para comparar médias de três ou mais grupos simultaneamente, controlando a taxa de erro do Tipo I (que seria inflada se fizéssemos múltiplos testes t). O teste F verifica se a variância entre os grupos é significativamente maior do que a variância dentro dos grupos. Pressupostos: independência das observações, normalidade dos resíduos e homocedasticidade (igualdade das variâncias entre grupos). Ex.: comparar o desempenho médio de alunos de quatro métodos de ensino diferentes.
Para a prova
Variáveis: nominais, ordinais, discretas, contínuas. A moda é a única medida para nominais.
Média é sensível a outliers; mediana é resistente.
Distribuição normal: 68% (1$\sigma$), 95% (2$\sigma$), 99,7% (3$\sigma$). O TCL justifica a aproximação normal para grandes amostras.
CV = $s/\bar{x} \times 100$ — adimensional, usado para comparar variabilidades.
Amostragem probabilística: AAS, sistemática, estratificada, conglomerados. Não probabilística: conveniência, cotas, bola de neve.
p‑valor < $\alpha$ → rejeita $H_0$. Erro Tipo I = falso positivo; Erro Tipo II = falso negativo.
Correlação ≠ causalidade. Pearson (linear, quantitativo) × Spearman (ordinal, não‑linear).
Regressão: $R^2$ mede a proporção da variância explicada.
ANOVA: compara médias de 3 ou mais grupos; estatística F.