Estatística descritiva e inferencial básica – Gestão Governamental e Métodos Aplicados

Variáveis, medidas de tendência central e dispersão, distribuição normal, amostragem, intervalos de confiança e testes de hipóteses.

Estatística Descritiva e Inferencial Básica Introdução e conceitos fundamentais A Estatística é a ciência que desenvolve e aplica métodos para coletar, organizar, resumir, analisar e interpretar dados, com o objetivo de extrair informações relevantes e apoiar a tomada de decisão sob incerteza. Tradicionalmente, divide‑se em duas grandes áreas complementares: Estatística Descritiva: ocupa‑se da organização, sumarização e apresentação dos dados, sem pretender ir além do conjunto observado. Seus instrumentos são as tabelas, os gráficos e as medidas‑resumo (média, mediana, desvio‑padrão etc.). Estatística Inferencial: utiliza os dados amostrais para fazer afirmações sobre a população de onde a amostra foi extraída, quantificando a incerteza por meio de probabilidades. Seus instrumentos incluem intervalos de confiança e testes de hipóteses. No setor público, a estatística é onipresente: embasa a construção de indicadores sociais, o desenho de amostras de pesquisas como a PNAD e o Censo Escolar, a avaliação de impacto de políticas e o monitoramento de metas. 1.1 População, amostra, parâmetro e estimativa População (N): conjunto completo de elementos que compartilham uma característica de interesse para o estudo. Ex.: todas as escolas públicas do país, todos os beneficiários do Bolsa Família. Amostra (n): subconjunto da população, selecionado segundo um plano amostral, com o propósito de representar a população. Ex.: 500 escolas sorteadas aleatoriamente. Parâmetro: medida numérica que descreve uma característica da população. É um valor fixo, mas geralmente desconhecido. Ex.: média populacional ($\mu$), desvio‑padrão populacional ($\sigma$), proporção populacional ($\pi$). Estatística (ou estimador): medida calculada a partir dos dados da amostra. É uma variável aleatória, pois seu valor depende da amostra sorteada. Ex.: média amostral ($\bar{x}$), desvio‑padrão amostral ($s$), proporção amostral ($p$). O objetivo da inferência estatística é utilizar as estatísticas para estimar (ou testar hipóteses sobre) os parâmetros populacionais, com um grau de incerteza mensurável. Tipos de variáveis A classificação correta das variáveis orienta a escolha das técnicas de análise e das representações gráficas adequadas. Qualitativas (categóricas): Nominais: não têm ordem natural. Ex.: sexo, cor da pele, religião, região de residência, partido político. A única medida de tendência central possível é a moda. Ordinais: possuem uma ordem ou hierarquia, mas as diferenças entre categorias não são quantificáveis. Ex.: escolaridade (fundamental, médio, superior), classe social (A, B, C, D, E), grau de satisfação (insatisfeito, neutro, satisfeito). Admite‑se mediana e percentis, mas a média aritmética pode ser questionável. Quantitativas (numéricas): Discretas: assumem valores enumeráveis, geralmente números inteiros. Ex.: número de filhos, número de processos em um tribunal, quantidade de multas aplicadas. Contínuas: podem assumir qualquer valor em um intervalo, inclusive decimais. Ex.: altura, peso, salário, tempo de espera, distância percorrida. Estatística descritiva: medidas de tendência central 3.1 Média aritmética ($\bar{x}$) É a soma de todos os valores dividida pelo número de observações. Representa o “centro de gravidade” dos dados. $\bar{x} = \frac{\sum{i=1}^{n} xi}{n}$ Vantagem: utiliza toda a informação disponível. Desvantagem: extremamente sensível a valores atípicos (outliers). Um único salário muito alto pode inflar a média salarial de um grupo. No setor público: a média é usada para gasto médio por aluno, renda per capita, tempo médio de espera etc. 3.2 Mediana (Md) É o valor que divide o conjunto ordenado de dados ao meio: 50% das observações estão abaixo e 50% acima. Cálculo: se $n$ é ímpar, a mediana é o valor central. Se $n$ é par, calcula‑se a média dos dois valores centrais. Vantagem: é resistente a outliers; a presença de valores extremos não a afeta. Aplicação: amplamente empregada em distribuições assimétricas, como a renda domiciliar (a mediana é preferível à média para descrever o “domicílio típico”). 3.3 Moda (Mo) É o valor que aparece com maior frequência no conjunto de dados. Uma distribuição pode ser unimodal, bimodal ou multimodal. Vantagem: é a única medida de tendência central aplicável a variáveis qualitativas nominais. Desvantagem: em conjuntos de dados pequenos ou contínuos, pode não ser representativa. 3.4 Relação entre média, mediana e moda e a forma da distribuição Distribuição simétrica: $\bar{x} \approx Md \approx Mo$. Assimetria positiva (cauda à direita): $Mo < Md < \bar{x}$. Ex.: distribuição de salários, onde poucos ganham muito e a maioria ganha pouco. Assimetria negativa (cauda à esquerda): $\bar{x} < Md < Mo$. Menos comum em fenômenos sociais. Medidas de dispersão As medidas de dispersão quantificam a variabilidade dos dados, complementando as medidas de centro. 4.1 Amplitude total Diferença entre o valor máximo e o valor mínimo. É a medida mais simples, porém muito influenciada por outliers. 4.2 Variância ($s^2$ para amostra, $\sigma^2$ para população) Capta o desvio quadrático médio em relação à média. $s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$ A divisão por $n-1$ (graus de liberdade) fornece um estimador não‑viesado da variância populacional. 4.3 Desvio‑padrão ($s$) É a raiz quadrada da variância. Retorna a medida à unidade original dos dados, facilitando a interpretação. Quanto maior o desvio‑padrão, maior a heterogeneidade dos dados. 4.4 Coeficiente de variação (CV) Relaciona desvio‑padrão e média, sendo expresso em percentagem: $CV = \frac{s}{\bar{x}} \times 100$ Permite comparar a variabilidade de conjuntos com unidades ou escalas distintas. Ex.: a dispersão dos gastos municipais com saúde (em reais) pode ser comparada à dispersão dos gastos com educação, desde que ambas as variáveis tenham o CV. 4.5 Quartis e intervalo interquartílico (IQR) Os quartis dividem o conjunto de dados ordenado em quatro partes de igual tamanho: Q1 (primeiro quartil): deixa 25% dos dados abaixo. Q2 (segundo quartil): coincide com a mediana (50%). Q3 (terceiro quartil): deixa 75% dos dados abaixo. O intervalo interquartílico é $IQR = Q3 - Q1$. Mede a dispersão dos 50% centrais e é resistente a outliers. O boxplot é o gráfico que representa a mediana, os quartis, o IQR e os valores extremos. Distribuições de probabilidade 5.1 Distribuição Normal (Gaussiana) É a distribuição mais importante da estatística. Possui forma de sino, é simétrica em torno da média e seus parâmetros são $\mu$ e $\sigma$. Regra Empírica (68‑95‑99,7): aproximadamente 68% dos dados estão a 1 desvio‑padrão da média; 95% a 2 desvios‑padrão; 99,7% a 3 desvios‑padrão. Escore padronizado (Z): indica quantos desvios‑padrão um valor está acima ou abaixo da média. $z = \frac{x - \mu}{\sigma}$ Importância: pelo Teorema Central do Limite (TCL), a média amostral de um grande número de observações independentes se aproxima de uma distribuição normal, independentemente da forma da distribuição original. Isso justifica o uso de intervalos de confiança e testes de hipóteses mesmo quando a população não é normal. 5.2 Outras distribuições importantes Binomial: modela o número de sucessos em $n$ ensaios independentes, cada um com probabilidade de sucesso $p$. Ex.: proporção de eleitores que aprovam determinada política. Poisson: modela a contagem de eventos raros em um intervalo fixo (tempo, área). Ex.: número de acidentes de trânsito em um cruzamento por mês. t de Student: similar à normal, mas com caudas mais pesadas. Utilizada quando o desvio‑padrão populacional é desconhecido e a amostra é pequena ($n < 30$). Converge para a normal à medida que os graus de liberdade aumentam. Qui‑quadrado ($\chi^2$): utilizada para testes de associação em variáveis categóricas (teste de independência) e para testar a aderência a um modelo. F de Snedecor: surge da razão de duas variâncias e é usada na ANOVA e na comparação de modelos de regressão. Amostragem 6.1 Amostragem probabilística Toda unidade da população tem probabilidade conhecida e maior que zero de ser selecionada. Permite calcular a margem de erro e generalizar estatisticamente. Aleatória simples (AAS): cada elemento da população tem a mesma probabilidade de ser selecionado, e as seleções são independentes. Ex.: sorteio de CPFs do CadÚnico. Sistemática: seleciona‑se um início aleatório e, a partir dele, toma‑se cada $k$‑ésimo elemento ($k = N/n$). Ex.: entrevistar um a cada dez pacientes em uma fila. Estratificada: a população é dividida em estratos homogêneos, e sorteia‑se uma amostra dentro de cada estrato. Reduz a variância quando os estratos realmente diferem entre si. Ex.: amostrar separadamente zonas urbana e rural de um município. Por conglomerados (clusters): a população é dividida em conglomerados (heterogêneos internamente); sorteiam‑se alguns conglomerados e estuda‑se todos os seus elementos. Reduz custos logísticos. Ex.: sortear escolas e entrevistar todos os professores das escolas selecionadas. Em múltiplos estágios: combinação dos anteriores. Ex.: Censo Escolar — sorteiam‑se municípios, depois escolas, depois turmas. 6.2 Amostragem não probabilística A probabilidade de seleção é desconhecida. Útil para pesquisas exploratórias, mas não permite generalização estatística rigorosa. Conveniência: seleciona‑se quem está disponível. Ex.: entrevistas em uma praça. Por julgamento (intencional): o pesquisador seleciona unidades que julga representativas. Por cotas: define‑se cotas (sexo, idade) e seleciona‑se até preenchê‑las. Similar a uma estratificada, mas sem aleatorização dentro das cotas. Bola de neve (snowball): um entrevistado indica outro, útil para populações de difícil acesso. Inferência estatística: estimação 7.1 Estimação pontual Fornece um único valor como estimativa do parâmetro. Ex.: $\bar{x}$ para estimar $\mu$. Contudo, o valor pontual não informa sobre a precisão. 7.2 Intervalo de confiança (IC) Faixa de valores que, com um nível de confiança - \alpha$ (usualmente 95%), contém o parâmetro populacional. A interpretação correta é frequentista: se repetíssemos o processo de amostragem infinitas vezes, a proporção de intervalos que conteriam o verdadeiro parâmetro seria - \alpha$. Para a média com $\sigma$ conhecido e normalidade: $IC{\mu (1-\alpha)} = \bar{x} \pm z{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$ Margem de erro: $z{\alpha/2} \cdot \sigma / \sqrt{n}$. Para reduzir a margem de erro pela metade, o tamanho da amostra precisa quadruplicar. Interpretação errônea comum: não se pode dizer que há 95% de probabilidade de o parâmetro estar no intervalo calculado; o parâmetro é fixo, o intervalo é aleatório. Testes de hipóteses 8.1 Estrutura lógica Formulam‑se duas hipóteses complementares: $H0$ (hipótese nula): representa o status quo, a ausência de efeito ou de diferença. $H1$ (hipótese alternativa): afirma que há efeito, diferença ou associação. Escolhe‑se o nível de significância $\alpha$ (tradicionalmente 0,05), que é a probabilidade máxima tolerada de cometer um Erro Tipo I (rejeitar $H0$ quando ela é verdadeira). Calcula‑se a estatística do teste e o valor‑p (p‑valor), que é a probabilidade de obter um resultado tão ou mais extremo que o observado, supondo $H0$ verdadeira. Toma‑se a decisão: se p‑valor < $\alpha$, rejeita‑se $H0$ (resultado estatisticamente significativo). Caso contrário, não se rejeita $H0$. 8.2 Erros possíveis Erro Tipo I ($\alpha$): falso positivo — rejeitar $H0$ quando ela é verdadeira. A probabilidade é controlada pelo pesquisador ao definir $\alpha$. Erro Tipo II ($\beta$): falso negativo — não rejeitar $H0$ quando $H1$ é verdadeira. Depende do tamanho do efeito real e do tamanho da amostra. Poder do teste ( - \beta$): probabilidade de rejeitar corretamente uma $H0$ falsa. Testes com amostras maiores têm maior poder. 8.3 Significância estatística × relevância prática Um resultado pode ser estatisticamente significativo (p < 0,05) e, ainda assim, ter efeito de magnitude tão pequena que não justifica uma política pública. A significância informa sobre a confiança na existência do efeito; a magnitude do efeito informa sobre sua importância. Correlação e regressão 9.1 Correlação Mede o grau de associação linear entre duas variáveis quantitativas. Coeficiente de correlação de Pearson ($r$): varia de $-1$ a $+1$. $r = 0$ indica ausência de correlação linear; $|r| \approx 1$ indica forte correlação. Sensível a outliers. Correlação de Spearman ($\rho$): baseia‑se nos postos (ordens), não nos valores brutos. É uma medida não‑paramétrica, adequada para variáveis ordinais e para relações não‑lineares monotônicas. Cuidado fundamental: correlação não implica causalidade. Duas variáveis podem estar associadas por conta de uma terceira variável (confundidora) ou por mero acaso. 9.2 Regressão linear simples Modela a relação entre uma variável dependente ($y$) e uma variável independente ($x$): $y = \beta0 + \beta1 x + \varepsilon$ $\beta0$: intercepto. $\beta1$: coeficiente angular — efeito de $x$ sobre $y$. $\varepsilon$: erro aleatório (ruído). $R^2$: coeficiente de determinação — proporção da variância de $y$ explicada pelo modelo (varia de 0 a 1). Um $R^2$ elevado não garante causalidade; um modelo pode ter $R^2$ alto e ser espúrio. 9.3 Regressão linear múltipla Extensão para várias variáveis independentes: $y = \beta0 + \beta1 x1 + \beta2 x2 + ... + \betak xk + \varepsilon$. Permite isolar o efeito de cada variável, controlando pelas demais. Ex.: estimar o efeito do gasto por aluno no desempenho escolar ($x1$), controlando pelo nível socioeconômico médio da escola ($x2$). A hipótese de ceteris paribus é crucial. ANOVA (Análise de Variância) A ANOVA é um método para comparar médias de três ou mais grupos simultaneamente, controlando a taxa de erro do Tipo I (que seria inflada se fizéssemos múltiplos testes t). O teste F verifica se a variância entre os grupos é significativamente maior do que a variância dentro dos grupos. Pressupostos: independência das observações, normalidade dos resíduos e homocedasticidade (igualdade das variâncias entre grupos). Ex.: comparar o desempenho médio de alunos de quatro métodos de ensino diferentes. Para a prova Variáveis: nominais, ordinais, discretas, contínuas. A moda é a única medida para nominais. Média é sensível a outliers; mediana é resistente. Distribuição normal: 68% (1$\sigma$), 95% (2$\sigma$), 99,7% (3$\sigma$). O TCL justifica a aproximação normal para grandes amostras. CV = $s/\bar{x} \times 100$ — adimensional, usado para comparar variabilidades. Amostragem probabilística: AAS, sistemática, estratificada, conglomerados. Não probabilística: conveniência, cotas, bola de neve. p‑valor < $\alpha$ → rejeita $H_0$. Erro Tipo I = falso positivo; Erro Tipo II = falso negativo. Correlação ≠ causalidade. Pearson (linear, quantitativo) × Spearman (ordinal, não‑linear). Regressão: $R^2$ mede a proporção da variância explicada. ANOVA: compara médias de 3 ou mais grupos; estatística F.