Métodos quantitativos em políticas públicas – Políticas Públicas | Tuco-Tuco
Estatística descritiva, inferência, pesquisa amostral, avaliação econométrica e uso de evidências quantitativas.
Métodos Quantitativos em Políticas Públicas
As políticas públicas, por sua própria natureza, lidam com fenômenos sociais de larga escala: desemprego, criminalidade, desigualdade de renda, mortalidade infantil, desempenho educacional. Os métodos quantitativos oferecem o instrumental necessário para descrever esses fenômenos com precisão, identificar padrões, testar hipóteses sobre suas causas e, sobretudo, avaliar se as intervenções estatais estão produzindo os efeitos desejados. O gestor público não precisa ser um econometrista, mas deve ser um consumidor inteligente de estatísticas, capaz de compreender relatórios de avaliação, interpretar indicadores e encomendar estudos com senso crítico. Esta aula aborda os conceitos e ferramentas centrais da análise quantitativa aplicada ao ciclo de políticas públicas.
Estatística Descritiva: da Massa de Dados à Informação
A análise de qualquer fenômeno social começa pela descrição sistemática dos dados disponíveis. A estatística descritiva fornece as medidas que sintetizam e organizam a informação contida em milhares ou milhões de observações individuais.
Medidas de Tendência Central: indicam o valor "típico" ou o centro da distribuição dos dados.
Média aritmética ($ \bar{x} $): é a soma de todos os valores dividida pelo número de observações ($ \bar{x} = \frac{1}{n}\sum{i=1}^{n} xi $). É a medida mais utilizada, mas extremamente sensível a valores extremos (outliers). Por exemplo, a renda média de um país é "puxada" para cima pela renda dos mais ricos, e não reflete a realidade da maioria.
Mediana (Md): é o valor que ocupa a posição central de um conjunto de dados ordenados, dividindo a distribuição ao meio. Metade das observações está abaixo, e metade acima. A mediana é uma medida robusta, pouco afetada por outliers, sendo preferível à média para descrever a renda e a riqueza.
Moda (Mo): é o valor que ocorre com maior frequência na distribuição. Útil para dados categóricos (ex.: o tipo de calçado mais comprado, a categoria de deficiência mais frequente).
Medidas de Dispersão: indicam o grau de variabilidade ou heterogeneidade dos dados em torno do centro.
Variância ($ s^2 $): mede o desvio quadrático médio das observações em relação à média. Sua fórmula é $ s^2 = \frac{1}{n-1}\sum{i=1}^{n} (xi - \bar{x})^2 $. Seu valor está em unidades ao quadrado, o que dificulta a interpretação.
Desvio padrão ($ s $): é a raiz quadrada da variância ($ s = \sqrt{s^2} $). Mede a dispersão na unidade original dos dados. É uma das medidas mais utilizadas. Um desvio padrão baixo indica que os dados estão concentrados em torno da média; um desvio padrão alto, que estão espalhados.
Coeficiente de Variação (CV): é a razão entre o desvio padrão e a média, expressa em percentual ($ CV = \frac{s}{\bar{x}} \times 100\% $). É uma medida de dispersão relativa, que permite comparar a variabilidade de fenômenos com médias muito diferentes (ex.: comparar a homogeneidade da distribuição de renda entre países ricos e pobres).
Amplitude e Intervalo Interquartílico: a amplitude é a diferença entre o valor máximo e o mínimo. O intervalo interquartílico é a diferença entre o terceiro quartil (Q3, que separa os 75% superiores) e o primeiro (Q1, que separa os 25% superiores). É a amplitude onde se concentram os 50% centrais da distribuição, e é uma medida robusta de dispersão.
Distribuições de Frequência e Representações Gráficas:
Tabelas de Frequência: organizam os dados em classes ou categorias, mostrando a contagem (frequência absoluta) e a proporção (frequência relativa) de cada uma.
Histograma: gráfico de barras sem espaçamento que representa a distribuição de frequências de uma variável numérica.
Box-plot (Diagrama de Caixa): representação gráfica poderosa que mostra a mediana, os quartis e a presença de outliers. É uma ferramenta indispensável para comparar distribuições entre diferentes grupos (ex.: desigualdade de renda entre estados).
Medidas de Posição e a Análise da Desigualdade: os percentis dividem a distribuição em cem partes iguais. O décimo percentil (P10) é o valor abaixo do qual estão 10% das observações; o nonagésimo percentil (P90) é o valor abaixo do qual estão 90%. A comparação entre a renda do P90 e a renda do P10 (a razão P90/P10) é um indicador clássico de desigualdade. O Índice de Gini, por sua vez, é a medida síntese mais difundida de desigualdade. Varia de 0 (perfeita igualdade, todos têm a mesma renda) a 1 (máxima desigualdade, um único indivíduo detém toda a renda). O Brasil historicamente apresenta um Gini elevado, oscilando em torno de 0,50, o que o coloca entre os países mais desiguais do mundo.
Noções de Inferência Estatística: Generalizando para a População
Na imensa maioria das vezes, o gestor público não dispõe de dados para toda a população, mas apenas para uma amostra dela. A inferência estatística é o conjunto de métodos que permite generalizar conclusões da amostra para a população, quantificando o grau de incerteza associado a essa generalização.
População e Amostra: a população é o conjunto completo de indivíduos, domicílios ou unidades de interesse (ex.: todos os alunos da rede pública brasileira). A amostra é um subconjunto representativo dessa população (ex.: os alunos que prestaram a Prova Brasil). A qualidade da amostra determina a validade da inferência. Uma amostra é probabilística quando cada elemento da população tem uma probabilidade conhecida e diferente de zero de ser selecionado. As pesquisas do IBGE, como a PNAD Contínua, utilizam amostras probabilísticas rigorosas.
Margem de Erro: como a amostra nunca é a cópia exata da população, a estimativa amostral (ex.: uma taxa de desemprego de 9,5%) está sujeita a um erro amostral. A margem de erro é a diferença máxima que se espera entre a estimativa amostral e o verdadeiro valor da população, para um dado nível de confiança. A divulgação de pesquisas sempre deve vir acompanhada da margem de erro (ex.: "a taxa de desemprego foi de 9,5%, com margem de erro de 1 ponto percentual").
Intervalo de Confiança (IC): é um intervalo estimado para o parâmetro populacional, construído a partir da amostra. Um intervalo de $ 95\% $ de confiança (o mais usual) significa que, se o processo de amostragem fosse repetido inúmeras vezes, em 95% delas o intervalo conteria o verdadeiro valor da população. Por exemplo: a estimativa da taxa de aprovação escolar é 85% $ \pm $ 3 p.p., com 95% de confiança.
Teste de Hipótese e Valor-p: um teste de hipótese verifica se uma diferença observada (ex.: a nota média de meninos é maior que a de meninas) é estatisticamente significativa ou se pode ter ocorrido por mero acaso. O valor-p (ou p-valor) é a probabilidade de se observar uma diferença tão ou mais extrema do que a encontrada, assumindo que a hipótese nula (a de que não há diferença) é verdadeira. Por convenção, se o valor-p for menor que 0,05 (5%), rejeita-se a hipótese nula e considera-se que a diferença é estatisticamente significativa. É fundamental não confundir significância estatística com relevância prática. Um programa pode gerar um aumento de 0,01 pontos na proficiência que é estatisticamente significativo (porque a amostra é enorme), mas completamente irrelevante para a política educacional.
Correlação, Causalidade e os Métodos de Avaliação de Impacto
A maior armadilha da análise quantitativa é confundir correlação com causalidade. Duas variáveis são correlacionadas quando variam juntas. Correlação não implica causalidade. O fato de observar que cidades com mais policiais têm maiores taxas de criminalidade não significa que a polícia cause o crime (provavelmente, é o inverso: a polícia é alocada justamente onde o crime é mais alto).
Para estabelecer uma relação causal em políticas públicas — ou seja, afirmar com segurança que a intervenção X foi a responsável pela mudança observada em Y — é necessário construir um contrafactual: a situação do grupo beneficiado caso a política não tivesse existido. O contrafactual não é observável, e estimá-lo é o grande desafio da avaliação de impacto. Os principais métodos são:
Experimento Randomizado (RCT — Randomized Controlled Trial): é o padrão-ouro para inferência causal. A elegibilidade para receber a política (grupo de tratamento) ou não (grupo de controle) é definida por sorteio aleatório. A randomização garante que, em média, os dois grupos sejam idênticos em todas as características (observáveis e não observáveis) antes da intervenção. Qualquer diferença subsequente no resultado entre os grupos pode ser atribuída causalmente à política. É um método caro, nem sempre eticamente viável e sujeito a problemas de contaminação entre grupos.
Diferenças em Diferenças (DiD): compara a evolução do grupo tratado e do grupo controle antes e depois da intervenção. O objetivo é "isolar" o efeito da política da tendência temporal que ambos os grupos experimentariam. A hipótese fundamental é a de tendências paralelas: na ausência da política, o grupo tratado teria evoluído na mesma trajetória do grupo controle.
Regressão Descontínua (RD): é aplicada quando a elegibilidade para a política é definida por um ponto de corte (nota mínima, idade, linha de pobreza). Por exemplo, um programa de bolsas para alunos com nota acima de 7,0. A lógica é comparar os alunos que ficaram "imediatamente abaixo" do corte (nota 6,9) com os que ficaram "imediatamente acima" (nota 7,1). Estes dois grupos são praticamente idênticos, exceto pelo recebimento da bolsa, o que torna a comparação muito próxima de um experimento.
*Pareamento por Escore de Propensão (Propensity Score Matching — PSM): quando não há aleatorização, o PSM é uma técnica que busca construir um grupo de controle artificial. Para cada indivíduo tratado, localiza-se no grupo não tratado um indivíduo que seja extremamente similar em características observáveis, formando pares. A hipótese central é a de que, condicionalmente às características observáveis, a seleção para o tratamento é aleatória. A grande fragilidade do PSM é que ele não controla para fatores não observáveis.
Indicadores Compostos e Índices
Indicadores compostos (ou índices) são a agregação de múltiplas variáveis em um único número síntese. Eles facilitam a comunicação e a comparação de fenômenos multidimensionais, embora escondam a granularidade das variáveis que os compõem.
IDH (Índice de Desenvolvimento Humano): elaborado pelo PNUD, é a média geométrica de três dimensões: saúde (expectativa de vida ao nascer), educação (média de anos de estudo da população adulta e expectativa de anos de estudo para crianças) e renda (Renda Nacional Bruta per capita). Varia de 0 a 1.
IDEB (Índice de Desenvolvimento da Educação Básica): criado pelo INEP, combina dois componentes: a taxa de aprovação (fluxo escolar) e a média da proficiência dos alunos no SAEB. É calculado para cada escola e rede de ensino, servindo como base para a definição de metas de melhoria.
IPCA (Índice de Preços ao Consumidor Amplo): apurado pelo IBGE desde 1979, é o índice oficial de inflação do Brasil, utilizado como referência pelo Banco Central para o regime de metas. A base da sua ponderação é a Pesquisa de Orçamentos Familiares (POF).
Índice de Vulnerabilidade Social (IVS): elaborado pelo IPEA, mede a exclusão social e a vulnerabilidade nas dimensões de infraestrutura urbana, capital humano e renda e trabalho, no nível dos municípios e setores censitários. É um complemento ao IDH, focado nas carências.
IFDM (Índice FIRJAN de Desenvolvimento Municipal) e IDHM (Índice de Desenvolvimento Humano Municipal): são exemplos de índices calculados para a totalidade dos municípios brasileiros, permitindo comparações e ranqueamentos.
Leitura Crítica de Dados e Evidências
A capacidade de navegar no universo de dados quantitativos não é apenas técnica, é também ética e política. O gestor público deve ser um leitor crítico, cético por formação, capaz de não ser enganado por gráficos maliciosos ou estatísticas descontextualizadas. Alguns alertas fundamentais:
Confira a fonte e a metodologia: quem produziu o dado? Qual o tamanho da amostra? Como a pergunta foi formulada?
Cuidado com manipulações gráficas: a escala truncada no eixo vertical de um gráfico pode fazer uma variação de 0,1% parecer uma catástrofe.
Distinga variação absoluta de relativa: uma redução da mortalidade infantil de 100 para 50 por mil nascidos vivos é uma variação absoluta de $ -50 $ pontos, mas uma variação relativa de $ -50\% $. Ambas são verdadeiras, mas carregam pesos retóricos diferentes.
Busque o contrafactual: a notícia de que "milhares de pessoas foram presas pela polícia federal este ano" não informa se a polícia está combatendo melhor o crime ou se o crime está aumentando.
Desconfie de projeções de longo prazo baseadas em tendências de curto prazo: a realidade social é complexa e não linear.
O domínio desses conceitos e a posse de uma atitude crítica perante os números são o que separa o gestor público que toma decisões baseadas em achismos e palpites daquele que fundamenta sua ação em evidências sólidas, em busca de uma política pública mais efetiva, eficiente e equitativa.