Métodos Quantitativos, Big Data e Análise de Dados para Políticas - Cultura e Educação | Tuco-Tuco
Aula de Cultura e Educação (Avaliação): Métodos Quantitativos, Big Data e Análise de Dados para Políticas. Estatística descritiva e inferencial, análise exploratória, modelos multivariados, ferramentas de Big Data e usos em educação e cultura. Estude gratuitamente para concursos públicos e OAB no Tuco-Tuco.
Métodos Quantitativos, Big Data e Análise de Dados para Políticas
Introdução
A formulação, o monitoramento e a avaliação de políticas públicas exigem cada vez mais o uso de métodos quantitativos robustos e o tratamento de grandes volumes de dados. A disseminação de sistemas de informação governamentais, a ampliação do acesso a microdados e o avanço de técnicas computacionais tornaram possível extrair evidências que antes eram inacessíveis. Esta aula apresenta os principais conceitos e ferramentas da estatística descritiva e inferencial, da análise exploratória de dados, dos modelos multivariados, das tecnologias de Big Data e da ciência de dados aplicados ao setor público.
Emprego da Estatística Descritiva e Inferencial
A estatística é dividida em dois grandes ramos: a descritiva, que organiza, resume e apresenta os dados de forma compreensível; e a inferencial, que generaliza conclusões da amostra para a população com base na teoria da probabilidade.
2.1. Estatística Descritiva
A estatística descritiva utiliza medidas de tendência central e medidas de dispersão para resumir um conjunto de dados.
Média ( x̄ ): soma de todos os valores dividida pelo número de observações. É sensível a valores extremos (outliers).
Mediana: valor central da série ordenada. Resistente a outliers, sendo preferível quando a distribuição é assimétrica.
Moda: valor que ocorre com maior frequência. É a única medida de tendência central aplicável a variáveis qualitativas nominais.
As medidas de dispersão indicam o grau de variabilidade dos dados:
Amplitude: diferença entre o valor máximo e o mínimo.
Variância (σ² ou s²): média dos desvios quadráticos em relação à média.
Desvio‑padrão (σ ou s): raiz quadrada da variância; expressa a dispersão na mesma unidade dos dados.
Coeficiente de variação (CV): relação entre o desvio‑padrão e a média ( CV = σ/μ × 100 % ), permitindo comparar conjuntos com unidades ou escalas distintas.
Quartis e intervalo interquartil (IQR): dividem a distribuição em quatro partes iguais (Q1, Q2, mediana, Q3). O IQR (Q3 – Q1) é uma medida robusta de dispersão.
Boxplot – gráfico que resume a distribuição por meio da mediana, dos quartis e da identificação de outliers.
2.2. Estatística Inferencial
A inferência estatística permite estimar parâmetros populacionais e testar hipóteses a partir de amostras. Seus conceitos centrais são:
População: conjunto total de elementos de interesse.
Amostra: subconjunto representativo da população.
Parâmetro: medida numérica que descreve a população (ex.: μ, σ).
Estatística (estimativa): medida calculada a partir da amostra (ex.: x̄, s).
Intervalo de confiança (IC): faixa de valores que, com determinado nível de confiança (usualmente 95 %), contém o parâmetro populacional. O IC é dado por:
$ IC = \bar{x} \pm z \times \frac{s}{\sqrt{n}} $
onde z é o valor crítico da normal padrão (1,96 para 95 %) e n é o tamanho da amostra.
Teste de hipóteses: procedimento para decidir, com base na amostra, se rejeita ou não a hipótese nula (H₀). O p‑valor é a probabilidade de se obter um resultado tão extremo quanto o observado, assumindo que H₀ é verdadeira. Se p < α (nível de significância, geralmente 0,05), rejeita‑se H₀. Dois tipos de erro são possíveis:
Erro tipo I (falso positivo): rejeitar H₀ verdadeira.
Erro tipo II (falso negativo): não rejeitar H₀ falsa.
O poder do teste (1 – β) é a probabilidade de rejeitar corretamente H₀ quando ela é falsa.
Análise Exploratória de Dados (EDA)
A análise exploratória de dados foi proposta por John Tukey (1977) como uma abordagem filosófica para investigar dados antes de qualquer modelagem formal, utilizando principalmente métodos visuais e estatísticas resistentes. A EDA não parte de hipóteses prontas; ao contrário, gera hipóteses e revela padrões, anomalias e relacionamentos que orientam as análises posteriores.
Principais ferramentas da EDA:
Histogramas e diagramas de densidade – para examinar a forma da distribuição.
Boxplots – para identificar outliers e comparar distributions entre grupos.
Gráficos de dispersão – para visualizar relações entre duas variáveis contínuas.
Gráficos de barras e de setores – para variáveis categóricas.
Mapas de calor (heatmaps) – para exibir matrizes de correlação ou dados georreferenciados.
No setor público, a EDA é frequentemente empregada na fase de diagnóstico de políticas, permitindo descobrir desigualdades regionais, sazonalidades e grupos de risco que demandam ações específicas.
Modelos Multivariados
Os modelos multivariados analisam simultaneamente múltiplas variáveis, permitindo controlar fatores de confusão e capturar relações complexas.
4.1. Regressão Linear Múltipla
Modela a relação entre uma variável dependente contínua e duas ou mais variáveis independentes. A equação geral é:
$ Y = \beta0 + \beta1 X1 + \beta2 X2 + \dots + \betak Xk + \varepsilon $
Onde β₁ é o efeito esperado de X₁ sobre Y, mantendo as demais variáveis constantes. Na administração pública, a regressão linear múltipla é usada, por exemplo, para explicar o IDEB dos municípios com base em variáveis como gasto por aluno, proporção de professores com formação superior e nível socioeconômico das famílias.
4.2. Regressão Logística
Empregada quando a variável dependente é binária (ex.: evadiu / não evadiu; benefício concedido / negado). O modelo estima a probabilidade de ocorrência do evento:
$ P(Y=1|X) = \frac{1}{1 + e^{-(\beta0 + \beta1 X1 + \dots + \betak Xk)}} $
A exponencial dos coeficientes ($e^\beta$) é interpretada em termos de razão de chances (odds ratio), indicando a mudança na chance de ocorrência do evento para cada unidade acrescida na variável independente. Na avaliação de políticas educacionais, por exemplo, a regressão logística pode estimar o efeito de um programa de mentoria sobre a probabilidade de abandono escolar.
4.3. Análise de Cluster
Técnica não supervisionada que agrupa observações (municípios, escolas, beneficiários) com base na similaridade de suas características. É muito utilizada para segmentar populações e desenhar intervenções diferenciadas. Exemplo: classificar municípios em perfis de vulnerabilidade social a partir de indicadores de renda, saneamento e escolaridade.
4.4. Análise Fatorial
Reduz a dimensionalidade de um grande número de variáveis correlacionadas a um número menor de fatores latentes. Cada fator representa uma dimensão subjacente não observada diretamente. É amplamente empregada na construção de indicadores complexos no setor público, como o Índice de Infraestrutura Escolar (IEE) desenvolvido pelo INEP para sintetizar as condições físicas das escolas brasileiras a partir de múltiplos quesitos censitários.
Big Data
5.1. Conceito e os 5 Vs
Big Data refere‑se a conjuntos de dados massivos, gerados em alta velocidade e em formatos variados, que exigem ferramentas e métodos específicos para armazenamento, processamento e análise. As cinco propriedades fundamentais (os 5 Vs) são:
Volume – enormes quantidades de dados (terabytes, petabytes).
Velocidade – geração e transmissão em tempo real ou quase real.
Variedade – dados estruturados (bases relacionais), semiestruturados (JSON, XML) e não estruturados (textos, imagens, vídeos).
Veracidade – qualidade, confiabilidade e consistência dos dados.
Valor – utilidade para a tomada de decisão, que justifica o esforço de processamento.
5.2. Ferramentas e Plataformas
Business Intelligence (BI): Power BI, Tableau e Qlik Sense são as ferramentas mais utilizadas para construir dashboards interativos, permitindo que gestores públicos acompanhem indicadores em tempo real. O Painel do Cidadão do governo federal é um exemplo de aplicação de BI.
Linguagens de análise: R e Python são os padrões na comunidade científica e governamental para limpeza, análise e modelagem de dados. Pacotes como pandas, tidyverse, scikit‑learn e statsmodels são amplamente empregados.
Bancos de dados e big data: PostgreSQL (com extensão PostGIS), MongoDB, Spark e Hadoop são utilizados para armazenar e processar grandes volumes.
5.3. Aprendizado de Máquina (Machine Learning)
O aprendizado de máquina é um subcampo da inteligência artificial que desenvolve algoritmos capazes de aprender padrões a partir de dados. Sua aplicação em políticas públicas tem crescido, abrangendo desde a previsão de demanda por serviços até a identificação de fraudes.
Aprendizado supervisionado: utiliza dados rotulados para treinar modelos preditivos. Exemplos: regressão linear, regressão logística, árvores de decisão, random forest, gradient boosting.
Aprendizado não supervisionado: trabalha com dados não rotulados para encontrar estruturas ocultas. Exemplos: análise de cluster (k‑means, hierárquico), análise de componentes principais (PCA).
Aprendizado por reforço: o modelo aprende por tentativa e erro, maximizando uma recompensa.
Na administração pública brasileira, técnicas de machine learning têm sido aplicadas para:
Previsão de receitas tributárias municipais.
Detecção de sobrepreço em compras governamentais.
Análise de risco de evasão escolar e de abandono de programas sociais.
Classificação automatizada de demandas de ouvidoria e análise de sentimentos.
5.4. Pré‑processamento e Tratamento de Dados
Antes de qualquer análise, os dados brutos devem passar por etapas de preparação:
Limpeza: tratamento de valores ausentes (remoção, imputação), correção de erros de digitação, padronização de formatos.
Integração: combinação de diferentes bases de dados por meio de chaves comuns (CPF, CNPJ, código INEP, código IBGE). O Cadastro Único e o Censo Escolar são exemplos de bases frequentemente integradas.
Transformação: normalização (escalonamento dos dados para uma faixa comum), criação de variáveis derivadas (ex.: taxa de evasão = evadidos / matriculados) e codificação de variáveis categóricas.
Redução: seleção das variáveis mais relevantes para o problema (feature selection).
Aplicações em Políticas Públicas
6.1. Fontes de dados abertos no Brasil
O governo brasileiro disponibiliza uma ampla gama de bases de dados públicas, entre as quais se destacam:
dados.gov.br: portal central de dados abertos do governo federal.
INEP (Censo Escolar, SAEB, ENEM, IDEB): microdados para análise da educação básica e superior.
DataSUS: informações sobre saúde, mortalidade, morbidade e assistência.
Cadastro Único (CadÚnico): base de famílias de baixa renda, utilizada para seleção de beneficiários de programas sociais.
Portal da Transparência (CGU): dados orçamentários, licitações, contratos e repasses.
RAIS e CAGED (Ministério do Trabalho): informações sobre o mercado de trabalho formal.
6.2. Uso de Big Data e machine learning em políticas educacionais
Learning analytics: análise de logs de plataformas de educação a distância para identificar alunos em risco de evasão e oferecer intervenções precoces.
Modelagem preditiva de desempenho: utilização de dados longitudinais do Censo Escolar para estimar a proficiência futura de escolas e redes de ensino.
Otimização de transportes escolares: algoritmos de roteirização para reduzir custos e tempo de deslocamento.
6.3. Uso em políticas culturais
Análise de participação cultural: cruzamento da PNAD de Cultura com dados de equipamentos culturais (SNIIC) para identificar perfis de acesso e desigualdades regionais.
Mineração de editais públicos: análise textual de editais da Lei Rouanet e da Lei Paulo Gustavo para identificar padrões de fomento e concentração geográfica.
Redes de colaboração: análise de cocitação de projetos culturais para mapear ecossistemas criativos.
Exemplo Integrado – Avaliação do Programa de Mentoria
Cenário: a Secretaria de Educação de um estado quer saber se um programa de mentoria entre pares reduziu a evasão escolar no ensino médio.
Etapas:
Coleta e preparação: obtêm‑se microdados do Censo Escolar (matrículas, aprovações, transferências) e do Cadastro de Programas da secretaria (alunos participantes da mentoria).
Análise exploratória: boxplots das taxas de evasão antes/depois; mapas de calor por região; histogramas das variáveis de controle (renda familiar, proficiência anterior).
Modelagem: ajusta‑se uma regressão logística (evasão = 0/1) com variáveis independentes: participação no programa, sexo, raça, nível socioeconômico e nota anterior em português.
Resultados: odds ratio da mentoria = 0,72 (IC95%: 0,65–0,81), indicando redução de 28% na chance de evasão, após controle pelas demais variáveis.
Comunicação: dashboard em Power BI disponibilizado para gestores, com filtros por região, tipo de escola e perfil do aluno.
Quadro‑resumo para a prova
| Tópico | Conteúdo essencial |
|------------|-------------------------|
| Estatística descritiva | Média, mediana, moda; variância, desvio‑padrão, CV; boxplot. |
| Estatística inferencial | Intervalo de confiança, teste de hipóteses, p‑valor, erros tipo I e II. |
| Análise exploratória (Tukey) | Abordagem visual e interativa; geração de hipóteses antes da modelagem. |
| Regressão linear múltipla | Variável dependente contínua; controla fatores de confusão. |
| Regressão logística | Variável dependente binária; interpretação por odds ratio ($e^\beta$). |
| Análise de cluster | Agrupamento não supervisionado; útil para segmentar populações. |
| Análise fatorial | Redução de dimensionalidade; construção de indicadores (ex: IEE/INEP). |
| Big Data – 5 Vs | Volume, Velocidade, Variedade, Veracidade, Valor. |
| Ferramentas | Power BI, Tableau (BI); R, Python (análise); Spark, Hadoop (big data). |
| Machine learning (ML) | Supervisionado (rótulos) vs. não unsupervised (sem rótulos). |
| Bases de dados públicas | dados.gov.br, INEP (Censo Escolar, SAEB, ENEM), DataSUS, CadÚnico, Portal da Transparência, RAIS, CAGED. |
Observação final: A integração entre métodos quantitativos, Big Data e ciência de dados transformou a capacidade de análise do setor público. O servidor que domina esses instrumentos – desde a estatística descritiva básica até algoritmos de machine learning – está apto a produzir evidências mais robustas, a desenhar políticas mais eficientes e a prestar contas à sociedade com transparência e rigor.
Exercícios:
Qual das opções a seguir descreve corretamente o conceito de estatística descritiva?
O que é considerado um dos principais objetivos da análise exploratória de dados (AED), segundo John Tukey?
No contexto de testes de hipóteses, o que significa um p-valor menor que 0,05?
Qual dos métodos abaixo é mais indicado para avaliar o impacto causal de uma política pública?
Qual dos seguintes não é um dos '5 Vs' do Big Data?
Qual das seguintes opções descreve corretamente a regressão linear múltipla?