Métodos Quantitativos, Big Data e Análise de Dados para Políticas - Cultura e Educação

Aula de Cultura e Educação (Avaliação): Métodos Quantitativos, Big Data e Análise de Dados para Políticas. Estatística descritiva e inferencial, análise exploratória, modelos multivariados, ferramentas de Big Data e usos em educação e cultura. Estude gratuitamente para concursos públicos e OAB no Tuco-Tuco.

Métodos Quantitativos, Big Data e Análise de Dados para Políticas Introdução A formulação, o monitoramento e a avaliação de políticas públicas exigem cada vez mais o uso de métodos quantitativos robustos e o tratamento de grandes volumes de dados. A disseminação de sistemas de informação governamentais, a ampliação do acesso a microdados e o avanço de técnicas computacionais tornaram possível extrair evidências que antes eram inacessíveis. Esta aula apresenta os principais conceitos e ferramentas da estatística descritiva e inferencial, da análise exploratória de dados, dos modelos multivariados, das tecnologias de Big Data e da ciência de dados aplicados ao setor público. Emprego da Estatística Descritiva e Inferencial A estatística é dividida em dois grandes ramos: a descritiva, que organiza, resume e apresenta os dados de forma compreensível; e a inferencial, que generaliza conclusões da amostra para a população com base na teoria da probabilidade. 2.1. Estatística Descritiva A estatística descritiva utiliza medidas de tendência central e medidas de dispersão para resumir um conjunto de dados. Média ( x̄ ): soma de todos os valores dividida pelo número de observações. É sensível a valores extremos (outliers). Mediana: valor central da série ordenada. Resistente a outliers, sendo preferível quando a distribuição é assimétrica. Moda: valor que ocorre com maior frequência. É a única medida de tendência central aplicável a variáveis qualitativas nominais. As medidas de dispersão indicam o grau de variabilidade dos dados: Amplitude: diferença entre o valor máximo e o mínimo. Variância (σ² ou s²): média dos desvios quadráticos em relação à média. Desvio‑padrão (σ ou s): raiz quadrada da variância; expressa a dispersão na mesma unidade dos dados. Coeficiente de variação (CV): relação entre o desvio‑padrão e a média ( CV = σ/μ × 100 % ), permitindo comparar conjuntos com unidades ou escalas distintas. Quartis e intervalo interquartil (IQR): dividem a distribuição em quatro partes iguais (Q1, Q2, mediana, Q3). O IQR (Q3 – Q1) é uma medida robusta de dispersão. Boxplot – gráfico que resume a distribuição por meio da mediana, dos quartis e da identificação de outliers. 2.2. Estatística Inferencial A inferência estatística permite estimar parâmetros populacionais e testar hipóteses a partir de amostras. Seus conceitos centrais são: População: conjunto total de elementos de interesse. Amostra: subconjunto representativo da população. Parâmetro: medida numérica que descreve a população (ex.: μ, σ). Estatística (estimativa): medida calculada a partir da amostra (ex.: x̄, s). Intervalo de confiança (IC): faixa de valores que, com determinado nível de confiança (usualmente 95 %), contém o parâmetro populacional. O IC é dado por: $ IC = \bar{x} \pm z \times \frac{s}{\sqrt{n}} $ onde z é o valor crítico da normal padrão (1,96 para 95 %) e n é o tamanho da amostra. Teste de hipóteses: procedimento para decidir, com base na amostra, se rejeita ou não a hipótese nula (H₀). O p‑valor é a probabilidade de se obter um resultado tão extremo quanto o observado, assumindo que H₀ é verdadeira. Se p < α (nível de significância, geralmente 0,05), rejeita‑se H₀. Dois tipos de erro são possíveis: Erro tipo I (falso positivo): rejeitar H₀ verdadeira. Erro tipo II (falso negativo): não rejeitar H₀ falsa. O poder do teste (1 – β) é a probabilidade de rejeitar corretamente H₀ quando ela é falsa. Análise Exploratória de Dados (EDA) A análise exploratória de dados foi proposta por John Tukey (1977) como uma abordagem filosófica para investigar dados antes de qualquer modelagem formal, utilizando principalmente métodos visuais e estatísticas resistentes. A EDA não parte de hipóteses prontas; ao contrário, gera hipóteses e revela padrões, anomalias e relacionamentos que orientam as análises posteriores. Principais ferramentas da EDA: Histogramas e diagramas de densidade – para examinar a forma da distribuição. Boxplots – para identificar outliers e comparar distributions entre grupos. Gráficos de dispersão – para visualizar relações entre duas variáveis contínuas. Gráficos de barras e de setores – para variáveis categóricas. Mapas de calor (heatmaps) – para exibir matrizes de correlação ou dados georreferenciados. No setor público, a EDA é frequentemente empregada na fase de diagnóstico de políticas, permitindo descobrir desigualdades regionais, sazonalidades e grupos de risco que demandam ações específicas. Modelos Multivariados Os modelos multivariados analisam simultaneamente múltiplas variáveis, permitindo controlar fatores de confusão e capturar relações complexas. 4.1. Regressão Linear Múltipla Modela a relação entre uma variável dependente contínua e duas ou mais variáveis independentes. A equação geral é: $ Y = \beta0 + \beta1 X1 + \beta2 X2 + \dots + \betak Xk + \varepsilon $ Onde β₁ é o efeito esperado de X₁ sobre Y, mantendo as demais variáveis constantes. Na administração pública, a regressão linear múltipla é usada, por exemplo, para explicar o IDEB dos municípios com base em variáveis como gasto por aluno, proporção de professores com formação superior e nível socioeconômico das famílias. 4.2. Regressão Logística Empregada quando a variável dependente é binária (ex.: evadiu / não evadiu; benefício concedido / negado). O modelo estima a probabilidade de ocorrência do evento: $ P(Y=1|X) = \frac{1}{1 + e^{-(\beta0 + \beta1 X1 + \dots + \betak Xk)}} $ A exponencial dos coeficientes ($e^\beta$) é interpretada em termos de razão de chances (odds ratio), indicando a mudança na chance de ocorrência do evento para cada unidade acrescida na variável independente. Na avaliação de políticas educacionais, por exemplo, a regressão logística pode estimar o efeito de um programa de mentoria sobre a probabilidade de abandono escolar. 4.3. Análise de Cluster Técnica não supervisionada que agrupa observações (municípios, escolas, beneficiários) com base na similaridade de suas características. É muito utilizada para segmentar populações e desenhar intervenções diferenciadas. Exemplo: classificar municípios em perfis de vulnerabilidade social a partir de indicadores de renda, saneamento e escolaridade. 4.4. Análise Fatorial Reduz a dimensionalidade de um grande número de variáveis correlacionadas a um número menor de fatores latentes. Cada fator representa uma dimensão subjacente não observada diretamente. É amplamente empregada na construção de indicadores complexos no setor público, como o Índice de Infraestrutura Escolar (IEE) desenvolvido pelo INEP para sintetizar as condições físicas das escolas brasileiras a partir de múltiplos quesitos censitários. Big Data 5.1. Conceito e os 5 Vs Big Data refere‑se a conjuntos de dados massivos, gerados em alta velocidade e em formatos variados, que exigem ferramentas e métodos específicos para armazenamento, processamento e análise. As cinco propriedades fundamentais (os 5 Vs) são: Volume – enormes quantidades de dados (terabytes, petabytes). Velocidade – geração e transmissão em tempo real ou quase real. Variedade – dados estruturados (bases relacionais), semiestruturados (JSON, XML) e não estruturados (textos, imagens, vídeos). Veracidade – qualidade, confiabilidade e consistência dos dados. Valor – utilidade para a tomada de decisão, que justifica o esforço de processamento. 5.2. Ferramentas e Plataformas Business Intelligence (BI): Power BI, Tableau e Qlik Sense são as ferramentas mais utilizadas para construir dashboards interativos, permitindo que gestores públicos acompanhem indicadores em tempo real. O Painel do Cidadão do governo federal é um exemplo de aplicação de BI. Linguagens de análise: R e Python são os padrões na comunidade científica e governamental para limpeza, análise e modelagem de dados. Pacotes como pandas, tidyverse, scikit‑learn e statsmodels são amplamente empregados. Bancos de dados e big data: PostgreSQL (com extensão PostGIS), MongoDB, Spark e Hadoop são utilizados para armazenar e processar grandes volumes. 5.3. Aprendizado de Máquina (Machine Learning) O aprendizado de máquina é um subcampo da inteligência artificial que desenvolve algoritmos capazes de aprender padrões a partir de dados. Sua aplicação em políticas públicas tem crescido, abrangendo desde a previsão de demanda por serviços até a identificação de fraudes. Aprendizado supervisionado: utiliza dados rotulados para treinar modelos preditivos. Exemplos: regressão linear, regressão logística, árvores de decisão, random forest, gradient boosting. Aprendizado não supervisionado: trabalha com dados não rotulados para encontrar estruturas ocultas. Exemplos: análise de cluster (k‑means, hierárquico), análise de componentes principais (PCA). Aprendizado por reforço: o modelo aprende por tentativa e erro, maximizando uma recompensa. Na administração pública brasileira, técnicas de machine learning têm sido aplicadas para: Previsão de receitas tributárias municipais. Detecção de sobrepreço em compras governamentais. Análise de risco de evasão escolar e de abandono de programas sociais. Classificação automatizada de demandas de ouvidoria e análise de sentimentos. 5.4. Pré‑processamento e Tratamento de Dados Antes de qualquer análise, os dados brutos devem passar por etapas de preparação: Limpeza: tratamento de valores ausentes (remoção, imputação), correção de erros de digitação, padronização de formatos. Integração: combinação de diferentes bases de dados por meio de chaves comuns (CPF, CNPJ, código INEP, código IBGE). O Cadastro Único e o Censo Escolar são exemplos de bases frequentemente integradas. Transformação: normalização (escalonamento dos dados para uma faixa comum), criação de variáveis derivadas (ex.: taxa de evasão = evadidos / matriculados) e codificação de variáveis categóricas. Redução: seleção das variáveis mais relevantes para o problema (feature selection). Aplicações em Políticas Públicas 6.1. Fontes de dados abertos no Brasil O governo brasileiro disponibiliza uma ampla gama de bases de dados públicas, entre as quais se destacam: dados.gov.br: portal central de dados abertos do governo federal. INEP (Censo Escolar, SAEB, ENEM, IDEB): microdados para análise da educação básica e superior. DataSUS: informações sobre saúde, mortalidade, morbidade e assistência. Cadastro Único (CadÚnico): base de famílias de baixa renda, utilizada para seleção de beneficiários de programas sociais. Portal da Transparência (CGU): dados orçamentários, licitações, contratos e repasses. RAIS e CAGED (Ministério do Trabalho): informações sobre o mercado de trabalho formal. 6.2. Uso de Big Data e machine learning em políticas educacionais Learning analytics: análise de logs de plataformas de educação a distância para identificar alunos em risco de evasão e oferecer intervenções precoces. Modelagem preditiva de desempenho: utilização de dados longitudinais do Censo Escolar para estimar a proficiência futura de escolas e redes de ensino. Otimização de transportes escolares: algoritmos de roteirização para reduzir custos e tempo de deslocamento. 6.3. Uso em políticas culturais Análise de participação cultural: cruzamento da PNAD de Cultura com dados de equipamentos culturais (SNIIC) para identificar perfis de acesso e desigualdades regionais. Mineração de editais públicos: análise textual de editais da Lei Rouanet e da Lei Paulo Gustavo para identificar padrões de fomento e concentração geográfica. Redes de colaboração: análise de cocitação de projetos culturais para mapear ecossistemas criativos. Exemplo Integrado – Avaliação do Programa de Mentoria Cenário: a Secretaria de Educação de um estado quer saber se um programa de mentoria entre pares reduziu a evasão escolar no ensino médio. Etapas: Coleta e preparação: obtêm‑se microdados do Censo Escolar (matrículas, aprovações, transferências) e do Cadastro de Programas da secretaria (alunos participantes da mentoria). Análise exploratória: boxplots das taxas de evasão antes/depois; mapas de calor por região; histogramas das variáveis de controle (renda familiar, proficiência anterior). Modelagem: ajusta‑se uma regressão logística (evasão = 0/1) com variáveis independentes: participação no programa, sexo, raça, nível socioeconômico e nota anterior em português. Resultados: odds ratio da mentoria = 0,72 (IC95%: 0,65–0,81), indicando redução de 28% na chance de evasão, após controle pelas demais variáveis. Comunicação: dashboard em Power BI disponibilizado para gestores, com filtros por região, tipo de escola e perfil do aluno. Quadro‑resumo para a prova | Tópico | Conteúdo essencial | |------------|-------------------------| | Estatística descritiva | Média, mediana, moda; variância, desvio‑padrão, CV; boxplot. | | Estatística inferencial | Intervalo de confiança, teste de hipóteses, p‑valor, erros tipo I e II. | | Análise exploratória (Tukey) | Abordagem visual e interativa; geração de hipóteses antes da modelagem. | | Regressão linear múltipla | Variável dependente contínua; controla fatores de confusão. | | Regressão logística | Variável dependente binária; interpretação por odds ratio ($e^\beta$). | | Análise de cluster | Agrupamento não supervisionado; útil para segmentar populações. | | Análise fatorial | Redução de dimensionalidade; construção de indicadores (ex: IEE/INEP). | | Big Data – 5 Vs | Volume, Velocidade, Variedade, Veracidade, Valor. | | Ferramentas | Power BI, Tableau (BI); R, Python (análise); Spark, Hadoop (big data). | | Machine learning (ML) | Supervisionado (rótulos) vs. não unsupervised (sem rótulos). | | Bases de dados públicas | dados.gov.br, INEP (Censo Escolar, SAEB, ENEM), DataSUS, CadÚnico, Portal da Transparência, RAIS, CAGED. | Observação final: A integração entre métodos quantitativos, Big Data e ciência de dados transformou a capacidade de análise do setor público. O servidor que domina esses instrumentos – desde a estatística descritiva básica até algoritmos de machine learning – está apto a produzir evidências mais robustas, a desenhar políticas mais eficientes e a prestar contas à sociedade com transparência e rigor. Exercícios: Qual das opções a seguir descreve corretamente o conceito de estatística descritiva? O que é considerado um dos principais objetivos da análise exploratória de dados (AED), segundo John Tukey? No contexto de testes de hipóteses, o que significa um p-valor menor que 0,05? Qual dos métodos abaixo é mais indicado para avaliar o impacto causal de uma política pública? Qual dos seguintes não é um dos '5 Vs' do Big Data? Qual das seguintes opções descreve corretamente a regressão linear múltipla?