Estatística para CNU: amostragem, inferência básica e estatísticas de localização - Administração Pública

Aula de Administração Pública (Transparência, LGPD, Comunicação, Atendimento e Estatística): Estatística para CNU: amostragem, inferência básica e estatísticas de localização. População e amostra; tipos de amostragem (probabilística e não probabilística); população, amostra, parâmetro e estatística; distribuições amostrais; média, mediana e moda. Estude gratuitamente para concursos públicos e OAB no Tuco-Tuco.

Estatística para Concursos Públicos: Amostragem, Inferência e Medidas de Localização A Estatística é uma das áreas do conhecimento que mais frequentemente aparece em concursos públicos, especialmente aqueles que abordam raciocínio lógico, matemática ou conhecimentos específicos para determinadas áreas. A compreensão profunda dos conceitos de amostragem, inferência estatística e medidas de tendência central é fundamental não apenas para a resolução de questões, mas também para a aplicação prática desses conhecimentos em situações reais que o servidor público pode enfrentar. Esta aula aborda, de forma sistemática e aprofundada, os conceitos fundamentais da Estatística que são frequentemente cobrados em concursos públicos. Começamos pelos conceitos básicos de população, amostra, parâmetro e estatística, avançamos pelos diferentes tipos de amostragem, exploramos as distribuições amostrais e o Teorema Central do Limite, adentramos o território da inferência estatística com seus dois grandes ramos — estimação e teste de hipóteses — e concluímos com o estudo detalhado das medidas de tendência central, suas propriedades, aplicações e relações com a forma da distribuição de dados. O domínio desses conteúdos permite ao candidato não apenas resolver questões de concursos, mas também compreender como a Estatística é utilizada na tomada de decisão governamental, na avaliação de políticas públicas, na análise de dados demográficos e na geração de relatórios gerenciais que fundamentam a atuação do Estado. Conceitos Fundamentais da Estatística População e Amostra O ponto de partida de qualquer estudo estatístico é a definição clara do conjunto de elementos que será estudado. Essa definição inicial determina todo o desenho da pesquisa e influencia diretamente a validade das conclusões que podem ser tiradas. População é o conjunto completo de todos os elementos que são objeto de estudo e sobre os quais se deseja obter informações. Em termos estatísticos formais, população é o universo de referência a partir do qual se extraem conclusões. A população pode ser finita ou infinita: o conjunto de servidores de um ministério específico é uma população finita, enquanto o conjunto de todas as possíveis medições de temperatura em uma cidade ao longo de dez anos é uma população teoricamente infinita. A definição de população deve ser precisa e operacionalizável. Quando um concurso público diz que vai estudar "a opinião dos brasileiros sobre determinado tema", a população seria todos os habitantes do Brasil — uma definição que, na prática, apresenta desafios enormes de operacionalização. Por isso, frequentemente trabalhamos com amostras. Amostra é o subconjunto da população, selecionado segundo critérios metodológicos específicos, a partir do qual se coletam informações que serão generalizadas para toda a população. A amostra deve ser representativa da população, isto é, deve refletir as principais características desta de forma acurada. Se a amostra não for representativa, qualquer conclusão baseada nela estará potencialmente enviesada. A diferença entre população e amostra não é meramente quantitativa (uma é maior que a outra). Trata-se de uma distinção fundamental no desenho da pesquisa: quando estudamos a população inteira, estamos realizando um censo; quando estudamos uma fração selecionada segundo metodologia apropriada, estamos realizando uma pesquisa amostral. Parâmetro e Estatística Outro par de conceitos fundamentais é a distinção entre parâmetro e estatística. Essa distinção é crucial não apenas para responder questões de concursos, mas também para compreender como a inferência estatística funciona. Parâmetro é uma medida numérica que descreve uma característica da população. Parâmetros são valores fixos, embora frequentemente desconhecidos, porque a população completa raramente é estudada. Exemplos de parâmetros incluem a média populacional, denotada pelo símbolo grego μ (lê-se "mi"), que representa a média de todos os elementos da população; o desvio padrão populacional, denotado por σ (lê-se "sigma"), que mede a variabilidade da população; e a proporção populacional, denotada por π (lê-se "pi"), que representa a proporção de elementos da população que possuem determinada característica. Uma forma simples de lembrar: parâmetro começa com "P", assim como População, e utiliza letras gregas. Estatística (ou estimador) é uma medida numérica que descreve uma característica da amostra. Estatísticas são valores calculados a partir dos dados amostrais e são usadas para estimar os parâmetros populacionais correspondentes. Exemplos de estatísticas incluem a média amostral, denotada por x̄ (lê-se "x barra"), que é a média dos elementos da amostra; o desvio padrão amostral, denotado por s, que mede a variabilidade da amostra; e a proporção amostral, denotada por p̂ (lê-se "p chapéu"), que representa a proporção de elementos da amostra que possuem determinada característica. Uma forma simples de lembrar: estatística começa com "E", assim como Amostra, e utiliza letras do alfabeto latino. A inferência estatística é precisamente o processo de usar estatísticas (valores conhecidos, calculados a partir da amostra) para fazer afirmações sobre parâmetros (valores desconhecidos, relativos à população). Compreender essa distinção é fundamental para entender todo o edifício conceitual da Estatística. Censo versus Pesquisa Amostral O censo é o processo de coleta de informações sobre todos os elementos da população. O exemplo mais conhecido de censo é o Censo Demográfico realizado pelo IBGE a cada dez anos, que busca levantar informações sobre todos os habitantes do território nacional. O censo possui a vantagem teórica de fornecer informação completa sobre a população, eliminando a necessidade de inferência. Porém, o censo apresenta desvantagens práticas significativas: custo elevado, tempo prolongado de execução, necessidade de grande estrutura operacional e, em muitos casos, impossibilidade prática de ser realizado (como no caso de populações infinitas ou de difícil acesso). A pesquisa amostral é o processo de coletar informações sobre uma fração da população e usar essa informação para fazer inferências sobre a população completa. A pesquisa amostral oferece vantagens práticas importantes: custo reduzido, tempo menor de execução, possibilidade de maior profundidade na coleta de dados sobre cada elemento, maior qualidade dos dados coletados devido ao menor volume de trabalho. Porém, a pesquisa amostral está sujeita ao chamado erro amostral — a diferença entre o valor estimado (baseado na amostra) e o valor real (parâmetro populacional). A escolha entre censo e pesquisa amostral depende de diversos fatores, incluindo o tamanho da população, a variabilidade dos elementos, os recursos disponíveis, a precisão requerida e a natureza das questões de pesquisa. Variáveis Estatísticas Uma variável é uma característica observada ou medida em cada elemento da população ou amostra. As variáveis são o coração da análise estatística: são os dados coletados que serão analisados para gerar informações e conclusões. As variáveis podem ser classificadas em duas grandes categorias: variáveis qualitativas e variáveis quantitativas. Essa classificação é fundamental porque determina quais medidas estatísticas são apropriadas e quais técnicas de análise podem ser aplicadas. Variáveis Qualitativas As variáveis qualitativas (também chamadas categóricas) representam características ou qualidades que não podem ser expressas numericamente por natureza. Cada observação é classificada em uma categoria ou grupo. Variável qualitativa nominal é aquela cujas categorias não possuem ordem natural entre si. Exemplos incluem: sexo (masculino, feminino, outro), cor ou raça (branca, preta, parda, amarela, indígena), estado civil (solteiro, casado, viúvo, divorciado), tipo de sangue (A, B, AB, O), nacionalidade. Essas categorias são apenas nomes que permitem classificar os elementos; não há hierarquia ou ordem entre elas. Variável qualitativa ordinal é aquela cujas categorias possuem uma ordem natural ou hierarquia, embora a distância entre as categorias não seja quantificável. Exemplos incluem: nível de escolaridade (fundamental incompleto, fundamental completo, médio incompleto, médio completo, superior incompleto, superior completo), classe social (A, B, C, D, E), grau de satisfação (muito insatisfeito, insatisfeito, neutro, satisfeito, muito satisfeito), estágio de doença (inicial, intermediário, avançado). A ordenação entre categorias é relevante, mas não é possível afirmar que a distância entre "fundamental completo" e "médio completo" é a mesma que entre "médio completo" e "superior completo". Variáveis Quantitativas As variáveis quantitativas (também chamadas numéricas) representam características que podem ser expressas numericamente e para as quais operações matemáticas têm significado. Variável quantitativa discreta assume valores em um conjunto enumerável, geralmente valores inteiros, resultantes de processo de contagem. Exemplos incluem: número de filhos (0, 1, 2, 3...), número de aprovados em concurso (pode ser 0, 1, 2... mas não 1,5), número de atendimentos realizados em um dia, quantidade de medalhas conquistadas. As variáveis discretas frequentemente — mas não exclusivamente — resultam de contagens de elementos discretos. Variável quantitativa contínua pode assumir qualquer valor dentro de um intervalo, resultantes de processo de medição. Exemplos incluem: altura (1,65 m, 1,657 m, 1,6573 m...), peso, temperatura, salário, tempo de espera, distância. As variáveis contínuas podem assumir infinitos valores em um intervalo, limitados apenas pela precisão do instrumento de medição. Na prática, variáveis contínuas são frequentemente arredondadas, o que pode dar a impressão de que são discretas. A distinção entre variáveis discretas e contínuas é importante porque afeta a escolha das técnicas estatísticas apropriadas. Por exemplo, a média aritmética faz sentido para variáveis quantitativas (contínuas ou discretas), mas a moda é a única medida de tendência central apropriada para variáveis qualitativas nominais. Técnicas de Amostragem A qualidade de uma pesquisa amostral depende fundamentalmente da qualidade da amostra selecionada. Uma amostra mal selecionada pode produzir estimativas sistematicamente desviadas da realidade, conduzindo a conclusões errôneas. Por isso, as técnicas de amostragem são um dos temas mais cobrados em concursos públicos. Amostragem Probabilística Na amostragem probabilística, cada elemento da população tem uma probabilidade conhecida e maior que zero de ser selecionado para a amostra. Essa característica permite calcular, com base na teoria estatística, a margem de erro das estimativas e o nível de confiança dos resultados. A amostragem probabilística é o padrão ouro para pesquisas que visam fazer inferências válidas sobre a população. Amostragem Aleatória Simples A Amostragem Aleatória Simples (AAS) é a técnica mais fundamental de amostragem probabilística. Nela, cada elemento da população tem exatamente a mesma probabilidade de ser selecionado, e cada amostra de tamanho n tem a mesma probabilidade de ser escolhida. Esse método pode ser realizado com ou sem reposição: na amostragem com reposição, um elemento pode ser selecionado mais de uma vez; na amostragem sem reposição, cada elemento pode ser selecionado apenas uma vez. A principal vantagem da AAS é sua simplicidade conceitual e procedimental: ela garante representatividade da amostra e permite aplicação direta da teoria estatística. A principal desvantagem é operacional: quando a população é muito grande ou geograficamente dispersa, pode ser difícil ou impossível listar todos os elementos para sorteio. Na prática, a AAS é implementada utilizando tabelas de números aleatórios, geradores de números aleatórios ou softwares estatísticos. Por exemplo, se quisermos selecionar 100 servidores de um total de 10.000, podemos sortear 100 números entre 1 e 10.000 e incluir na amostra os servidores cujos números foram sorteados. Amostragem Sistemática Na Amostragem Sistemática, os elementos da população são ordenados de alguma forma (por exemplo, em uma lista), escolhe-se aleatoriamente um ponto de partida e, a partir desse ponto, selecionam-se elementos a intervalos regulares (denominados "k"). O intervalo k é calculado como a razão entre o tamanho da população (N) e o tamanho da amostra desejada (n): k = N/n. A vantagem da amostragem sistemática sobre a AAS é operacional: não é necessário sortear n elementos independentes; basta sortear um único ponto de partida e seguir o intervalo fixo. Essa técnica é especialmente útil quando a população está naturalmente organizada em listas ou sequências. A desvantagem é que, se houver periodicidade oculta na organização da população (um padrão que se repete a cada k elementos), a amostragem sistemática pode produzir amostras enviesadas. Por exemplo, se em uma lista de servidores organizada alternadamente por gênero (M, F, M, F...) e aplicarmos amostragem sistemática com k=2, todos os selecionados seriam do mesmo gênero, produzindo uma amostra nada representativa. Amostragem Estratificada Na Amostragem Estratificada, a população é primeiro dividida em subgrupos mais homogêneos internos e mais heterogêneos entre si, denominados estratos. Em seguida, dentro de cada estrato, é realizada uma amostragem aleatória (geralmente AAS). O tamanho da amostra em cada estrato pode ser proporcional ao tamanho do estrato na população (amostragem proporcional) ou pode ser determinado por outros critérios como variabilidade interna (amostragem otimizada). A grande vantagem da amostragem estratificada é que ela permite garantir representatividade em relação às variáveis que definem os estratos e, ao reunir estratos homogêneos internos, reduz a variabilidade total, produzindo estimativas mais precisas. Por exemplo, se quisermos fazer uma pesquisa de satisfação em um órgão público com servidores de três níveis hierárquicos, podemos estratificar por nível hierárquico: como as opiniões podem variar entre níveis, essa divisão garante que cada nível esteja representado adequadamente. A desvantagem é que exige conhecimento prévio das variáveis de estratificação e pode ser operacionalmente mais complexa que a AAS. Amostragem por Conglomerados Na Amostragem por Conglomerados (clusters), a população é dividida em grupos (conglomerados), geralmente geográficos ou administrativos, e então alguns conglomerados são selecionados aleatoriamente, sendo que todos os elementos dos conglomerados selecionados são incluídos na amostra. A grande vantagem dessa técnica é operacional: quando os conglomerados são definidos de forma que seja fácil acessá-los fisicamente (como bairros em uma cidade, ou escolas em um município), a coleta de dados fica muito mais simples. Por exemplo, em vez de viajar para coletar dados de 100 servidores espalhados por 10 cidades diferentes, podemos sortear 3 cidades e coletar dados de todos os servidores dessas 3 cidades. A desvantagem é que, idealmente, os conglomerados devem ser heterogêneos internamente (contendo toda a diversidade da população) e semelhantes entre si. Na prática, essa condição frequentemente não é satisfeita, e os conglomerados tendem a ser internamente homogêneos (como bairros de uma mesma classe social), o que pode aumentar o erro amostral. Amostragem em Múltiplos Estágios A Amostragem em Múltiplos Estágios combina duas ou mais técnicas de amostragem em uma sequência de etapas. Uma abordagem comum é o sorteio em múltiplas fases: primeiro sortear conglomerados (municípios), depois dentro dos conglomerados selecionados sortear subconglomerados (escolas), e assim por diante até chegar aos elementos individuais. Um exemplo clássico é a pesquisa PNAD (Pesquisa Nacional por Amostra de Domicílios) do IBGE: primeiro são sorteados municípios, depois dentro dos municípios sorteados são sorteados setores censitários, depois dentro dos setores são sorteados domicílios, e finalmente dentro dos domicílios são pesquisados todos os moradores ou uma amostra de moradores. Essa metodologia em múltiplos estágios combina as vantagens de diferentes técnicas de amostragem enquanto minimiza os custos operacionais. Amostragem Não Probabilística Na amostragem não probabilística, a probabilidade de seleção de cada elemento é desconhecida ou não pode ser calculada. Por isso, não é possível aplicar a teoria estatística clássica para estimar margens de erro ou níveis de confiança. A amostragem não probabilística é útil em pesquisas exploratórias, qualitativas ou quando a amostragem probabilística é operacionalmente inviável, mas suas conclusões não podem ser generalizadas para a população com rigor estatístico. Amostragem por Conveniência Na Amostragem por Conveniência, são selecionados os elementos mais facilmente acessíveis ou disponíveis. Por exemplo, aplicar questionários aos primeiros 100 visitantes de um posto de atendimento ou aos funcionários que estiverem presentes em determinado dia. Essa técnica é extremamente simples e barata, mas apresenta alto risco de viés, pois os elementos facilmente acessíveis podem não ser representativos da população. Amostragem por Julgamento ou Intencional Na Amostragem por Julgamento (ou intencional), o pesquisador utiliza seu conhecimento sobre a população para selecionar casos que sejam típicos ou extremos de forma deliberada. Por exemplo, um pesquisador que acredita que certo tipo de servidor é mais representativo pode escolher especificamente esses casos. Essa técnica pode ser útil em estudos exploratórios ou quando se deseja estudar casos típicos ou extremos especificamente, mas sua representatividade é questionável. Amostragem por Cotas Na Amostragem por Cotas, estabelece-se primeiro uma matriz de cotas baseada em variáveis relevantes (como sexo, faixa etária, escolaridade), e então os entrevistadores selecionam elementos até preencher as cotas estabelecidas. Essa técnica é semelhante à amostragem estratificada, mas a seleção dentro das células de cota é por conveniência, não probabilística. Um exemplo seria estabelecer cotas de 50% homens e 50% mulheres, 30% jovens e 70% adultos, e então os entrevistadores selecionam pessoas até preencher essas proporções. Essa técnica foi muito utilizada em pesquisas eleitorais no passado e é relativamente simples de implementar, mas não permite calcular margens de erro. Amostragem Bola de Neve Na Amostragem Bola de Neve (snowball), os entrevistados iniciais indicam outros potenciais entrevistados, que por sua vez indicam outros, e assim por diante. Essa técnica é especialmente útil para populações de difícil acesso, marginalizadas ou estigmatizadas, como usuários de substâncias ilícitas, pessoas em situação de rua ou membros de comunidades secretas. O nome "bola de neve" vem da imagem de que, como uma bola de neve rolando montanha abaixo, a amostra vai crescendo à medida que avança. Amostragem Voluntária Na Amostragem Voluntária, os elementos da população se candidatam para participar da pesquisa, geralmente por meio de anúncios em redes sociais, sites ou outros canais. Essa técnica é extremamente simples, mas apresenta alto viés de autoseleção: pessoas com opiniões fortes (positivas ou negativas) são mais propensas a participar, enquanto pessoas com opiniões moderadas tendem a se silenciar. O resultado é uma amostra que reflete mal a distribuição real de opiniões na população. Erros em Pesquisas Estatísticas A qualidade dos resultados de uma pesquisa estatística depende da minimização de erros. Compreender os tipos de erro é fundamental para avaliar criticamente resultados estatísticos e para desenhar pesquisas de qualidade. Erro Amostral O erro amostral é a diferença entre o valor estimado a partir da amostra (estatística) e o valor real da população (parâmetro). Esse erro existe apenas em pesquisas amostrais; se aplicarmos o censo, não há erro amostral porque estamos medindo a população completa. O erro amostral é uma consequência natural da variabilidade: diferentes amostras da mesma população tendem a produzir diferentes estimativas, simplesmente devido ao acaso na seleção dos elementos. A teoria estatística permite quantificar essa variabilidade: se sabemos o tamanho da amostra (n) e o desvio padrão da variável (σ), podemos calcular o erro padrão da média como σ/√n. Isso significa que, para reduzir o erro padrão pela metade, precisamos quadruplicar o tamanho da amostra. O tamanho do erro amostral depende de três fatores principais: o tamanho da amostra (amostras maiores tendem a produzir erros menores), a variabilidade da população (populações mais heterogêneas produzem erros maiores) e o desenho da amostra (amostragem estratificada, por exemplo, pode reduzir o erro para um mesmo tamanho de amostra). Uma forma de expressar a precisão de uma estimativa é reportá-la como "estimativa ± margem de erro". Por exemplo, "a satisfação média foi de 7,2 ± 0,3" significa que o valor real da população provavelmente está entre 6,9 e 7,5. A margem de erro de 0,3 está associada a um nível de confiança (geralmente 95%). Erro Não Amostral O erro não amostral é qualquer tipo de erro que não seja decorrente da variabilidade amostral. Contrariamente ao erro amostral, o erro não amostral pode ocorrer mesmo em censos, quando estamos estudando a população completa. Os erros não amostrais podem ser classificados em diversas categorias, cada uma com suas causas e implicações específicas. Erro de cobertura ocorre quando a base de amostragem (a lista da qual a amostra é extraída) não inclui todos os elementos da população-alvo. Por exemplo, se quisermos pesquisar a satisfação dos usuários de um serviço e a lista de contatos inclui apenas usuários registrados, mas há usuários não registrados, esses usuários estão fora da cobertura e a pesquisa não reflete sua opinião. Erro de não resposta ocorre quando alguns elementos selecionados para a amostra não respondem à pesquisa, seja por recusa, ausência ou incapacidade. Se os não respondentes forem diferentes sistematicamente dos respondentes, o resultado estará enviesado. Por exemplo, se pesquisas telefônicas frequentemente não conseguem contato com pessoas que trabalham muito, a amostra estará sobrerrepresentando pessoas com mais tempo disponível. Erro de medição ocorre quando há problema na coleta de dados: instrumentos de medição imprecisos, perguntas mal formuladas, viés do entrevistador, falhas de registro. Por exemplo, perguntas ambíguas podem ser interpretadas de formas diferentes por diferentes respondentes. Erro de processamento ocorre durante a análise de dados: digitação errada, erros de codificação, falhas em programas de análise, má interpretação dos resultados. Viés é um erro sistemático que faz com que as estimativas se afastem consistentemente do valor real, em uma direção específica. Diferentemente do erro aleatório, que varia para mais e para menos de forma imprevisível, o viés empurra consistentemente na mesma direção. Por exemplo, se um questionário é aplicado apenas no período da manhã, mas pessoas que trabalham à noite sistematicamente não são alcançadas, há viés de cobertura. Distinção Fundamental: Erro Amostral versus Erro Não Amostral Uma questão fundamental em concursos é a distinção entre erro amostral e erro não amostral. O erro amostral pode ser reduzido aumentando o tamanho da amostra ou melhorando o desenho amostral, e pode ser quantificado pela teoria estatística. O erro não amostral não pode ser reduzido simplesmente aumentando o tamanho da amostra: é necessário controlar a qualidade em todas as etapas da pesquisa. Um corolário importante: mesmo o maior tamanho de amostra não compensa um erro não amostral grave. Uma amostra de 10.000 pessoas com questionário mal desenhado produz estimativas piores que uma amostra de 500 pessoas com questionário bem desenhado e aplicação cuidadosa. Distribuições Amostrais A teoria das distribuições amostrais é a base da inferência estatística. Compreender como as estatísticas se comportam ao longo de diferentes amostras permite fazer afirmações sobre a precisão das estimativas e calcular probabilidades associadas a diferentes resultados. Conceito de Distribuição Amostral Considere o seguinte experimento mental: temos uma população e dela extraímos todas as possíveis amostras de tamanho n. Para cada uma dessas amostras, calculamos uma estatística (por exemplo, a média amostral). O conjunto de todas essas estatísticas é a distribuição amostral dessa estatística. Essa distribuição descreve como a estatística varia de amostra para amostra, simplesmente devido ao acaso na seleção amostral. Por exemplo, imagine uma população de 1.000 servidores com salários. Extraímos todas as possíveis amostras de 50 servidores e, para cada amostra, calculamos a média salarial. Teremos milhares de médias diferentes, algumas maiores, outras menores. A distribuição dessas médias é a distribuição amostral da média. A distribuição amostral é um conceito teórico: raramente extraímos múltiplas amostras na prática. Porém, compreender esse conceito é essencial porque nos permite entender como estimativas pontuais estão sujeitas a variabilidade e como podemos quantificar essa variabilidade. Distribuição Amostral da Média Quando a variável de interesse é quantitativa, a distribuição amostral da média amostral (x̄) possui propriedades bem definidas que são fundamentais para a inferência estatística. Esperança da média amostral: A esperança matemática da média amostral é exatamente igual à média populacional: E(x̄) = μ. Isso significa que, em média, ao longo de todas as possíveis amostras, a média amostral acerta o alvo. Dizemos que x̄ é um estimador não viciado (ou não tendencioso) de μ. Variância da média amostral: A variância da média amostral é σ²/n, onde σ² é a variância populacional e n é o tamanho da amostra. Isso significa que a variância da média amostral é menor que a variância das observações individuais: ao calcular a média, estamos reduzindo a variabilidade. Erro padrão da média: O erro padrão é o desvio padrão da distribuição amostral: EP(x̄) = σ/√n. Essa fórmula revela que o erro padrão diminui à medida que o tamanho da amostra aumenta: para reduzir o erro padrão pela metade, precisamos quadruplicar o tamanho da amostra. Teorema Central do Limite O Teorema Central do Limite (TCL) é um dos resultados mais importantes da Estatística e um dos temas mais cobrados em concursos públicos. O TCL afirma que, para amostras suficientemente grandes (geralmente n ≥ 30), a distribuição da média amostral aproxima-se de uma distribuição normal, independentemente da distribuição da variável na população. As implicações do TCL são profundas: mesmo que a variável de interesse não seja normalmente distribuída na população (por exemplo, salários, que tendem a ser assimétricos), se coletarmos amostras suficientemente grandes e calcularmos as médias amostrais, essas médias seguirão aproximadamente uma distribuição normal. Isso permite usar a teoria da distribuição normal para fazer inferências sobre a média populacional, mesmo sem conhecer a distribuição original da variável. A regra "n ≥ 30" é uma referência geral, não uma regra absoluta. Para populações muito assimétricas ou com distribuições extremas, podem ser necessárias amostras maiores. Para populações aproximadamente normais, amostras menores podem ser suficientes. Distribuição Amostral da Proporção Quando a variável de interesse é uma proporção (por exemplo, a proporção de servidores satisfeitos), a teoria das distribuições amostrais se adapta naturalmente. A proporção amostral (p̂) é calculada como o número de sucessos dividido pelo tamanho da amostra: p̂ = x/n, onde x é o número de elementos com a característica de interesse na amostra. Esperança da proporção amostral: E(p̂) = π, onde π é a proporção populacional. Assim como para a média, a proporção amostral é um estimador não viciado da proporção populacional. Variância da proporção amostral: Var(p̂) = π(1-π)/n. Note que a variância é máxima quando π = 0,5 (50%) e mínima nas extremidades (π próximo de 0 ou de 1). Isso reflete o fato de que é mais difícil estimar proporções próximas de 50% do que proporções extremas. Erro padrão da proporção: EP(p̂) = √[π(1-π)/n]. Na prática, como geralmente não conhecemos π, usamos a proporção amostral p̂ para estimar o erro padrão: EP(p̂) ≈ √[p̂(1-p̂)/n]. Para proporções, a aproximação normal é razoável quando np̂ ≥ 5 e n(1-p̂) ≥ 5, garantindo que haja suficientes sucessos e fracassos na amostra para a aproximação funcionar bem. Inferência Estatística A inferência estatística é o processo de usar dados amostrais para fazer afirmações sobre a população da qual a amostra foi extraída. Esse é o coração da Estatística aplicada: permite tirar conclusões sobre realidades que não podemos observar diretamente, com quantificação da incerteza dessas conclusões. A inferência estatística se divide em dois grandes ramos: estimação e teste de hipóteses. Ambos compartilham a mesma base teórica (distribuições amostrais e teoria da probabilidade), mas respondem a perguntas diferentes: estimação responde "qual é o valor do parâmetro?", enquanto teste de hipóteses responde "o parâmetro é igual a um valor especificado?". Estimação Pontual Na estimação pontual, usamos uma única estatística calculada a partir da amostra como estimativa do parâmetro populacional. Por exemplo, se queremos estimar a renda média dos servidores de um órgão, calculamos a média amostral x̄ e usamos esse valor como nossa melhor estimativa pontual de μ. Um bom estimador deve possuir certas propriedades teóricas: Não vício (ou não tendenciosidade): Em média, ao longo de todas as possíveis amostras, o estimador acerta o parâmetro. Formalmente, E(estimador) = parâmetro. A média amostral é um estimador não viciado da média populacional. Consistência: À medida que o tamanho da amostra aumenta, o estimador converge para o parâmetro. Formalmente, conforme n → ∞, a probabilidade de o estimador estar muito distante do parâmetro tende a zero. Eficiência: Entre os estimadores não viciados, o mais eficiente é aquele que possui menor variância. A média amostral é mais eficiente que a mediana amostral para estimar a média populacional (em amostras grandes), porque sua variância é menor. A estimação pontual tem a vantagem da simplicidade: fornece um único número como resposta. Porém, não fornece informação sobre a precisão da estimativa: não sabemos se x̄ = 7.200 está muito próximo ou muito longe do verdadeiro μ. Estimação por Intervalo Na estimação intervalar, constrói-se um intervalo de valores dentro do qual esperamos que o parâmetro populacional esteja contido. Esse intervalo é construído de forma a ter determinado nível de confiança de conter o parâmetro. O intervalo de confiança para a média populacional é construído como: x̄ ± z(α/2) × (σ/√n) Onde: x̄ é a média amostral z(α/2) é o valor crítico da distribuição normal padrão correspondente ao nível de confiança (1-α) σ é o desvio padrão populacional (ou estimado pelo desvio padrão amostral s) n é o tamanho da amostra Por exemplo, para um nível de confiança de 95% (α = 0,05), o valor crítico z(α/2) = 1,96. Se x̄ = 7.200, σ = 1.500 e n = 100, então o intervalo de confiança é: 7.200 ± 1,96 × (1.500/√100) = 7.200 ± 294 = [6.906, 7.494] Interpretamos esse intervalo da seguinte forma: se repetíssemos o processo de amostragem muitas vezes e construíssemos intervalos de confiança de 95% para cada amostra, aproximadamente 95% desses intervalos conteriam o verdadeiro valor de μ. Uma interpretação incorreta, mas comum, é dizer que há 95% de probabilidade de μ estar no intervalo. Essa interpretação está errada porque μ é um valor fixo (embora desconhecido), não uma variável aleatória. O que é aleatório é o intervalo, não μ. A interpretação correta é sobre o procedimento: se utilizarmos esse procedimento muitas vezes, 95% dos intervalos resultantes conterão μ. Teste de Hipóteses O teste de hipóteses é um procedimento formal para avaliar afirmações sobre parâmetros populacionais com base em evidências amostrais. O procedimento decide entre duas hipóteses concorrentes, denominadas hipótese nula e hipótese alternativa. Hipótese nula (H₀) é a hipótese de referência ou de "status quo". Geralmente representa a ausência de efeito, a igualdade de valores ou a não diferença. Por exemplo, H₀: μ = μ₀ significa que a média populacional é igual a um valor especificado μ₀. Hipótese alternativa (H₁) é a hipótese que queremos evidência para sustentar. Geralmente representa a presença de efeito, a diferença ou a alternativa de interesse. Por exemplo, H₁: μ ≠ μ₀ (teste bilateral, para verificar se μ é diferente de μ₀, seja para mais ou para menos), H₁: μ > μ₀ (teste unilateral à direita, para verificar se μ é maior que μ₀), ou H₁: μ < μ₀ (teste unilateral à esquerda, para verificar se μ é menor que μ₀). Procedimento do Teste de Hipóteses O procedimento de teste de hipóteses segue passos sistemáticos: Passo 1: Definir as hipóteses — Formalmente estabelecer H₀ e H₁, considerando o objetivo da pesquisa e o tipo de teste (bilateral ou unilateral). Passo 2: Fixar o nível de significância (α) — O nível de significância é a probabilidade máxima de rejeitar H₀ quando ela é verdadeira (erro Tipo I). Valores comuns são α = 0,05 (5%) ou α = 0,01 (1%). Passo 3: Calcular a estatística de teste — Com base nos dados amostrais, calcular uma estatística que mede quão distante a estimativa está do valor hipotetizado em H₀. Para testes sobre médias, a estatística de teste é tipicamente: z = (x̄ - μ₀) / (σ/√n) [quando σ é conhecido] ou t = (x̄ - μ₀) / (s/√n) [quando σ é estimado pelo desvio padrão amostral s] Passo 4: Determinar a região crítica — Com base no nível de significância e no tipo de teste, determinar a região crítica (região de rejeição de H₀). Para teste bilateral com α = 0,05, a região crítica compreende os 2,5% superiores e os 2,5% inferiores da distribuição de referência. Passo 5: Tomar a decisão — Comparar o valor da estatística de teste com a região crítica. Se o valor cair na região crítica, rejeitamos H₀; caso contrário, não rejeitamos H₀. Erros em Testes de Hipóteses Em testes de hipóteses, existem dois tipos de erro possíveis: Erro Tipo I: Ocorre quando rejeitamos H₀ sendo que H₀ é verdadeira. A probabilidade de Erro Tipo I é exatamente o nível de significância α. Por exemplo, se α = 0,05, há 5% de chance de rejeitar H₀ quando ela é verdadeira. Erro Tipo II: Ocorre quando não rejeitamos H₀ sendo que H₀ é falsa. A probabilidade de Erro Tipo II é denotada por β. A potência do teste, definida como 1 - β, é a probabilidade de corretamente rejeitar H₀ quando ela é falsa. Existe um trade-off entre os erros Tipo I e Tipo II: se diminuímos α (tornando mais difícil rejeitar H₀), aumenta β (tornando mais difícil rejeitar H₀ falsa). Para aumentar simultaneamente a potência e reduzir ambos os erros, é necessário aumentar o tamanho da amostra. Uma forma de lembrar: Erro Tipo I = "rejeitar Indevidamente" (primeira letra I para "Indevida"); Erro Tipo II = "não rejeitar quando deveria" (segunda posição no nome). O Valor-p O valor-p (ou p-value) é a menor probabilidade de observar um resultado tão extremo quanto o encontrado na amostra, assumindo que H₀ seja verdadeira. O valor-p fornece informação mais rica que a decisão binária "rejeitar/não rejeitar": ele indica o quão forte é a evidência contra H₀. Se o valor-p é pequeno (menor que α), temos evidência forte contra H₀ e rejeitamos a hipótese nula. Se o valor-p é grande (maior que α), não temos evidência suficiente para rejeitar H₀. A interpretação do valor-p merece cuidado: valor-p não é a probabilidade de H₀ ser verdadeira, nem é a probabilidade de o resultado ser devido ao acaso. Valor-p é a probabilidade de, caso H₀ fosse verdadeira, observarmos um resultado pelo menos tão extremo quanto o que efetivamente observamos. Na prática, muitos estudos apresentam resultados indicando "p < 0,05" ou "p < 0,001". A interpretação correta é: se H₀ fosse verdadeira, a probabilidade de observarmos este resultado (ou um mais extremo) seria menor que 5% (ou 0,1%), o que sugere que H₀ provavelmente é falsa. Medidas de Tendência Central As medidas de tendência central (também chamadas estatísticas de localização) são valores que pretendem representar o "centro" ou "típico" de uma distribuição de dados. Compreender cada medida, suas propriedades e quando utilizá-las é fundamental tanto para a resolução de questões de concursos quanto para aplicações práticas. Média Aritmética A média aritmética (ou simplesmente média) é a medida de tendência central mais conhecida e mais utilizada. Para uma amostra de n valores x₁, x₂, ..., xₙ, a média amostral é calculada como: x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n A média é o ponto de equilíbrio da distribuição: a soma dos desvios dos valores em relação à média é sempre zero (Σ(xᵢ - x̄) = 0). Essa propriedade faz da média o centro de gravidade da distribuição. Propriedades da média: A média é sensível a valores extremos (outliers). Por exemplo, se temos os valores 2, 3, 4, 5, 100, a média é 22,8, que não representa bem a maioria dos dados. Essa sensibilidade é uma característica, não necessariamente um defeito: a média responde a todos os valores da distribuição, incluindo os extremos. A média só faz sentido para variáveis quantitativas (discretas ou contínuas). Não faz sentido calcular a média de variáveis qualitativas ordinais (embora alguns softwares permitam, o resultado raramente é interpretável) e não faz sentido calcular a média de variáveis qualitativas nominais. A média possui propriedades algébricas úteis: a média da soma de duas variáveis é a soma das médias; a média de uma constante vezes uma variável é a constante vezes a média da variável. Média ponderada: Quando diferentes valores têm importâncias diferentes, podemos calcular a média ponderada, onde cada valor xᵢ é multiplicado por um peso wᵢ antes de ser somado: x̄ₚ = (w₁x₁ + w₂x₂ + ... + wₙxₙ) / (w₁ + w₂ + ... + wₙ) = Σwᵢxᵢ / Σwᵢ Um exemplo prático é o cálculo da média ponderada de notas escolares, onde cada disciplina tem peso correspondente à sua carga horária. Mediana A mediana (Md) é o valor que divide a distribuição ordenada em duas partes iguais: 50% dos valores estão abaixo (ou iguais) à mediana e 50% estão acima (ou iguais) à mediana. A mediana é, portanto, o valor central da distribuição. Cálculo da mediana: Para encontrar a mediana, primeiro ordenamos os valores em ordem crescente. Se n é ímpar, a mediana é o valor central, ou seja, o valor na posição (n+1)/2. Se n é par, a mediana é a média dos dois valores centrais, ou seja, a média dos valores nas posições n/2 e (n/2)+1. Por exemplo, para a amostra {3, 5, 7, 9, 11} (n=5, ímpar), a mediana é o terceiro valor: Md = 7. Para a amostra {3, 5, 7, 9} (n=4, par), a mediana é a média do segundo e terceiro valores: Md = (5+7)/2 = 6. Propriedades da mediana: A mediana é uma medida resistente (ou robusta) a outliers. No exemplo anterior {2, 3, 4, 5, 100}, a mediana é 4, que representa bem o centro da maioria dos dados. Isso torna a mediana mais adequada que a média quando há valores extremos na distribuição. A mediana pode ser calculada para variáveis quantitativas (contínuas ou discretas) e para variáveis qualitativas ordinais. Não faz sentido calcular a mediana de variáveis qualitativas nominais. Moda A moda (Mo) é o valor mais frequente na distribuição, ou seja, aquele que aparece com maior frequência. Uma distribuição pode ter uma moda (unimodal), duas modas (bimodal) ou mais (multimodal). Se nenhum valor se repete, a distribuição não tem moda. Propriedades da moda: A moda é a única medida de tendência central que faz sentido para variáveis qualitativas nominais. Por exemplo, se temos categorias de estado civil (solteiro, casado, viúvo, divorciado), a categoria mais frequente é a moda — a única medida de tendência central apropriada. Uma distribuição pode não ter moda (quando todos os valores são únicos), ter uma moda (distribuição unimodal) ou ter múltiplas modas (distribuição multimodal). A presença de múltiplas modas pode indicar que a população é composta por subgrupos distintos. A moda é menos utilizada em análises estatísticas formais do que a média e a mediana, mas é útil em contextos descritivos e quando interessa identificar o valor mais comum. Relações entre Média, Mediana e Moda A relação entre média, mediana e moda depende da forma da distribuição de dados e é especialmente útil para compreender a assimetria. Distribuição simétrica: Quando a distribuição é simétrica (como a distribuição normal), média, mediana e moda coincidem aproximadamente: x̄ ≈ Md ≈ Mo. Distribuição assimétrica positiva (direita): Quando há cauda alongada à direita (valores altos infrequentes), como na distribuição de salários, a média é puxada para cima, ficando maior que a mediana, que por sua vez é maior que a moda: x̄ > Md > Mo. Esse é o padrão mais comum em distribuições de renda e preços. Distribuição assimétrica negativa (esquerda): Quando há cauda alongada à esquerda (valores baixos infrequentes), como na distribuição de notas em uma prova muito fácil, a média fica abaixo da mediana, que por sua vez fica abaixo da moda: x̄ < Md < Mo. Essa relação é frequentemente utilizada para inferir a direção da assimetria sem precisar observar graficamente a distribuição: se a média é maior que a mediana, há assimetria positiva; se a média é menor que a mediana, há assimetria negativa. Medidas de Posição Complementares Além da média, mediana e moda, existem outras medidas de posição que são úteis em análises estatísticas mais detalhadas. Quartis, Decis e Percentis Os quartis são valores que dividem a distribuição ordenada em quatro partes iguais. Existem três quartis: Primeiro quartil (Q₁): É o valor que deixa 25% dos dados abaixo (ou iguais) e 75% acima (ou iguais). Corresponde ao percentil 25. Segundo quartil (Q₂): É o valor que deixa 50% dos dados abaixo e 50% acima. O segundo quartil é exatamente a mediana: Q₂ = Md. Terceiro quartil (Q₃): É o valor que deixa 75% dos dados abaixo (ou iguais) e 25% acima (ou iguais). Corresponde ao percentil 75. Os decis são valores que dividem a distribuição em dez partes iguais. O primeiro decil (D₁) deixa 10% dos dados abaixo, o quinto decil (D₅) deixa 50% abaixo (e coincide com a mediana), e assim por diante. Os percentis (ou centis) são valores que dividem a distribuição em cem partes iguais. O k-ésimo percentil (Pₖ) deixa k% dos dados abaixo. O 50º percentil é a mediana; o 25º percentil é Q₁; o 75º percentil é Q₃. Os quartis são especialmente úteis para construir o diagrama de caixa (boxplot), uma ferramenta visual que representa a distribuição de dados mostrando o centro, a dispersão e a assimetria. Média Geométrica A média geométrica é calculada como a raiz n-ésima do produto dos n valores: MG = (x₁ × x₂ × ... × xₙ)^(1/n) A média geométrica é particularmente apropriada para dados que representam taxas de crescimento, razões ou proporções. Por exemplo, se um investimento cresce 10% no primeiro ano e 20% no segundo, a taxa média de crescimento não é simplesmente 15% (média aritmética), mas sim √(1,10 × 1,20) - 1 = 14,89% (média geométrica). Isso ocorre porque os crescimentos são compostos. A média geométrica é sempre menor ou igual à média aritmética (exceto quando todos os valores são iguais, quando são iguais). Isso reflete matematicamente o fato de que crescimento composto não é linear. Média Harmônica A média harmônica é calculada como: MH = n / (1/x₁ + 1/x₂ + ... + 1/xₙ) A média harmônica é apropriada quando estamos computando médias de taxas (não crescimento), especialmente quando queremos médias de velocidades, densidades ou razões. Por exemplo, se um veículo viaja a 60 km/h na ida e a 120 km/h na volta (mesma distância), a velocidade média da viagem completa não é 90 km/h (média aritmética), mas sim 2 / (1/60 + 1/120) = 80 km/h (média harmônica). A média harmônica é sempre menor ou igual à média geométrica, que por sua vez é menor ou igual à média aritmética: MH ≤ MG ≤ x̄. Essa desigualdade é útil em contextos de provas. Resumo para Prova A compreensão profunda dos conceitos abordados nesta aula é fundamental para aprovação em concursos públicos. Os principais pontos a serem lembrados são: Conceitos fundamentais: População é o conjunto total; amostra é o subconjunto selecionado; parâmetro é característica da população (μ, σ, π); estatística é característica da amostra (x̄, s, p̂). Tipos de variáveis: Qualitativas nominais (sem ordem), ordinais (com ordem); quantitativas discretas (contagem) e contínuas (medição). Amostragem probabilística: AAS (mesma probabilidade), sistemática (intervalo k), estratificada (estratos homogêneos), conglomerados (grupos inteiros), múltiplos estágios (cascata). Amostragem não probabilística: Conveniência, julgamento, cotas, bola de neve, voluntária. Não permite inferência clássica. Erros: Erro amostral (variabilidade entre amostras, reduz com n maior); erro não amostral (cobertura, não resposta, medição, existe em censos). Distribuição amostral da média: E(x̄) = μ; Var(x̄) = σ²/n; erro padrão = σ/√n. Teorema Central do Limite: Para n grande (≥30), x̄ segue distribuição normal independentemente da distribuição original. Teste de hipóteses: H₀ (hipótese nula) versus H₁ (alternativa); erros Tipo I (rejeitar H₀ verdadeira, prob. α) e Tipo II (não rejeitar H₀ falsa, prob. β); valor-p. Média, mediana, moda: Média (soma/n, sensível a outliers); mediana (valor central, resistente); moda (mais frequente, única para qualitativas nominais). Relações: Distribuição simétrica: x̄ ≈ Md ≈ Mo. Assimétrica positiva: x̄ > Md > Mo. Assimétrica negativa: x̄ < Md < Mo. Média geométrica: Para taxas de crescimento; MG ≤ média aritmética. Média harmônica: Para velocidades médias; MH ≤ média geométrica ≤ média aritmética. Exercícios: Em um estudo sobre a população de uma cidade, um pesquisador deseja coletar dados de forma que cada cidadão tenha uma probabilidade conhecida e maior que zero de ser selecionado. Qual tipo de amostragem ele está utilizando? Qual é a principal diferença entre erro amostral e erro não amostral? Considerando a distribuição amostral da média amostral, qual é a relação correta entre a variância da média amostral (Var(x̄)) e a variância populacional (σ²)? Em uma distribuição assimétrica positiva, como se relacionam a média, a mediana e a moda? Ao se realizar um teste de hipótese, qual é a definição correta do erro do Tipo I? Qual das seguintes estatísticas é considerada uma medida de tendência central que é resistente a outliers?