Modelo:
Aspectos metodológicos
Universo (ou População)
O conjunto de unidades de observação que pretendemos estudar (ou, unidades estatísticas). Podem ser indivíduos, famílias, agregados familiares, escolas, freguesias, empresas.
Para a quantificação do universo podem ser utilizados dados do Recenseamento Geral da População (CENSUS) realizado pelo INE de dez em dez anos (último em 2001).
Ex.: “O universo é constituído por indivíduos de ambos os sexos, com 15 e mais anos de idade, residentes em Portugal Continental, em localidades com mais de 10 mil habitantes, em lares com telefone fixo.”
Ex.: “O conjunto dos 7.902 licenciados recenseados na UNL nos últimos cinco anos relativamente aos quais se dispõe de informação completa.”
Universo homogéneo / heterogéneo influencia dimensão da amostra
Amostra
O conjunto de unidades de observação que vamos efectivamente observar.
Ex.: “A amostra é composta por 1006 entrevistas, com uma distribuição proporcional à população residente em localidades com mais de 10 mil habitantes, considerando as variáveis sexo, idade e região.”
Recolha de informação
Como foi recolhida a informação
Ex.: “A metodologia foi de natureza quantitativa, com recolha de informação através da técnica de entrevista telefónica, suportada por um questionário estruturado. A recolha decorreu entre os dias 4 e 26 de Outubro de 2005.”
Plano de amostragem
Tipos de Amostras:
- Amostra Aleatória
- Amostra Estratificada
- Amostra por Cachos
- Amostra por Áreas
- Amostra por Níveis
- Amostra por Fases
- Amostra por Quotas
- Amostra “Bola de Neve”
- Amostra Pensada
A primeira coisa que perguntamos é se existe base de sondagem.
Segunda pergunta é se temos dados para estratificar.
Se tivermos as duas coisas podemos combinar os dois métodos (aleatório e estratificado).
Se tivermos apenas base de sondagem podemos utilizar a amostra aleatória combinada com outra alternativa:
- Se a população for muito diversificada podemos fazer a amostra por fases (primeiro arranjamos dados para estratificar, depois aplicamos os dados na amostra final).
- Se a população for muito homogénea ficamos pela amostra aleatória simples, aumentado o número da amostra.
Se tivermos apenas dados para estratificar, optamos pela amostra por quotas (com a certeza que teremos listagens das regiões ou habitat que poderão ser tirados à sorte) ainda que não tenha listagem dos indivíduos.
Podemos também optar pela amostra por níveis para o primeiro nível e depois pela amostra por quotas para o segundo.
Não temos as duas coisas, nesse caso temos de descobrir ou criar os dados, utilizando a amostra por fases ou recorrendo a processos próximos do aleatório como o random route, ou a técnicas de tiragem sistemática como entrevistar indivíduos de tantos em tantos. Este processo de tiragem sistemática pode ser utilizado para a amostra por cachos.
A Filosofia do Aleatório
A primeira coisa que se tem de perceber é que, para haver tiragem à sorte tem que haver uma listagem exaustiva de todos os indivíduos que compõem o universo. Não pode haver tiragem à sorte sem uma listagem. Se essa listagem é a lista telefónica ou outra qualquer, pouco importa. A listagem de todos os indivíduos que compõem o universo chama-se base de sondagem de uma amostra.
No entanto, não chega que existam listagem para haver uma selecção aleatória; é também preciso que essas listagens estejam completas, correctas e, sobretudo, que correspondam exactamente ao universo que se pretende estudar (a lista telefónica, por exemplo, só contempla os indivíduos com telefone fixo).
Por outro lado é muito importante esclarecer que o recenseamento da população tem dados, informação, mas não tem nenhuma listagem dos indivíduos.
A tiragem à sorte rege-se pelo princípio do aleatório, isto é: a probabilidade de determinadas características aparecerem na amostra é tanto maior quanto for o peso dessas características no universo. No entanto a sorte pode transformar-se em azar, porque existem aquilo a que se chamam erros aleatórios, em que as tiragens à sorte saem muito fora da realidade do universo.
A Filosofia da Estratificação
O objectivo da estratificação é pressupor que, conhecendo as características do universo, num conjunto de variáveis, posso conseguir uma amostra com características idênticas ao universo representando-o bem, quer em relação às variáveis que controlei, quer em relação às outras que desconheço.
Normalmente a estratificação é feita com base em variáveis de caracterização (sexo, idade, nível de instrução, região, habitat, ocupação, etc.) porém, para se poder fazer estratificação é necessário ter dados, informação, sobre o universo.
A grande vantagem teórica da amostra aleatória em relação à amostra estratificada é que a amostra aleatória tem por base uma teoria cientifica que é a teoria das probabilidades (e por isso se pode calcular a margem de erro) enquanto que uma amostra estratificada, não aleatória não tem por base nenhuma teoria cientifica, mas apenas a qualidade dos resultados que vai dando na prática.
Em suma, há dois grandes modelos de amostragem: o modelo aleatório e o modelo de estratificação. O primeiro exige à partida, que haja uma listagem total dos indivíduos do universo. O segundo modelo vai obrigar-nos a fazer a pergunta: será que existem dados que permitam estratificar?
Há três níveis de amostra:
- O primeiro nível, a amostra aleatória em que eu confio totalmente na sorte
- O segundo nível, a amostra estratificada que está a meio. Eu não confio totalmente na sorte e por isso estabeleço quantidades para os estratos que acho importantes, mas deixo a sorte escolher os indivíduos.
- O terceiro nível, a amostra por quotas é o investigador que constrói a amostra.
Cada vez que se pensa fazer uma amostra devemos começar por colocar uma interrogação: Será que, para este universo tenho base de sondagem (listagem)?
Será que possuo dados sobre este universo que me permitam proceder à estratificação?
A primeira hipótese é possuirmos as duas coisas: aqui podemos escolher qual das amostras queremos fazer e até podemos aplicar as duas técnicas de amostragem ao mesmo tempo.
Numa segunda hipótese, se só tivermos a base de sondagem, então optamos pela filosofia aleatória.
Numa terceira hipótese, se só tivermos dados sobre a população, optamos pela filosofia da estratificação.
Finalmente, se não tivermos nada disto podemos fazer uma amostra do “tipo aleatório” ou amostra aleatória impura.
Amostra aleatória pura
Este tipo de amostra exige que se tenham cuidados extremamente elevados para que seja perfeitamente aleatório (por exemplo o sorteio do totoloto ou da lotaria).
Para fazer uma amostra aleatória pura em primeiro lugar é necessário numerar os indivíduos, depois, através de uma tabela de números aleatórios seleccionam-se os indivíduos que se pretende estudar.
Outra forma de amostragem aleatória pura, sem ser necessário numerar os indivíduos é calcular a taxa de sondagem
n (amostra) 400 1 (ou 20000:400=50)
N (universo) 20 000 50
Neste exemplo, vou escolher o primeiro indivíduo com uma tabela de números aleatórios e depois vou escolher de 50 em 50 até ter completado o número pretendido para a minha amostra. Esta técnica, conhecida como tiragem sistemática também pode ser considerada como um método de selecção aleatória pura.
Amostra Estratificada à priori (a)
A amostra estratificada parte do pressuposto que uma simples tiragem aleatória não basta. Embora tirando à sorte, esta amostra garante à partida que determinadas características do universo ficam representadas de forma correcta. Por exemplo num universo com uma distribuição por sexos de 55% de mulheres e 45% de homens, a amostra estratificada terá a mesma proporção.
Esta amostra só pode ser utilizada se houver uma base de sondagem (ou seja: um ficheiro com os nomes e moradas das pessoas) e se tiver dados da população (isto é: saber que percentagem corresponde a cada estrato).
Estratificação Cruzada
Tendo os dados sobre o universo pode-se cruzar variáveis como sexo e região ou idade. A este processo chama-se Estratificação Cruzada.
Para que esta amostra seja exequível são necessárias três condições:
Haver dados sobre o universo para poder estratificar;
Haver listagem ou um ficheiro para se poder tirar à sorte a amostra.
Haver base de sondagem com informação sobre as variáveis de estratificação consideradas no estudo.
Proporcionalidade e não proporcionalidade
Para definir a proporcionalidade da amostra é necessário compreender o que se pretende com o estudo e conhecer o universo. E, claro, sempre as primeiras interrogações: Há listagem? Há dados?
Dependendo dos objectivos do estudo pode ser necessário fazer uma amostra não proporcional para conseguir, assim, obter a opinião de alguns estratos que de outro modo ficariam excluídos.
Se alguém nos encomenda um estudo, é obrigatório perguntar como essa pessoa quer a analise, porque a amostra tem de ser diferente, consoante o tipo de analise que se pretende.
Por exemplo numa amostra distribuída pelos estratos idade, sexo e região pode obter-se:
a) Uma análise total
b) Uma análise por sexo
c) Uma análise por estrato etário
d) Uma análise por estrato regional
e) Uma analise separada de todos os estratos
Para cada um destes cenários pode ser necessário optar por uma amostra proporcional ou não, fazendo a correcção da proporcionalidade à posteriori.
Estratificar à posteriori
Estratificar à posteriori é dar à posteriori um determinado peso a um conjunto de indivíduos, tal como estratificar à priori é dar um determinado peso a um conjunto de indivíduos. Para isso vou utilizar um coeficiente de correcção das respostas: Divido o universo (se for o caso de uma grande cidade) em centenas, e as centenas que correspondem a cada estrato, divido pelo número a que corresponde na amostra. Com o resultado multiplico pelas respostas obtendo assim o valor proporcional.
Por exemplo: 4 milhões são 4000 centenas; se houver dois estratos, um de 500 centenas e outro de 3500 centenas e se para cada um dos estratos entrevistei 400 pessoas, divido 500/400=1.25 e 3500/400=8.75. Este é o coeficiente pelo qual vou multiplicar as respostas.
Estratificar à posteriori exige, tal como em todas as outras estratificações, a existência de dados e de listagem do universo.
É necessário ter em mente o objectivo do inquérito. Embora por vezes a amostra não proporcional permita conhecer melhor os grupos pouco numerosos, ela pode no entanto induzir em erro nos grupos muito grandes.
Separadamente por estrato, uma amostra não proporcional pode estar certa, mas para uma análise global a não proporcionalidade afecta os grandes grupos, devemos por isso procurar o equilíbrio numa amostra ainda que não proporcional, mas que se aproxima da realidade.
As amostras quanto maiores são, menos margem de erro nos dão.
Em suma, estratificar à posteriori implica
a) Conhecer as características do universo em relação às variáveis necessárias.
b) Que a amostra tenha distorções em relação às variáveis que considero importantes (se não tiver distorções não é necessário estratificar à posteriori.
c) Que os objectivos do estudo assim o exijam.
Amostra estratificada à priori (b)
Há dois tipos de amostra:
“Amostra Estratificada” (com base de sondagem)
Amostra por Quotas (sem base de sondagem)
A amostra estratificada, como já vimos, é uma amostra aleatória, ou probabilística. Significa que parte de uma base de sondagem de onde são sorteados os indivíduos. A diferença do método aleatório simples é que não confiamos na sorte e, como temos dados, podemos dividir os indivíduos por diversos estratos.
Mas a amostra estratificada representa ainda um ganho de precisão em relação à amostra aleatória simples, porque podemos ainda dividir a diversidade que existe em cada estrato. Porém, quanto mais estratos menos indivíduos ficarão em cada um deles e por isso menos precisa será a amostra, ou então, o numero de indivíduos a entrevistar tornar-se-á demasiado grande.
Por outro lado dividir os indivíduos por variáveis em que as pessoas podem mentir, altera o resultado da amostra.
Amostra por cachos
- Não tenho base de sondagem
- Não tenho dados
- Tenho listagem de cachos
- Tenho dados sobre os cachos
Acontece muito frequentemente que nos deparamos com o problema de não termos listagem das unidades de observação, ou seja, não temos base de sondagem e assim ficamos impedidos de utilizar a amostra aleatória. Mas, em vez de tirarmos à sorte as unidades estatísticas que nos interessam tiramos conjuntos de unidades estatísticas.
Não temos listagem de indivíduos, mas temos listagem de agrupamentos de indivíduos (escolas, empresas, centros comerciais, igrejas, associações, clubes, etc.).
Ter em atenção que todo o universo a estudar tem de estar contido nos agrupamentos.
Pertence à família das amostras probabilísticas, embora também possa ser utilizada num enquadramento não probabilístico.
Amostra de tipo probabilístico quer dizer que é tirada à sorte. São sorteados os cachos e são sorteados os indivíduos dentro dos cachos. Ou são entrevistados todos os indivíduos de cada cacho.
Porém, se o conjunto dos cachos for muito heterogéneo, isto é, se houver cachos de grande dimensão e outros muito pequenos devo estratificar por tamanho dos cachos e aleatoriamente escolher em cada um dos estratos, procurando evitar que a amostra fica sobredimensionada.
Normalmente estratificam-se os cachos em função da sua dimensão. Mas, ao estratificar em função da dimensão dos cachos, as dimensões dos estratos não são proporcionais ao número de cachos ou à sua dimensão, mas sim à dimensão da população.
Já quanto ao número de estratos depende dos tipos de cachos que se encontrar. Podem ser três estrados, cinco ou mais.
Para que a amostra por cachos, tradicional, aleatória, probabilística, seja utilizada é necessário que ela reúna estas condições:
Cachos numerosos; pouca gente dentro de cada cacho; cachos muito parecidos entre si e dentro de cada cacho o máximo de heterogeneidade que for possível.
Sistematizando, há três situações onde poderemos utilizar uma amostra por cachos:
1 – Quando os cachos são praticamente da mesma dimensão, em numero elevado e com um reduzido numero de individuo em cada um deles. Selecciona-se à sorte os cachos a observar e depois entrevistam-se todos os indivíduos.
Para calcular o número de cachos a seleccionar, divido a amostra pelo número médio de indivíduos que há em cada cacho (para uma amostra de 1000 e cada cacho com 10 indivíduos: 1000:10=100. selecciono 100 cachos).
2 – Quando os cachos têm praticamente a mesma dimensão e com um numero elevado de indivíduos em cada um deles. Selecciona-se à sorte os cachos e depois entrevistam-se alguns indivíduos em cada um deles.
Para calcular o número de cachos a seleccionar divido a amostra por um número razoável de indivíduos (por exemplo: um terço da media de indivíduos por cacho) e obtenho o número de cachos que devo seleccionar (1000:30=33 cachos e faço uma amostra com 990 indivíduos).
3 – Quando os cachos são muito diferentes quer em dimensão quer em características, temos de estratificar o que só é possível se houver dados do universo. Neste caso posso optar por uma amostra não probabilística, utilizando uma técnica diferente para a selecção dos indivíduos. Deste modo estaria a combinar 4 técnicas de amostragem: amostra por cachos, amostra aleatória, amostra estratificada e o tipo de amostra utilizado para seleccionar os indivíduos dentro de cada cacho.
Amostra por áreas
- Não tenho base de sondagem
- Não tenho dados
- Não tenho cachos
É semelhante à amostra por cachos, mas estes têm índole geográfica e não representam um agrupamento natural. Na realidade é o próprio investigador que vai criar cachos artificiais.
Este tipo de amostra é utilizado para produzir amostras em países onde não existe recenseamento nem listagens da população.
A lógica é a seguinte: o investigador, em resultado de uma observação quer cartográfica, quer por foto aérea, quer por observação directa, divide o terreno em áreas de diversas dimensões mas preferencialmente com um número aproximado de indivíduos. Deste modo pode proceder como no exemplo 2 dado na amostra por cachos (semelhantes mas com um numero elevado de indivíduos com características muito heterogéneas.
Não preciso de ter dados, ou de ter listas, só necessito de criar cachos com a mesma dimensão.
Amostra por níveis
A amostra por níveis pode ser incluída dentro do capítulo das amostras probabilísticas, embora normalmente recorra a técnicas não probabilísticas, isto é com um conteúdo não aleatório.
A ideia base desta amostra é muito simples: para responder a um determinado objectivo de amostragem, não vamos proceder a um único momento de selecção, mas vamos dividir essa selecção por vários momentos.
Os vários momentos da selecção podem ser feitos por processo aleatórios, mas esta amostra permite que se utilizem várias técnicas de amostragem, combinando o probabilístico com o não probabilístico.
O recurso a técnicas não probabilistas permite resolver parte dos problemas resultantes da ausência de listagem ou de bases de sondagem, que pela sua inexistência inviabilizavam a amostra aleatória propriamente dita.
A estratificação por habitat que é o indicador do grau de urbanização pode ser um elemento de estratificação numa amostra por níveis. Assim imaginemos a divisão administrativa do país, com os distritos, concelhos e freguesias, cada um representando diferentes níveis. Só no último nível eu vou recolher os indivíduos que são a minha verdadeira amostra.
Mas não estou obrigado a utilizar o aleatório. Se tenho informação sobre os distritos posso estratificar. Melhor ainda posso saltar etapas e partir das freguesias estratificadas, por exemplo em rurais e urbanas, e depois definir níveis mais pequenos (povoações, quarteirões, prédios) até chegar aos indivíduos que são quem me interessa estudar.
É necessário ter em mente as regras da amostra de níveis:
1 – Devo preferir um número elevado de unidades de primeiro nível.
2 – Se possível deve estratificar.
Como o que me interessa obter a representatividade geral, não estou preocupado em criar representatividade ao nível de freguesia. Assim basta-me 3 ou 4 indivíduos recolhidos em cada último nível, obtendo o máximo de pontos de amostragem pelo país. Deste modo consigo obter uma diversificada e representativa do país apesar de não ser representativa de cada uma das freguesias.
Portanto, para haver uma correcta representação na escolha das unidades primárias é preciso que:
1 – O numero de unidades primárias escolhidas seja relativamente elevado, para criar um numero elevado de locais de amostragem, ou de pontos de amostragem, para permitir captar toda a diversidade do universo, porque depois, a diversidade de caracterização dentro do espaço é mais fácil de conseguir.
2 – Se estas unidades primárias forem, no universo, relativamente heterogéneas, há todo o interesse em que essa selecção das unidades primárias seja, não só aleatória, mas também estratificada.
Depois da selecção das unidades primárias, a selecção das unidades secundárias irá assegurar a qualidade, no que diz respeito à selecção das unidades propriamente ditas, havendo, se necessário, recurso à estratificação nesse nível também.
Amostra por fases
- Tenho base de sondagem
- Não tenho dados
A amostra por fases que muitas vezes se confunde com a amostra por níveis é uma selecção feita em dois momentos do tempo.
Numa primeira fase tiro à sorte um número muito elevado de unidades estatísticas (por exemplo: 5000), que vou seleccionar à sorte. Depois faço um inquérito breve onde pergunto as variáveis que me interessam para depois, de acordo com o resultado do inquérito, poder estratificar.
Numa segunda fase, já com dados do universo posso fazer uma amostra final estratificada com um número reduzido de indivíduos (por exemplo 400), sorteados novamente do universo.
- Não tenho base de sondagem
- Não tenho dados
Também posso construir uma amostra por fases sem recorrer ao método aleatório.
Assim, numa primeira fase, recolho os elementos para estratificar, por exemplo seleccionando pontos de amostragem ou áreas para depois seleccionar unidades de amostragem (por exemplo: de três em três). Nesta primeira fase apenas recolho os dados necessários para estratificar. Esta amostra deve ser suficientemente grande para limitar os erros de amostragem.
Depois de trabalhados os dados, posso construir a nova amostra estratificada e com uma dimensão mais reduzida.
Muito importante: Se a opção for pelo processo não aleatório, não basta fazer uma primeira amostra muito grande, ela também tem de ser muito bem pensada. Já se o processo for aleatório podemos garantir que ela seja representativa do universo.
Amostra por quotas
- Não tenho base de sondagem
- Tenho dados
Se a amostra estratificada e a amostra por quotas se baseiam numa estratificação do universo, já na selecção dos indivíduos podemos encontrar diferenças. Enquanto na amostra estratificada, seleccionamos os indivíduos aleatoriamente, na amostra por quotas a selecção é acidental. Isto é, vão-se seleccionando os indivíduos à medida que se encontram.
Assim, construo um elevado número de variáveis para estratificar. Quanto maior for essa estratificação mais difícil se torna encontrar os indivíduos e com isso menos será a interferência do inquiridor.
Para reduzir a influência do inquiridor, divide-se o plano de amostragem em dois níveis:
1 – Selecciona-se os pontos de amostragem.
2 – Seleccionam-se os indivíduos.
Para seleccionar os pontos de amostragem (localidades, por exemplo) já tenho base de sondagem. Posso tirar à sorte, mas se o fizer pode não me sair Lisboa que é maior localidade do país. No entanto, se estratificar, crio grupos homogéneos de localidades e posso recorrer à selecção aleatória. Porém no caso de Lisboa ou Porto, elas são únicas no estrato. Logo, não as sorteio, escolho-as. As restantes localidades são escolhidas em função do número de entrevistas que quero fazer em cada localidade de acordo com as variáveis (regionais) definidas na estratificação. Aqui posso sortear.
Depois na selecção dos indivíduos vou impor regras aos entrevistadores utilizando sistemas próximos do aleatório como o random route. Ou em alternativa posso estabelecer quotas exigindo que entreviste pessoas com determinadas características que não seria possível encontrá-las todas juntas.
Com este processo eu tenho uma amostra quase perfeita, porque foi estratificada por região e habitat, com selecção aleatória das localidades e dentro das localidades impôs-se um caminho aleatório que não deixa espaço de influência ao entrevistador.
Amostra bola de neve
- Não tenho base de sondagem
- Não tenho dados
Para tentar encontrar um grupo muito reduzido de pessoas, a melhor forma é partir de um ponto onde essas pessoas se costumam reunir ou associar. Depois de identificar alguns elementos, fazer a entrevista e no final pedir contactos de outras pessoas com o mesmo interesse ou características. Deste modo vamos construindo a amostra até atingir um número razoável ou o número inicialmente pensado para a amostra.
O menor rigor neste processo é compensado com uma maior homogeneidade do universo.
Amostra pensada
Trata-se da amostra que resulta das hipóteses teorias do próprio investigador. O investigador parte do pressuposto que aquela amostra é o que melhor ilustra determinada realidade. O investigador necessita de ter bases muito concretas para fundamentar a sua opção.