Técnicas de pré-processamento de dados estruturados e não estruturados

A fase de pré-processamento de dados é um processo semiautomático, pois envolve tanto técnicas automatizadas quanto a expertise do analista. O analista precisa identificar problemas nos dados, como valores ausentes, inconsistências, outliers e erros, e escolher as melhores estratégias e métodos para resolver esses problemas.

Dados Estruturados

São informações organizadas em formato fixo, como tabelas com linhas e colunas. Cada coluna representa um atributo (ex.: nome, idade) e cada linha, um registro. Eles são facilmente armazenados e consultados em bancos de dados relacionais (como SQL). Por terem estrutura definida, permitem análises rápidas e automatizadas.

1. Diferenças

Estruturados: organizados em tabelas (ex.: SQL, CSV).
Semiestruturados: têm marcação parcial (ex.: JSON, XML).
Não estruturados: sem forma fixa (ex.: imagens, texto livre, áudios).

📝 Cebraspe – CTI 2024 – Tecnologista IA
Dados estruturados podem ser facilmente manipulados com SQL, ao passo que dados semiestruturados exigem parsing prévio para análise tabular.

Gabarito: Certo

Parsing prévio é o processo de interpretar e converter dados brutos (como arquivos XML, JSON, ou texto) em uma estrutura compreensível e utilizável — como uma tabela.

2. Limpeza de Dados

Técnicas comuns

Remoção de registros incompletos ou inconsistentes.
Tratamento de valores nulos (exclusão ou imputação).
Padronização de formatos (datas, maiúsculas/minúsculas).
Remoção de outliers.
Tratamento de espaços em branco.

Cebraspe – SEPLAG-CE 2024 – Ciência da Computação
Um pipeline de dados visa refinar e limpar os dados brutos, facilitando a utilização desses dados pelos usuários finais.

Gabarito: Certo

Integração de Dados

O enriquecimento de dados da etapa de pré-processamento e preparação do data mining tem como objetivo o acréscimo de dados à base já existente.
Exemplo: A partir do CEP do cliente, adiciona-se a informação de cidade e estado.

3. Tratamento de Outliers

Valores que se desviam muito do restante dos dados. Podem indicar erro ou variabilidade extrema.

Como contornar?

Remoção, substituição ou transformação.
Análise com boxplots, desvio-padrão, z-score.

Local Outlier Factor (LOF)

Local Outlier Factor (LOF) é uma técnica de detecção de outliers que mede a anomalia de um dado com base na densidade local dos seus vizinhos.

Se um ponto está em uma região muito menos densa que os vizinhos, ele é considerado outlier local.
Ao contrário de métodos globais (como z-score), o LOF detecta outliers em regiões específicas do espaço.

Para a identificação de outliers, deve-se calcular o intervalo interquartil (IQR) e identificar dados que estão a mais de 1,5 vezes o IQR abaixo do primeiro quartil ou acima do terceiro quartil.

4. Normalização vs. Padronização

Conceito: Ajustar a escala dos dados numéricos para garantir comparabilidade.

Na hora de treinar um modelo, seus dados precisam estar na mesma vibe.
Se uma coluna vai de 0 a 1000 e outra vai de 0 a 10, o modelo pode dar mais importância só porque um número é maior — mesmo que isso não signifique nada.

É aí que entram duas técnicas irmãs: normalização e padronização. 👇

Normalização (Min-Max)

O que é?
Reescala os valores de uma coluna para caber entre 0 e 1.
Todo mundo na mesma régua, sem exageros.

Quando usar?

Quando os dados já estão bem distribuídos.
Quando não há outliers (valores muito extremos).
Ideal para modelos que usam distância, como KNN ou redes neurais.

Exemplo:
Você tem as idades de três pessoas: 20, 40, 60.
Depois da normalização, esses valores vão virar algo como 0.0, 0.5, 1.0.
Fica tudo proporcional — tipo colocar as idades numa escala de 0 a 1.

Padronização (Z-score)

O que é?
Transforma os valores para que a média vire 0 e o desvio padrão vire 1.
Ou seja, os dados ficam “centrados” e com variação padronizada.

Quando usar?

Quando os dados têm escalas muito diferentes.
Quando há outliers e você quer reduzir o impacto deles.
Muito útil em modelos que assumem dados com distribuição normal (ex: regressão linear, SVM).

Exemplo:
Você tem os salários: 1.000, 5.000, 25.000.
A padronização vai ajustar esses valores em torno de zero.
O 1.000 pode virar algo como -1.2, 5.000 vira 0, e 25.000 vira +1.2.

Dica

Se os dados forem limpinhos e você quiser reescalar entre 0 e 1 → normalização.
Se os dados estiverem espalhados ou com valores extremos → padronização.

"Qual técnica deve ser usada quando os dados têm escalas diferentes e presença de outliers, e deseja-se uma média 0 com desvio 1?"

Resposta correta: Padronização (Z-score)

Normalização (Min-Max): reescala entre 0 e 1.
Padronização (Z-score): transforma os dados para média 0 e desvio padrão 1.

📝 Cebraspe – CTI 2024 – Indústria 4.0 e Governo Digital

A padronização pelo Z-score transforma os dados de uma variável para que tenham média igual a zero e desvio padrão igual a um.

Gabarito: Certo

Classificação é uma técnica de aprendizado supervisionado onde o objetivo é atribuir uma etiqueta ou categoria a um novo conjunto de dados com base em um conjunto de treinamento previamente rotulado. Em outras palavras, você já tem uma ideia das classes ou categorias e usa um modelo para prever a classe de novos dados.

Clusterização é uma técnica de aprendizado não supervisionado que visa particionar um conjunto de dados em subgrupos (ou clusters) com características em comum, sem ter rótulos predefinidos. Ou seja, você está descobrindo esses grupos com base em similaridades intrínsecas dos dados.

5. Pipeline de Dados

Uma pipeline de dados é como uma “linha de montagem” que organiza todas as etapas pelas quais os dados passam — desde a coleta até a entrega para análise, visualização ou modelagem.

📝 Cebraspe – SEPLAG-CE 2024
Em Big Data, um pipeline de dados visa refinar e limpar os dados brutos, facilitando a utilização desses dados pelos usuários finais.

Gabarito: Certo

Dados Não Estruturados

Dados não estruturados não seguem uma forma tabular. São textos, imagens, áudios, vídeos e outros formatos livres. Para que esses dados possam ser analisados ou usados em modelos de IA, eles precisam passar por pré-processamento.

O pré-processamento de dados deve ocorrer em bases de informações não estruturadas, com o objetivo de diminuir a quantidade de dados a serem processados.

Texto

🔹 Tokenização

Divide o texto em unidades menores: palavras, frases ou subpalavras.
É o primeiro passo para transformar texto em algo "entendível" por algoritmos.

Exemplo:

Frase: "A Cebraspe cobra isso." → Tokens: ["A", "Cebraspe", "cobra", "isso", "."]

📝 Cebraspe – TRF-6, 2025
Modelos de linguagem utilizam tokenização subword para lidar com palavras fora do vocabulário.

Gabarito: Certo

🔹 Remoção de Stopwords

Remove palavras muito comuns e com pouca utilidade (ex: "de", "o", "a", "em").
Motivo: essas palavras poluem o modelo e não ajudam na análise.

Cebraspe Em um banco de dados de texto, o pré-processamento pode incluir a remoção de palavras irrelevantes (stop words), correção de erros ortográficos e normalização de termos.

🔹 Lematização / Stemming

Reduz as palavras às suas formas básicas.

Stemming: corta a palavra até sua raiz (às vezes de forma bruta).
Lematização: retorna a forma gramatical correta (mais precisa).

Exemplo:
"correndo", "correu", "corre" → "correr"

🔹 Vetorização de Texto (Bag-of-Words, TF-IDF)

Transforma palavras em valores numéricos, criando representações utilizáveis por modelos.

Bag-of-Words (BoW): conta quantas vezes cada palavra aparece, somente conta! Tanto faz a ordem ou contexto

📝 Cebraspe – BACEN, 2024 *BoW (bag of words) é uma técnica de processamento de linguagem natural que transforma um texto em um vetor, considerando a frequência e a ordem ou o cont>

Gabarito: Certo

TF-IDF: Serve para destacar as palavras mais relevantes de um documento dentro de um conjunto de textos.

Ele calcula um peso para cada termo com base em dois fatores:

TF – Term Frequency (Frequência do termo)
Quantas vezes a palavra aparece em um documento.
Quanto mais aparece, mais importante ela é naquele documento.

IDF – Inverse Document Frequency (Frequência inversa nos documentos) Mede em quantos documentos do corpus a palavra aparece. Quanto mais comum em todos os documentos, menor o peso.

No contexto de processamento de linguagem natural (PLN), um corpus é um conjunto de textos usados para análise, treinamento de modelos ou extração de informações linguísticas.

📝 Cebraspe – TRF-6, 2025
A técnica TF-IDF majorará a importância de um termo que aparece muitas vezes em um documento e poucas vezes nos outros documentos de um mesmo corpus.

Gabarito: Certo

Característica	Bag-of-Words (BoW)	TF-IDF
O que mede	Frequência das palavras	Frequência ajustada pela raridade
Considera contexto?	❌ Não	❌ Não
Palavras comuns têm peso?	✅ Sim (alto peso)	❌ Não (baixo peso)
Diferencia documentos?	❌ Não muito	✅ Sim, destaca termos relevantes
Uso comum	Modelos simples, contagem bruta	Busca textual, classificação de texto

Dados Estruturados​

1. Diferenças​

2. Limpeza de Dados​

Técnicas comuns​

3. Tratamento de Outliers​

Local Outlier Factor (LOF)​

4. Normalização vs. Padronização​

Normalização (Min-Max)​

Padronização (Z-score)​

5. Pipeline de Dados​

Dados Não Estruturados​

Texto​

🔹 Tokenização​

🔹 Remoção de Stopwords​

🔹 Lematização / Stemming​

🔹 Vetorização de Texto (Bag-of-Words, TF-IDF)​

Dados Estruturados

1. Diferenças

2. Limpeza de Dados

Técnicas comuns

3. Tratamento de Outliers

Local Outlier Factor (LOF)

4. Normalização vs. Padronização

Normalização (Min-Max)

Padronização (Z-score)

5. Pipeline de Dados

Dados Não Estruturados

Texto

🔹 Tokenização

🔹 Remoção de Stopwords

🔹 Lematização / Stemming

🔹 Vetorização de Texto (Bag-of-Words, TF-IDF)