Pular para o conteúdo principal

Big Data

Conceito

Ele nada mais é que um conjunto enorme de dados, dos mais variados tipos, tamanhos e complexidades. Esses dados podem ser estruturados, não estruturados, imagens, textos, diversas coisas.
O volume desses dados costuma ser tão grandes que técnicas de processamento tradicional não servem para lidar com eles, já que a capacidade de um computador não seria suficiente para processar todo esses dados.

  • Utiliza Cluster para processamento.

Tabela dos 7 Vs do Big Data

VSignificadoExplicação prática
VolumeQuantidade de dadosPetabytes, zettabytes... É dado demais! Bancos, sensores, redes sociais, etc.
VelocidadeRapidez de geração e processamentoDados em tempo real ou quase — ex: bolsa de valores, streaming, IoT.
VariedadeDiversidade de formatosEstruturado (tabelas), semiestruturado (JSON), não estruturado (vídeo, áudio).
VeracidadeQualidade e confiabilidade dos dadosDados confiáveis? Com ruído? Fake? Isso impacta nas decisões baseadas neles.
ValorUtilidade dos dados para gerar insightsInformação útil = vantagem competitiva. Não adianta ter muito dado inútil.
VariabilidadeMudanças e inconsistências nos dadosLinguagem informal nas redes, dados que mudam de comportamento ao longo do tempo.
VisualizaçãoClareza na apresentação dos dadosDashboards, gráficos, relatórios... Traduzir o dado bruto em algo compreensível.

Princípios das Transações

  • Basicamente disponível: O sistema deve permanecer operacional e disponível para leitura e gravação, mesmo que isso signifique sacrificar a consistência imediata dos dados.
  • Estado Suave: Os dados podem estar em estados transitórios ou inconsistentes durante as atualizações, mas eventualmente convergem para um estado consistente.
  • Eventualmente Consistência: O sistema eventualmente se tornará consistente, mas não necessariamente em tempo real. Isso implica que os dados podem ser temporariamente inconsistentes, mas serão eventualmente reconciliados.

Teorema CAP

CAP - Consistency, Availability e Partition Tolerance.

  • Consistência: todos os nós em um sistema distribuído veem os mesmos dados ao mesmo tempo.
  • Disponibilidade: Todos os pedidos de leitura e gravação recebem uma resposta, mesmo em face de falhas de rede ou partições.
  • Tolerância à Partição: O sistema continua a funcionar mesmo que a comunicação entre os nós seja interrompida.

Formas de Entrega

  1. On-Premise(local)
  2. Nuvem Pública - Azure, Amazon, Google.
  3. Nuvem Privada
  4. Nuvem Híbrida
  5. Edge Computing(Computação de borda - processamento acontece próximo do usuário ou da fonte de dado)

ACID

A banca Cebraspe também considera as propriedades classicas do ACID.

a) Atomicidade: uma transação é uma unidade de processamento que deve ser realizada integralmente ou não é realizada.

b) Consistência: uma transação, após sua execução, deve levar o banco de dados de um estado consistente para outro estado consistente.

c) Isolamento: uma transação deve parecer como se estivesse sendo executada isoladamente ou sozinha.

d) Durabilidade: As alterações realizadas em um banco de dados por meio de uma transação que chegou ao final com sucesso (commit/confirmadas) devem ser persistidas nesse banco de dados

Questão ACID