Artigos

Big Data & Analytics – Explorar Dados, Limpar e Transformar

28/07/2021

• 1 min de leitura

Continuando nossa abordagem sobre a metodologia de projetos de ciência de dados e os termos da área (veja aqui e aqui os primeiros dois artigos dessa série), que muitos falam, mas não sabem onde e quando aplicar, vamos falar sobre 3 etapas de uma vez só. Sim, porque em verdade estas etapas não ocorrem linearmente, como na figura nossa conhecida abaixo. Quando entramos na etapa de exploração de dados à medida que vamos conhecendo melhor as informações nos deparamos com a necessidade de fazer uma higienização ou uma transformação dos dados para melhorar nossa leitura dos fatos que os dados nos apresentam. Por isso, falaremos das 3 atividades em conjunto.

Fonte: A autora

3) Explorar os dados de Entrada

A etapa de “Exploração dos Dados” também conhecida como EDA (Exploratory Data Analysis), é uma das etapas onde os conhecimentos de estatística e programação (SQL, Python, R) são mais utilizados pelos profissionais da área de dados (engenheiro de dados, cientista de dados).

Como conversamos sobre a etapa anterior, uma vez que você já selecionou os dados que julga necessários e suficientes para realizar seu estudo (MVD — Minimal Viable Data), agora você vai aplicar métodos estatísticos para descobrir o valor, a veracidade e em que velocidade (5 V’s do BIG Data)você conseguirá processar estes dados.

Alguns métodos estatísticos de exploração de dados são aplicáveis para 99% dos problemas de negócios que estudamos através dos dados. Sendo assim, vou trazer aqui alguns desses métodos, mas ponderando que, para cada tipo de problema ou dado a ser analisado, temos um método mais assertivo para ele. Cada caso é um caso. A análise exploratória de dados utiliza uma grande variedade de técnicas gráficas e quantitativas, com o objetivo de maximizar a obtenção de informações ocultas na sua estrutura, ou seja, descobrir variáveis importantes em suas tendências, detectar comportamentos anômalos do fenômeno, testar se são válidas as hipóteses assumidas, escolher modelos e determinar o número ótimo de variáveis.

Vou elencar abaixo algumas dessas técnicas que estão disponíveis nas bibliotecas Python e R:

Métodos gráficos típicas usadas na análise exploratória de dados são:

  • Diagrama de caixa;
  • Histograma;
  • Análise de controle multivariada;
  • Diagrama de Pareto;
  • Carta de sequência;
  • Gráfico de dispersão;
  • Diagrama de ramos e folhas;
  • Coordenadas paralelas;
  • Razão de possibilidades;
  • Perseguição da projeção;
  • Redução de dimensionalidade:
  • Escalonamento multidimensional;
  • Análise de componentes principais (ACP);
  • Análise de componentes principais multilinear;
  • Redução de dimensionalidade não linear (RDNL);

Técnicas quantitativas típicas são:

  • Polimento da mediana;
  • Tri-média;
  • Ordenação.

Por exemplo as bibliotecas Python:

  • Numpy: Permite manipulação de matrizes, geração de números aleatórios e possui diversos recursos de álgebra linear.
  • Pandas: Fornece suporte para a modelagem por meio de análise exploratória de dados.
  • Matplotlib: Permite a visualização de dados por meio de diversos gráficos.

Na linguagem R por exemplo:

  • Lattice: Oferece uma série de funções análogas às funções gráficas do R, mas permite a construção de painéis (dashboards). Um painel é uma série de gráficos de mesmo tipo (dispersão, histograma etc.) colocados lado-a-lado para formar a história que se quer contar com esses dados (storytelling) acompanhando uma variável categórica ou quantitativa.

Exemplo de um gráfico de análise exploratória com o uso dos métodos estatísticos de análise fatorial multivariada e correlação de Pearson, para avaliar o impacto de combinação de diferentes ativos e o risco de mercado:

Fonte: Site Giants Capital

Como podem ver, nesta etapa é que começamos a identificar os famosos “Insights” da Ciência de Dados. Também deu para perceber que, caso não seja possível interpretar nenhum “Insight” ou muitos “insights” antagônicos , você terá que selecionar que manipular os dados, aí é que a etapa de exploração se mistura com a de limpeza, pois talvez você perceba que necessita retirar algumas variáveis que não são necessárias neste momento, para reduzir o tamanho do dataframe que está explorando e com isso ganhar velocidade no processamento.

Também nesta exploração, você pode identificar que necessita transformar os dados, ou seja se você ao invés de trabalhar com transações diárias sobre um produto, converter estas para um conjunto de transações mensais, vai tornar a análise mais conclusiva e rápida de ser processada, você o fará nesta fase.

Por isso a etapa de exploração, limpeza e transformação ocorrem praticamente de forma simultânea.

Na próxima semana falaremos da aplicação de modelos estatísticos, esta é a etapa da seleção de um modelo ou uma ferramenta de “machine-learning” ou “deep-learning”, dependendo do objetivo final do nosso estudo.

Fontes: Site Minerando Dados, Site ECO Using R e Site Giants Capital

Compartilhe:

Compartilhar no facebook
Compartilhar no twitter
Compartilhar no linkedin

Últimas Publicações

PREENCHA O
FORMULÁRIO

Como um associado ABINC, a sua marca estará associada ao cenário de IOT e sua empresa terá acesso a benefícios exclusivos além de uma biblioteca digital para seu time evoluir ainda mais.

CONHEÇA OS BENEFÍCIOS DE CADA PLANO

BENEFÍCIOS ONLINEFULL
SERVICE
POWER
SERVICE
BUSINESS
SERVICE
BASIC
SERVICE
STARTUP
Banner - Seções em abas do site da ABINC (período de 12 meses)
Banner - Seções no site da ABINC (período de 12 meses)
Banner - Seções no site da ABINC (período de 12 meses)
Speaker Evento ONLINE - Webinar (indicação cliente ou colaborador)31
Logotipo no "Webinar Online"
Logotipo em certificados dos eventos ABINC
Newsletter personalizada (período de 12 meses)64322
Área exclusiva do patrocinador no Hotsite do evento com logotipo
Mailing dos inscritos (todos eventos) ou pontual
Email marketing eventos ABINC/ Convites digitais
Artigo no Hotsite ABINC (não comercial pre aprovado pela ABINC)321
Exposição Logomarca ABINC em Apresentação Comercial (Selo Associado ABINC)
Inclusão Seção Parceiros
Desconto promocionais em workshops, congressos e eventos que constam a ABINC como entidade apoiadora
Acesso material digital da Biblioteca
Logotipo proporcional na tela de proteção eventos
BENEFÍCIOS OFFLINE
Backdrop credencial/eventos
Logotipo em certicados dos eventos ABINC
Material impresso eventos
Brindes eventos
Direito a convites para os eventos ABINC
Utilizamos cookies para oferecer melhor experiência, melhorar o desempenho, analisar como você interage em nosso site e personalizar conteúdo. Política de Privacidade.
X