fbpx
Início Artigos Big Data & Analytics — Aplicar, Testar e Acompanhar Modelagem Estatística

Big Data & Analytics — Aplicar, Testar e Acompanhar Modelagem Estatística

Por Profª Janete Ribeiro
0 comentário

Para fechar nosso ciclo de etapas do desenvolvimento de um projeto de BIG-Data e Analytics, entendendo os “jargões” da área, vamos falar das etapas mais glamourosas! A aplicação dos modelos estatísticos, algoritmos, inteligência artificial!

Estas são as etapas 6, 7 e 8. Assim como as anteriores 3, 4 e 5 (veja aqui, aqui e aqui) elas não seguem uma sequência reta. Elas vão e vem de acordo com os resultados de cada experimento, afinal estamos falando de “Ciência de Dados”, cientistas fazem experimentos até obter o resultado esperado das suas pesquisas.

Durante o processo de análise exploratório, definimos os resultados que podemos obter dos dados disponíveis. Com base nestas definições prévias vamos escolher qual seria o melhor algoritmo a ser aplicado para que possamos ter as respostas mais assertivas para o problema de negócios.

Existem algumas regras básicas para definição de “ferramenta” ou “algoritmo” para cada tipo de “problema de negócios”.

Então entraremos nos termos “dados estruturados” e “dados não estruturados”. Os dados estruturados são essencialmente numéricos, quantitativos, já os dados não estruturados, não possuem uma formatação padrão, podem ser imagens, áudio, textos em diversos idiomas.

Se o estudo que estamos trabalhando deve ser desenvolvido sobre uma base de dados quantitativos (estruturados) vamos optar por “algoritmos” ou “métodos estatísticos” ou ainda “machine learning tools” (ferramentas de aprendizado de máquina) “supervisionados”. Ou seja, a máquina vai aprender sobre este processo, estes dados de acordo com o que o “Cientista de Dados” apresenta para ela como hipóteses corretas. Este é o aprendizado “supervisionado”, onde a máquina vai buscar as variáveis com as correlações mais próximas daquelas que foram apontadas como corretas. Isso chamamos de “treinamento de modelos” ou de “robôs”.

Os métodos estatísticos mais conhecidos para resolver problemas com a técnica de aprendizado supervisionado são:

  • Regressão linear,
  • Regressão logística,
  • Redes neurais artificiais,
  • SVM (Support Vector Machine),
  • Árvores de decisão (Decision-tree),
  • Bayes (probabilidade).

Aprendizado de máquina supervisionado é a área que concentra a maioria das aplicações do uso de “machine learning” na ciência de dados, desde estudos de segmentação de clientes, previsão de manutenção de equipamentos, análise de riscos dentre outros.

Método Supervisionado

Modelagem Estatística
Fonte: Site iMasters

Quando trabalhamos com dados “qualitativos”, ou seja, “não estruturados”, como imagens, sons, textos aleatórios. Nesse tipo de problema aplicamos os modelos (algoritmos, métodos estatísticos) “Não Supervisionados”.

Por exemplo, se estamos buscando identificar o “Perfil” do cliente que utiliza os serviços de banco pelo celular. Obtivemos informações do cliente, desde as quantitativas (transacionais) bem como sua conversação nos canais digitais (mensageria, redes sociais etc.). Para identificar quem é esse cliente, o ideal é agrupar as características mais relevantes.

Nesse exemplo, poderíamos observar o seguinte:

Modelagem Estatística

Estes casos são os mais complexos, pois muitas vezes teremos que aplicar diversas técnicas estatísticas (algoritmos) em sequência para extrair informações precisas dos dados. As técnicas aqui são em sua maioria de correlação por aproximação e probabilísticas.

As mais utilizadas são:

  • Redes neurais artificiais,
  • Expectativa-Maximização,
  • Clusterização k-means,
  • Clusterização Hierárquica,
  • SVM (Support Vector Machine),
  • Árvores de decisão isoladoras (Decision-tree),
  • Mapas auto-organizados (Mapas de calor).

Como podem ver no exemplo abaixo as análises “Não supervisionadas” sobre um mesmo “Dataset”:

Modelagem Estatística
Fonte: Site Sciki Learn — Unsupervised Clustering examples

Podemos dizer que os métodos não supervisionados são a base mestra da “Inteligência Artificial”.

Como mencionamos estas etapas vão e vem até que os testes nos apresentem resultados conclusivos do estudo, ou seja, tenhamos um nível de assertividade entre 90% a 99%.

Então apresentamos e faremos o “acompanhamento”, que é confrontar nossas análises com a realidade dos fatos. Se indicamos uma cesta de produtos ideal para nosso cliente, vamos acompanhar quantos clientes efetivamente adquiriram a cesta que indicamos, comparando com um grupo de clientes que não tenha sido tocado pela campanha (grupo de controle). Enfim, os projetos de “Ciência de Dados” sempre deixam um gosto de “quero mais”.

Sempre teremos que reavaliar e incrementar análises, pois sempre haverá novas descobertas!

Fontes: iMasters Técnicas de Machine Learning; Medium Blog; Sciki Learn — Unsupervised Clustering examples

Você também pode gostar desses...

Deixe um comentário

Este site usa cookies para melhorar sua experiência. Ao clicar em "Aceito", você concorda com o nosso uso dos cookies e tecnologias similares. Aceito Leia Mais

Política de Privacidade e Cookies