fbpx
Início Artigos Big Data & Analytics – Selecionando Dados

Big Data & Analytics – Selecionando Dados

Por Profª Janete Ribeiro
Analytics

Que a metodologia de projetos de Ciência de Dados segue 8 etapas que vão e voltam de forma não linear vocês já sabem, correto?

Metodologia CRISP — DM

Analytics

Hoje vamos falar sobre a seleção de dados e os termos que navegam sobre ela (o primeiro artigo dessa série você pode ser aqui):

Selecionar Dados

Após entendermos o problema de negócios e entrarmos em acordo com o demandante do projeto sobre a ideia de solução que tivemos durante o processo de descoberta da etapa 1, vamos a busca dos dados que nos trarão as respostas para nossas perguntas.

Nesta fase começamos a levantar as fontes geradoras de “dados”, que podem ser os sistemas internos da empresa como um ERP (Enterprise Resource Planning), sistemas de Planejamento de Recursos Empresariais que interliga todos os dados e processos da organização em um único sistema. Podem vir de ferramentas de colaboração como e-mails, planilhas eletrônicas, intranet, portais internos. Mas também podem ser externos como bases de dados de e-mail marketing, redes sociais, pesquisas, vídeo, imagens, gravações de áudio, de equipamentos inteligentes (IoTs — Internet OThings) como ar-condicionado, tratores, automóveis etc.

Este emaranhado de dados pode ser dividido entre “Dados Estruturados” (aqueles que vem em bancos de dados relacionais, ou tabelas = SQL) ou “Dados Não Estruturados” (aqueles que são em formatos diversos como os vídeos, áudio, imagem, feed de redes sociais, log de equipamentos inteligentes = NoSQL).

Na etapa de seleção de dados sabemos a pergunta e vamos procurar nestas fontes as possíveis respostas. Por exemplo: se o problema identificado é entender o perfil do cliente da empresa, podemos encontra-lo nos sistemas internos da empresa (dados estruturados) mas também devemos buscar informações externas (dados não estruturados) de redes sociais, do comportamento do cliente na loja, capturado pelas câmeras de segurança, etc.

Aprendemos aqui o que são os tais “Dados estruturados e não estruturados” ok? Agora vamos falar sobre outros termos muito utilizados na área e que são básicos desta etapa de projeto, como o “Data Scraping”. O “Data Scraping” é uma aplicação para varredura de sites, aplicativos com o intuito de coletar dados de acordo com o interesse do nosso “problema de negócios”. Os resultados desta coleta de dados serão, minerados e estruturados em um formato padrão como CSV, XML ou JSON, para que possam ser utilizados depois.

Outro termo muito utilizado é o “Data ingestion”, ou ingestão de dados. Assim como a coleta do “Data Scraping”, das bases dos “ERPs”, vídeos, imagens, áudios que a empresa tenha a respeito do problema de negócios a ser resolvido, tudo isso só terá valor se estiver unido em um único lugar, separados não conseguiremos ver as correlações dessas informações certo?

Aí surge a necessidade de colocar tudo em um mesmo lugar “fazer a ingestão de dados” neste lugar centralizado, que é o conceito de Data Lake” ou Lago de Dados”.

Conforme na figura abaixo a ideia de centralizar todos os dados referentes ao estudo que faremos é com o intuito de termos a “visão 360° graus” (360° View) do problema alvo:

Analytics

A ideia de coletar dados de diversas fontes, em diversos formatos e armazená-los em um único ambiente é para permitir que possamos desenvolver as “experiências” da “Ciência de Dados” em um ambiente controlado.

Analytics

Onde ele possa ver com clareza quais são as fontes que se complementam, quantas mais seriam necessárias para compor uma visão ampla do alvo do estudo.

Os dados que são “ingeridos” (Data Ingestion) são considerados “Dados Brutos” (Raw Data), para que possamos iniciar o trabalho de análise de dados, precisamos “explorar os dados” (Data Exploration Analysis).

Nesta etapa o cientista de dados utilizará seus conhecimentos da área de negócios que atua, seus conhecimentos de ferramentas técnicas para manipulação de dados, como linguagem de programação SQL, NoSQL, Phyton, R, Java, infraestrutura de nuvem (Cloud computing) e métodos estatísticos como a “análise descritiva”, que consiste em validar o conteúdo das diferentes repositórios de dados e suas características “quantitativas” e “qualitativas”. A análise descritiva em termos estatísticos tem como principal objetivo resumir, sumarizar e explorar o comportamento dos dados. Após esta análise conseguiremos avaliar se já possuímos informação suficiente para começar o trabalho de resolução do problema de negócios ou se precisaremos buscar mais fontes de dados para complementar informações que não tenhamos identificado em quantidade significativa para tirarmos alguma conclusão técnica.

Esta etapa é longa e exige muito conhecimento técnico de ferramentas de manipulação de dados bem como de entendimento de método de pesquisa estatística.

É importante nesta etapa definirmos um volume mínimo que contenha o máximo de informação para a análise correta do “problema”, por isso é nesta etapa que definimos qual seria o “MVD” (Minimal Viable Data) para que possamos fazer a validação do nosso “MVP” (Minimal Viable Product) final. Para seleção desta amostra ideal existem métodos estatísticos adequados de acordo com o tipo de análise que será realizada.

As metodologias probabilísticas como “Amostra Aleatória simples, Amostra Sistemática, Amostra Estratificada Amostra por Conglomerado”, são algumas das mais utilizadas. Mas como disse, para cada tipo de problema uma metodologia será a mais indicada.

Como podem ver, mais uma vez discorremos por vários termos da área de ciências de dados que quando ditos soltos por aí, complicam a aprendizagem de quem está iniciando nesta área, mas quando colocamos os termos dentro das suas funcionalidades, fica bem mais fácil de compreender não?

Na próxima semana vamos falar sobre a etapa 3 de “Exploração dos Dados” (Exploratory Data Analysis — EDA)Fonte: Ribeiro, Janete: Pesquisa de Marketing, Editora SENAC – Série Universitária, São Paulo

Você também pode gostar desses...

3 comentários

Big Data & Analytics - Termos & Dicas - ABINC 26 de junho de 2020 - 12:57

[…] O segundo artigo dessa série você pode ler aqui. […]

Responder
Big Data & Analytics - Explorar Dados, Limpar e Transformar - ABINC 14 de julho de 2020 - 19:42

[…] abordagem sobre a metodologia de projetos de ciência de dados e os termos da área (veja aqui e aqui os primeiros dois artigos dessa série), que muitos falam, mas não sabem onde e quando aplicar, […]

Responder
Big Data & Analytics - Aplicar, Testar e Acompanhar Modelagem Estatística 21 de julho de 2020 - 18:23

[…] são as etapas 6, 7 e 8. Assim como as anteriores 3, 4 e 5 (veja aqui, aqui e aqui) elas não seguem uma sequência reta. Elas vão e vem de acordo com os resultados de cada […]

Responder

Deixe um comentário

Este site usa cookies para melhorar sua experiência. Ao clicar em "Aceito", você concorda com o nosso uso dos cookies e tecnologias similares. Aceito Leia Mais

Política de Privacidade e Cookies