Big Data & Analytics — Aplicar, Testar e Acompanhar Modelagem Estatística

Para fechar nosso ciclo de etapas do desenvolvimento de um projeto de BIG-Data e Analytics, entendendo os “jargões” da área, vamos falar das etapas mais glamourosas! A aplicação dos modelos estatísticos, algoritmos, inteligência artificial!

Estas são as etapas 6, 7 e 8. Assim como as anteriores 3, 4 e 5 (veja aqui, aqui e aqui) elas não seguem uma sequência reta. Elas vão e vem de acordo com os resultados de cada experimento, afinal estamos falando de “Ciência de Dados”, cientistas fazem experimentos até obter o resultado esperado das suas pesquisas.

Durante o processo de análise exploratório, definimos os resultados que podemos obter dos dados disponíveis. Com base nestas definições prévias vamos escolher qual seria o melhor algoritmo a ser aplicado para que possamos ter as respostas mais assertivas para o problema de negócios.

Existem algumas regras básicas para definição de “ferramenta” ou “algoritmo” para cada tipo de “problema de negócios”.

Então entraremos nos termos “dados estruturados” e “dados não estruturados”. Os dados estruturados são essencialmente numéricos, quantitativos, já os dados não estruturados, não possuem uma formatação padrão, podem ser imagens, áudio, textos em diversos idiomas.

Se o estudo que estamos trabalhando deve ser desenvolvido sobre uma base de dados quantitativos (estruturados) vamos optar por “algoritmos” ou “métodos estatísticos” ou ainda “machine learning tools” (ferramentas de aprendizado de máquina) “supervisionados”. Ou seja, a máquina vai aprender sobre este processo, estes dados de acordo com o que o “Cientista de Dados” apresenta para ela como hipóteses corretas. Este é o aprendizado “supervisionado”, onde a máquina vai buscar as variáveis com as correlações mais próximas daquelas que foram apontadas como corretas. Isso chamamos de “treinamento de modelos” ou de “robôs”.

Os métodos estatísticos mais conhecidos para resolver problemas com a técnica de aprendizado supervisionado são:

  • Regressão linear,
  • Regressão logística,
  • Redes neurais artificiais,
  • SVM (Support Vector Machine),
  • Árvores de decisão (Decision-tree),
  • Bayes (probabilidade).

Aprendizado de máquina supervisionado é a área que concentra a maioria das aplicações do uso de “machine learning” na ciência de dados, desde estudos de segmentação de clientes, previsão de manutenção de equipamentos, análise de riscos dentre outros.

Método Supervisionado

Modelagem Estatística
Fonte: Site iMasters

Quando trabalhamos com dados “qualitativos”, ou seja, “não estruturados”, como imagens, sons, textos aleatórios. Nesse tipo de problema aplicamos os modelos (algoritmos, métodos estatísticos) “Não Supervisionados”.

Por exemplo, se estamos buscando identificar o “Perfil” do cliente que utiliza os serviços de banco pelo celular. Obtivemos informações do cliente, desde as quantitativas (transacionais) bem como sua conversação nos canais digitais (mensageria, redes sociais etc.). Para identificar quem é esse cliente, o ideal é agrupar as características mais relevantes.

Nesse exemplo, poderíamos observar o seguinte:

Modelagem Estatística

Estes casos são os mais complexos, pois muitas vezes teremos que aplicar diversas técnicas estatísticas (algoritmos) em sequência para extrair informações precisas dos dados. As técnicas aqui são em sua maioria de correlação por aproximação e probabilísticas.

As mais utilizadas são:

  • Redes neurais artificiais,
  • Expectativa-Maximização,
  • Clusterização k-means,
  • Clusterização Hierárquica,
  • SVM (Support Vector Machine),
  • Árvores de decisão isoladoras (Decision-tree),
  • Mapas auto-organizados (Mapas de calor).

Como podem ver no exemplo abaixo as análises “Não supervisionadas” sobre um mesmo “Dataset”:

Modelagem Estatística
Fonte: Site Sciki Learn — Unsupervised Clustering examples

Podemos dizer que os métodos não supervisionados são a base mestra da “Inteligência Artificial”.

Como mencionamos estas etapas vão e vem até que os testes nos apresentem resultados conclusivos do estudo, ou seja, tenhamos um nível de assertividade entre 90% a 99%.

Então apresentamos e faremos o “acompanhamento”, que é confrontar nossas análises com a realidade dos fatos. Se indicamos uma cesta de produtos ideal para nosso cliente, vamos acompanhar quantos clientes efetivamente adquiriram a cesta que indicamos, comparando com um grupo de clientes que não tenha sido tocado pela campanha (grupo de controle). Enfim, os projetos de “Ciência de Dados” sempre deixam um gosto de “quero mais”.

Sempre teremos que reavaliar e incrementar análises, pois sempre haverá novas descobertas!

Fontes: iMasters Técnicas de Machine Learning; Medium Blog; Sciki Learn — Unsupervised Clustering examples

ABINC e Pecege MBA USP Esalq firmam parceria para desenvolver a IoT no Brasil

Objetivo é prover acesso e conexões entre a iniciativa privada, órgãos públicos e regulamentadores, com os ambientes universitários de pesquisa e desenvolvimento tecnológico e de gestão

Em busca de disseminar o conceito da IoT – Internet das Coisas – no Brasil, a ABINC, Associação Brasileira de Internet das Coisas, junto ao Programa de Educação Continuada em Economia e Gestão de Empresas –  Pecege, instituto organizador do MBA USP ESALQ da Universidade de São Paulo, anunciam parceria para 2021. A proposta é que a iniciativa privada se aproxime das universidades e centro de pesquisas para que haja um vínculo cada vez mais sólido e fundamental para o crescimento do setor e da economia como um todo.

A parceria é um passo muito importante para estreitar as fontes de conhecimento da Universidades e os Institutos de Pesquisa e a iniciativa privada no sentido de desenvolver a IoT no Brasil. No ponto de vista ecossistema digital, essas parcerias são fundamentais, pois é possível trazer o que está sendo desenvolvido em termos de pesquisas e projetos. Tanto do lado acadêmico para a iniciativa privada, como também é possível levar demandas da privada para o mundo acadêmico, fazendo com que os esforços nas universidades acabem cada vez mais sendo direcionados para o mercado.

Grande parte da iniciativa aconteceu por conta do Alexandre Vargha, Presidente do Comitê Auto e Mobilidade da ABINC, sob a liderança do Presidente Paulo Spaccaquerche. “Isso demonstra que a ABINC está preocupada com a formação de profissionais com o mesmo peso desta respeitada instituição de ensino reconhecida internacionalmente. Acredito que, podemos esperar uma troca enriquecedora entre os principais envolvidos e, veremos os resultados no desenvolvimento de projetos do Plano Nacional de IoT para fortalecer o Brasil nesse mercado global e competitivo de IoT” – Dalton Oliveira, Conselheiro Consultivo da ABINC e Consultor Global em Transformação Digital e Inovação da Wardston Consulting.

“Isso é a forma de valorizar as instituições de ensino com elementos críticos e fundamentais para complementar todos os esforços de pesquisa e desenvolvimento. Com isso, nós acreditamos que da forma que acontece nos países desenvolvidos, inclusive onde a infraestrutura de IoT é mais estruturada, quando se juntam conectando a todo o ecossistema IoT de forma organizada e colaborativa rumo ao Digital Twin às instituições privadas, o governo e os órgãos regulamentadores com as fontes de conhecimento e as universidades, conseguimos trazer um horizonte com bons resultados no médio e longo prazo. Porque você fortalece todos os elos da cadeia e eleva o conceito da cadeia de valor através da digitalização”, explica Alexandre Vargha – Líder do Comitê Auto e Mobilidade da ABINC.

“Acreditamos que a inter-relação entre fundamentos estatísticos e de analytics, programação e usufruto de softwares, e processos de gestão para a tomada de decisão, levam à melhor formação de Cientista de Dados. O desbalanceamento entre estes três pilares fundamentais torna o processo incompleto, e é justamente a partir desta lógica que foi estruturada a grade do MBA em Data Science e Analytics”, ressalta o Profº Luiz Paulo Fávero, Professor Titular da USP e coordenador do MBA USP Esalq em Data Science e Analytics.

Para o início já está alinhado a realização de webinars sobre Data Science e Analytics, desconto de 5% de desconto adicional (MBA em Data Science e Analytics – online) para associados ABINC que participarem dos webinars e que realizarem a inscrição em determinada data e bolsas MBA USP ESALQ (100% de desconto) por ano para a ABINC. Além disso, a proposta ainda é criar frentes de intercâmbio entre as empresas e a Universidade para desenvolvimento de trabalhos específicos. Promover ações conjuntas para estruturação de novas frentes. E por fim, principalmente, estreitar os laços para discutir sobre o futuro da integração Universidade-Mercado no médio-longo prazo.

Sobre a ABINC

A ABINC, Associação Brasileira de Internet das Coisas, foi fundada em dezembro de 2015 como uma organização sem fins lucrativos, por executivos e empreendedores do mercado de TI e Telecom. A ideia nasceu da necessidade de se criar uma entidade que fosse legítima e representativa, de âmbito nacional, e que permitisse a atuação em todas as frentes do setor de Internet das Coisas. A ABINC tem como objetivo incentivar a troca de informações e fomentar a atividade comercial entre associados; promover atividade de pesquisa e desenvolvimento; atuar junto às autoridades governamentais envolvidas no âmbito da Internet das Coisas e representar e fazer as parcerias internacionais com entidades do setor.

Para mais informações, entrevistas e/ou ajuda com pautas sobre IoT, entre em contato:

Assessoria de Imprensa – Motim.cc
Paulinha Deodato – [email protected] (11) 98414-3845
Luís de Magalhães – [email protected] – (11) 95292-8049

 

 

 

 

 

 

 

 

Retrospectiva 2020: Educação Digital e analítica é a chave para transformar a cultura do negócio

No webinar “Os dados são o petróleo da IoT” organizado pelo comitê de Dados e Analytics da Associação Brasileira de Internet das Coisas – ABINC, os palestrantes Josias Oliveira e Janete Ribeiro apresentam informações sobre o desafio do mundo dos negócios para desenvolver a cultura de dados, principalmente no setor  industrial com foco no mercado nacional.

A caminhada para desenvolver as soluções necessárias também é um desafio à parte. No mundo há mais de 7,7 bilhões de pessoas e 51,2% delas estão conectadas pela internet. O volume de dados dessa equação excede a capacidade de interpretação que temos hoje. Em 10 anos, a expectativa é que a população ultrapasse os 8 bilhões de pessoas e que todas estejam conectadas.

Em um mundo repleto de dados, as empresas que buscam a liderança do mercado terão que estar mais bem posicionadas para coletar as informações e analisá-las, para então organizar um bom histórico de dados, essenciais para tomada de decisão. No campo tecnológico as mudanças que estão acontecendo no mundo são irreversíveis, portanto, a educação digital e analítica é fundamental para transformar a cultura do negócio.

Segundo a Gartner, os 3 principais obstáculos para evoluir com uma cultura baseada em dados envolvem hardware, software e competências digitais e analíticas, sendo que o desenvolvimento de competência é o mais crítico. Portanto, antes de promover investimentos em alta tecnologia é preciso transformar a cultura digital e analítica do negócio, essencialmente.

Para prevalecer no mercado é preciso compreender o quão necessário é acompanhar as transformações organizacionais. Isso porque o Brasil tem perdido muitas posições no ranking global de competitividade do setor industrial. Em 2010 o país ocupou o 5º lugar, mas caiu para a 29ª posição em 2017. O país ainda não recuperou posições, e segundo Oliveira, é possível que as coisas não mudem nos próximos dois anos.

No webinar, Oliveira apresenta algumas medidas que as empresas devem adotar para melhorar a sua cultura digital e analítica, além de boas práticas organizacionais. Também são apresentados cases desenvolvidos para indústrias nacionais e para o setor de agronegócio. Além disso, a professora Janete Ribeiro fala sobre a gestão e ética dos dados e a LGPD – aprovada em setembro.

Caso você não tenha consigo participar da transmissão ao vivo, você pode assistir a gravação clicando aqui.

Big Data & Analytics – Selecionando Dados

Que a metodologia de projetos de Ciência de Dados segue 8 etapas que vão e voltam de forma não linear vocês já sabem, correto?

Metodologia CRISP — DM

Analytics

Hoje vamos falar sobre a seleção de dados e os termos que navegam sobre ela (o primeiro artigo dessa série você pode ser aqui):

Selecionar Dados

Após entendermos o problema de negócios e entrarmos em acordo com o demandante do projeto sobre a ideia de solução que tivemos durante o processo de descoberta da etapa 1, vamos a busca dos dados que nos trarão as respostas para nossas perguntas.

Nesta fase começamos a levantar as fontes geradoras de “dados”, que podem ser os sistemas internos da empresa como um ERP (Enterprise Resource Planning), sistemas de Planejamento de Recursos Empresariais que interliga todos os dados e processos da organização em um único sistema. Podem vir de ferramentas de colaboração como e-mails, planilhas eletrônicas, intranet, portais internos. Mas também podem ser externos como bases de dados de e-mail marketing, redes sociais, pesquisas, vídeo, imagens, gravações de áudio, de equipamentos inteligentes (IoTs — Internet OThings) como ar-condicionado, tratores, automóveis etc.

Este emaranhado de dados pode ser dividido entre “Dados Estruturados” (aqueles que vem em bancos de dados relacionais, ou tabelas = SQL) ou “Dados Não Estruturados” (aqueles que são em formatos diversos como os vídeos, áudio, imagem, feed de redes sociais, log de equipamentos inteligentes = NoSQL).

Na etapa de seleção de dados sabemos a pergunta e vamos procurar nestas fontes as possíveis respostas. Por exemplo: se o problema identificado é entender o perfil do cliente da empresa, podemos encontra-lo nos sistemas internos da empresa (dados estruturados) mas também devemos buscar informações externas (dados não estruturados) de redes sociais, do comportamento do cliente na loja, capturado pelas câmeras de segurança, etc.

Aprendemos aqui o que são os tais “Dados estruturados e não estruturados” ok? Agora vamos falar sobre outros termos muito utilizados na área e que são básicos desta etapa de projeto, como o “Data Scraping”. O “Data Scraping” é uma aplicação para varredura de sites, aplicativos com o intuito de coletar dados de acordo com o interesse do nosso “problema de negócios”. Os resultados desta coleta de dados serão, minerados e estruturados em um formato padrão como CSV, XML ou JSON, para que possam ser utilizados depois.

Outro termo muito utilizado é o “Data ingestion”, ou ingestão de dados. Assim como a coleta do “Data Scraping”, das bases dos “ERPs”, vídeos, imagens, áudios que a empresa tenha a respeito do problema de negócios a ser resolvido, tudo isso só terá valor se estiver unido em um único lugar, separados não conseguiremos ver as correlações dessas informações certo?

Aí surge a necessidade de colocar tudo em um mesmo lugar “fazer a ingestão de dados” neste lugar centralizado, que é o conceito de Data Lake” ou Lago de Dados”.

Conforme na figura abaixo a ideia de centralizar todos os dados referentes ao estudo que faremos é com o intuito de termos a “visão 360° graus” (360° View) do problema alvo:

Analytics

A ideia de coletar dados de diversas fontes, em diversos formatos e armazená-los em um único ambiente é para permitir que possamos desenvolver as “experiências” da “Ciência de Dados” em um ambiente controlado.

Analytics

Onde ele possa ver com clareza quais são as fontes que se complementam, quantas mais seriam necessárias para compor uma visão ampla do alvo do estudo.

Os dados que são “ingeridos” (Data Ingestion) são considerados “Dados Brutos” (Raw Data), para que possamos iniciar o trabalho de análise de dados, precisamos “explorar os dados” (Data Exploration Analysis).

Nesta etapa o cientista de dados utilizará seus conhecimentos da área de negócios que atua, seus conhecimentos de ferramentas técnicas para manipulação de dados, como linguagem de programação SQL, NoSQL, Phyton, R, Java, infraestrutura de nuvem (Cloud computing) e métodos estatísticos como a “análise descritiva”, que consiste em validar o conteúdo das diferentes repositórios de dados e suas características “quantitativas” e “qualitativas”. A análise descritiva em termos estatísticos tem como principal objetivo resumir, sumarizar e explorar o comportamento dos dados. Após esta análise conseguiremos avaliar se já possuímos informação suficiente para começar o trabalho de resolução do problema de negócios ou se precisaremos buscar mais fontes de dados para complementar informações que não tenhamos identificado em quantidade significativa para tirarmos alguma conclusão técnica.

Esta etapa é longa e exige muito conhecimento técnico de ferramentas de manipulação de dados bem como de entendimento de método de pesquisa estatística.

É importante nesta etapa definirmos um volume mínimo que contenha o máximo de informação para a análise correta do “problema”, por isso é nesta etapa que definimos qual seria o “MVD” (Minimal Viable Data) para que possamos fazer a validação do nosso “MVP” (Minimal Viable Product) final. Para seleção desta amostra ideal existem métodos estatísticos adequados de acordo com o tipo de análise que será realizada.

As metodologias probabilísticas como “Amostra Aleatória simples, Amostra Sistemática, Amostra Estratificada Amostra por Conglomerado”, são algumas das mais utilizadas. Mas como disse, para cada tipo de problema uma metodologia será a mais indicada.

Como podem ver, mais uma vez discorremos por vários termos da área de ciências de dados que quando ditos soltos por aí, complicam a aprendizagem de quem está iniciando nesta área, mas quando colocamos os termos dentro das suas funcionalidades, fica bem mais fácil de compreender não?

Na próxima semana vamos falar sobre a etapa 3 de “Exploração dos Dados” (Exploratory Data Analysis — EDA)Fonte: Ribeiro, Janete: Pesquisa de Marketing, Editora SENAC – Série Universitária, São Paulo

Big Data & Analytics – Termos & Dicas

Atire a primeira pedra aquele que nunca repetiu um termo em inglês que é utilizado por todos da sua área, sem saber exatamente o que ele significa!

Isso ocorre em todas as profissões, existem os jargões, os termos técnicos, muito comuns para os profissionais que estão na área há muito tempo, mas são “aramaico” para os jovens profissionais e principalmente para os clientes da área em questão.

O próprio conceito de “Ciência de Dados” é pouco compreendido pelos usuários das análises (insights) que transmitimos.

A função do cientista de dados, ainda é um mito para maioria das empresas, mas tudo é muito novo.

Vamos tentar mais uma vez com linguagem simples, esclarecer estas dúvidas que atrapalham tanto o desenvolvimento dos projetos de BIG-Data e Analytics.

Vamos começar pela metodologia (CRISP-DM — CRoss Industry Standard Process for Data Mining)de desenvolvimento de projetos de “BIG-Data” e Analytics, para ir descrevendo os termos e o que realmente significam na prática:

Metodologia CRISP-DM

1) Definir o objetivo de Negócios

Nesta etapa vamos utilizar algumas técnicas para identificar qual ou quais seriam os problemas ou oportunidades de negócios que podemos identificar e resolver através da análise de dados.

  • Uma das técnicas é o “Design Thinking”, do inglês “pensar como um desenhista”, é um conceito da área, de criação de protótipos, que foi adaptada para as corporações. O objetivo é materializar, criar um protótipo do que poderia ser a solução para as necessidades da área demandante, antes de sair buscando informação e construindo uma solução;
  • Outra técnica utilizada atrelada a essa é a de “User Experience = UX”, que é desenhar a jornada do usuário ou “Customer Experience = CX” que seria a jornada do cliente, quando estamos falando de um “usuário” externo a empresa. Estas metodologias têm como objetivo mapear o processo atual e o processo desejado pelo usuário/cliente. Assim conseguiremos detectar quais são as sub-etapas que tem algum desvio de expectativa, por exemplo: Em um processo de abertura de conta de um banco digital, o aplicativo solicita que o usuário vá até a agência de um banco físico. Se ele está abrindo uma conta digital é porque não gosta de ir à agência de bancos físicos. No caso do exemplo, teríamos que levantar uma alternativa digital para este processo que no momento está sendo executado em uma agência física e garantir segurança de dados e de transações.
  • Nesta etapa, também são definidas a equipe de trabalho, as atividades inerentes ao projeto e a metodologia de gestão do projeto. Existem basicamente duas grandes linhas de gestão de projetos, uma delas é conhecida como tradicional “PMO — Project Management Office”, do inglês “Escritório de Gestão de Projetos”, onde a base da metodologia é o encadeamento de atividades de forma linear, onde o gestor do projeto administra os principais quesitos que são recursos humanos, financeiros, prazos e riscos. Ao final da execução das atividades, apresenta o resultado ao cliente/usuário. Neste processo o usuário tem pouca participação nas decisões durante o processo de desenvolvimento da solução.

Outro método, mais comum nos últimos anos e muito aplicado aos projetos de “Big-Data”, são os intitulados métodos ágeis (SCRUM). Como o próprio nome diz, o foco da metodologia é encurtar o processo linear geralmente adotado pela técnica anterior (PMO), tornar ágil e garantir a participação do usuário final em todo o processo de desenvolvimento. O SCRUM trabalha com o chamado product backlog, um registro que contém as áreas do produto que devem ser desenvolvidas. A partir do product backlog é criado o release backlog, que é a junção dos requisitos do product backlog que vão ser trabalhados, de acordo com a prioridade de cada um. O release backlog é um ponto para a criação do sprint backlog, que representa o espaço de tempo em que uma tarefa chamada de user story, vai ser concluída. Também são realizadas reuniões diárias (Daily meetings), onde o status das user stories planejadas para entrega são atualizados entre os membros da equipe técnica. A estrutura do time de trabalho em um projeto ágil é de grupos de trabalho sub-divididos entre Squads (pessoal técnico) dentro das suas especialidades, orquestrado por um gestor generalista (SCRUM Master) que faz a ponte entre as diferentes equipes técnicas(Squads) e de equipes de negócios (Product Owners) para controlar prazos, mudanças, infraestrutura necessária, tudo através de um painel denominado “Burndown chart” (tabela quente), com o status atual de cada user story, popularmente conhecido como “mural dos post-its”. Existem ferramentas online dedicadas a esse método como o “TRELLO”, “SLACK”, “MURAL”, “MIRO” dentre outras.

A etapa de entendimento da pergunta de negócios se conclui quando:

  • Identificamos as perguntas de negócios que devemos responder com o projeto;
  • Desenhamos a jornada do cliente/usuário (protótipo do Design Thinking — UX/CX);
  • Estabelecemos o planejamento do projeto (Métodos Ágeis, SCRUM) com todas “user stories”, equipes técnicas (Squads) e de negócios (Product Owner) e a infraestrutura necessária definidas para execução.

Como podem ver, a etapa “1”, tem sub-atividades que geram os primeiros “user stories” do projeto.

Cada uma das etapas tem uma sucessão de sub-atividades para resultar em uma evolução do “MVP”(Minimum Viable Product), que é o protótipo idealizado no “Design Thinking”.

O segundo artigo dessa série você pode ler aqui.

Referências:
5 Stages in the Design Thinking Process
User Experience (UX) Design
What is Scrum?