• PET Eng. de Produção

Uma introdução à análise de dados




SQL, Big Data, Machine Learning… Estes são nomes que escutamos muito ultimamente, mas o que eles significam? Qual o fator comum entre eles? Todos abordam um mesmo tipo de informação que pode ser utilizada pelas organizações de forma estratégica, os dados!

Mas o que é dado?


Dado, do latim “Datum”, significa presente, algo a ser oferecido. Quando tratamos de dados para falar de informação, dizemos que é, em seu estado bruto, o registro ou a representação dos fatos que dá a base para a tomada de decisão. Quando entendemos o significado do dado, obtemos uma informação, e quando entendemos a relevância e o contexto dessa informação, produzimos conhecimento. Por sua vez, o conhecimento pode ser aplicado de maneira estratégica, chegando no patamar da sabedoria.

Por exemplo, temos um dado “-10000”, que em um primeiro momento não significa muita coisa, é apenas algo registrado. Já quando apresentamos um saldo de R$ -10.000,00, possuímos uma informação, que por sua vez nos traz um conhecimento, que é o endividamento. Por fim, a sabedoria chega quando entendemos que é necessário quitar esta dívida.

Dados podem ser classificados em algumas categorias, dentre elas os dados qualitativos são aqueles que tratam de atributos como cores, textura, descrições, etc. Já dados quantitativos estão associados a um número, como tamanho, preço, altura, distância, etc.

Outras formas de classificação dos dados são em categóricos, discretos ou contínuos. Dados categóricos, como o próprio nome diz, atribuem uma categoria, como classificar diversas espécies de flores como “brancas” e “vermelhas”, categorizando por cor. As categorias podem variar entre nominais, ordinais, ou até quantitativas. Dados discretos são aqueles que assumem valores específicos com “brechas” conhecidas, como o tempo de produção de uma máquina, que pode ser 0, 1, 2, 3, … mas não um valor fracionado. Já dados contínuos são aqueles que podem assumir qualquer valor, como altura e largura, valores monetários, etc.

O que é big data?


Antes de falar de big data, precisamos falar um pouco sobre a diferença entre dados estruturados e não estruturados. Dados estruturados são dados organizados, que já são obtidos com uma estrutura pré-determinada, com categorias e definições. As grandes tabelas dos bancos de dados em SQL, com suas colunas e combinações são exemplos desse tipo de dado.

Porém, cerca de 80% dos dados que são obtidos atualmente são dados não estruturados, que são mais complexos e trabalhosos pela necessidade de intervenção humana para sua preparação. Estes são os dados das mídias sociais, que representam vídeos, imagens, textos, áudios, etc. Ou seja, se eu busco utilizar esse tipo de dado como informação para a minha empresa e encontro 20 mil resultados, um ser humano precisa categorizar, taguear e estruturar esses dados.

Mas e o que é o Big Data? Esse é um conceito que descreve grandes volumes de dados, estruturados e não estruturados, que são gerados a cada segundo, que precisam ser processados e armazenados. Como o volume desses dados é imenso, na casa dos petabytes, são necessárias ferramentas para tornar possível a captação desses dados para posterior tratamento e organização, o que chamamos de Big Data Analytics.

O Big Data está fundamentado em três pilares, chamados os três V’s do Big Data: Velocidade, Variedade e Volume. Simplificando, para a geração de grandes volumes de dados é necessária uma maior velocidade de captação e processamento. Uma maior velocidade, permite uma maior variedade dos dados coletados, e com o aumento da variedade existe a possibilidade de aumentar o volume mais uma vez. Essa é a lógica que permitiu as inúmeras revoluções tecnológicas vivenciadas nos últimos anos. Alguns autores também acrescentam dois outros V’s: Veracidade que se refere ao quanto uma informação produzida é verdadeira, e o Valor que trata do direcionamento de esforços para gerar informações úteis para a tomada de decisão.

O que é análise de dados?

A análise de dados é todo o processo de transformação de informações simplesmente numéricas em informações realmente úteis para solucionar um dilema, qualquer que seja. Por ser muito abrangente, os primeiros contatos com essa área de estudo tendem a ser confusos, entretanto, seguindo um passo a passo correto chegamos ao melhor resultado final possível. Qualquer empresa que analise bem seus dados consegue retirar o máximo de insumo possível para aprimorar suas atividades e acabam tendo uma vantagem competitiva enorme sobre seus adversários.

Para tudo isso acontecer, a empresa deve ter pessoas capacitadas para refinar, analisar e utilizar os dados a seu favor. E com o mercado cada vez mais movimentado, todas as vantagens que a análise de dados pode trazer são essenciais. Sabe-se que todas as empresas possuem recursos para obter dados sobre seus clientes e criar indicadores financeiros e produtivos. A vantagem competitiva é obtida a partir da forma como esses dados recolhidos são tratados.

Quais são os tipos de análise de dados?

Como a análise de dados é um campo bem amplo, existem diversas formas de se trabalhar com os dados e diversos propósitos para analisá-los. Por isso pode-se dividir a análise de dados em 4 principais tipos, que buscam apenas facilitar o entendimento do tema e não necessariamente delimitar 4 categorias rígidas.


Análise descritiva: é mais voltada para o entendimento inicial de um conjunto de dados e tem como função resumir valores desse conjunto para uma visualização mais fácil. São utilizadas operações como a média, mediana, percentagem, frequência, entre outras.

Análise exploratória: nesse tipo de análise vamos um pouco mais a fundo e buscamos encontrar correlações entre variáveis, utilizando regressões e análises de variância. Ou seja, procura descobrir novas relações que antes eram desconhecidas.

Análise preditiva: o intuito dessa etapa é bem simples, conseguir, a partir de uma série histórica de dados, fazer previsões sobre eventos futuros, de modo a ter um preparo melhor para os próximos acontecimentos.

Análise prescritiva: o último tipo é bem similar ao anterior, mas foca na parte da tomada de decisão. O objetivo é auxiliar no entendimento de como desenvolver uma estratégia certeira e do seu possível sucesso.

Data mining

É possível imaginar que os dados são o minério bruto que é extraído das reservas naturais, e a mineração desses dados é justamente retirar as “impurezas” que acompanham a extração. Assim, a mineração de dados trata do processo de transformação de grandes volumes de dados (Big Data) em informação útil para a tomada de decisão, ao permitir analisar os dados identificando problemas ou hipóteses a partir da localização de padrões, conexões, correlações ou anomalias nos dados.

Para realizar uma mineração desse grande volume de dados, são necessários algoritmos de inteligência artificial e aprendizado de máquina (machine learning). Gostaria de aprender mais sobre inteligência artificial? Confira esse post aqui do blog explica um pouco o que é uma IA e quais os níveis que ela pode ter: https://www.peteps.com.br/post/qual-o-limite-da-intelig%C3%AAncia-artificial

Uma mineração de dados que visa gerar valor é feita em algumas etapas, iniciando pela identificação do problema onde são levantados os objetivos da mineração dos dados, seguida pela seleção dos dados considerados relevantes para que seja alcançado o objetivo. A partir disso, quando necessário, é preciso preparar e estruturar os dados (data wrangling) para que existam informações inteligíveis, para assim realizar a modelagem dos dados, que consiste na utilização dos algoritmos anteriormente mencionados para identificação das informações. Após a modelagem, é realizada a avaliação dos resultados obtidos, identificando se essas informações possuem veracidade e utilidade, para, por fim, serem traçadas ações com base nas informações obtidas.

E aí, ficou um pouco mais claro agora os conceitos relacionados ao data science? Esperamos que esse texto tenha solucionado alguns dos mistérios por trás da análise de dados e de outros termos tão falados ultimamente. Como é uma temática em crescimento e muito adaptável a cada situação, recomendamos o contínuo estudo e aperfeiçoamento na área.

Obrigado pela leitura!

Por João Vitor Goedert e Mickael Saadi de Penedo


13 visualizações0 comentário

CONTATO

Universidade Federal de Santa Catarina

Campus Trindade

R. Dep. Antônio Edu Vieira - Trindade, Florianópolis - SC, 88040-535, Brazil.

petepsufsc@gmail.com

(048) 3721-7060

  • Black Facebook Icon
  • Black LinkedIn Icon
  • Black Instagram Icon

© Desenvolvido pelo grupo de Marketing 2017.2 e revisado pelo grupo de Marketing 2020.1