BI & BIG DATA – Frequently Asked Questions (FAQ)

O que é BI (Business Intelligence)?

BI é um método tecnológico criado para ajudar as empresas a tomarem as melhores decisões para o crescimento. É a inteligência aplicada à coleta e à interpretação dos dados ( com o auxílio de softwares de alta performance), que faz com que decisões saiam da intuição para o profissionalismo, ou seja, business intelligence é o conjunto de práticas que evitam uma espécie de “adivinhação” e garantem assertividade nas tomadas de decisão.

O que é Big Data?

Consiste em uma grande quantidade de dados não estruturados, como dados de redes sociais, web logs e dados de texto. No BI, ele entra como mais uma fonte de dados, que precisa passar pelo processo de transformação e ser armazenados no Data Warehouse para ser analisado.

O que é um Data Source ou Fonte de Dados?

São as planilhas, ERPs, CRMs, etc, locais de onde os dados são retirados para serem inseridos no Data Warehouse. Os data source são geralmente compostos por dados estruturados ou semiestruturados, onde não se pode ter redundância, e são modelados para a inserção e edição dos dados, não para a consulta.

O que é Data Mining ou Mineração de Dados?

Enquanto o BI supre as necessidades já conhecidas do negócio, o Data Mining busca por informações que não estão sendo monitoradas ainda, percorrendo os dados em busca de padrões e anomalias.

O que é Data Integration?

É o estágio onde acontece o ETL. É a etapa onde os dados são retirados das fontes de origem, transformados de forma que façam sentido juntos e inseridos no Data Warehouse.

O que é ETL e qual sua importância?

Quando falamos de BI (Business Intelligence) é quase obrigatório falarmos sobre o processo de ETL. A sigla significa Extração, Transformação e Carga ( em inglês Extract, Transform and Load) e visa trabalhar com toda a parte de extração de dados de fontes externas. Essa transformação busca atender às necessidades de negócios e carga dos dados dentro do Data Warehouse ou Data Mart ou para demandas de importação e exportação de dados.

EXTRAÇÃO: é a fase em que os dados são extraídos dos OLTPs e conduzidos para a staging area (área de transição ou área temporária), onde são convertidos para um único formato.

TRANSFORMAÇÃO: é nesta etapa que realizamos os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados de duas ou mais fontes.

CARGA: consiste em fisicamente estruturar e carregar os dados para dentro da camada de apresentação seguindo o modelo dimensional.

O processo de ETL hoje é considerado um dos processos mais importantes dentro de um projeto de BI. É uma das fases mais críticas. É onde fica a inteligência. É onde são definidas e implementadas as regras referentes ao negócio.

O que é a Stage Area?

Uma área temporária que geralmente está em um banco de dados relacional e fi­ca desacoplado da origem. Ela tem tabelas soltas e sem relacionamento, onde os dados são transformados para serem enviados ao Data Warehouse.

Qual a diferença entre Data Warehouse (DW) e Data Mart (DM)?

A diferença entre um DW e um DM basicamente consiste no volume de dados, abrangência e foco. Enquanto o DW foca na organização como um todo os DMs focam em um determinado departamento ou conjunto específico de usuários, por exemplo. A construção deste armazém pode acontecer de duas formas, cada abordagem têm seus prós e contras. As circunstâncias e particularidades de cada projeto é que determinarão qual utilizar.

Na abordagem Top-Down primeiro se monta o DW (corporativo) para em um segundo momento criar os DM (departamentais) ou pode-se utilizar a abordagem Bottom-Up onde primeiro são criados os DMs para em seguida montar o DW da organização.

Aplicações Data Warehouse: O DW é uma ferramenta para executivos, que visa auxiliar na tomada de decisões de nível estratégico, através da manipulação de dados históricos. É aplicável a uma grande gama de empresas dos mais diversos seguimentos.

Aplicações Data Mart: O DM é uma ferramenta menor, que da mesma maneira pode servir as mais diversas empresas, porem pode atender a um departamento especifico da empresa, como o setor de vendas ou compras, por exemplo. Por ter um custo menor de desenvolvimento, pode ser uma opção viável para empresas de menor porte e pode ser implementado modulo a modulo até constituir um DW.

O que é Arquitetura de dados?

A arquitetura de dados valoriza a base de ativos de dados de organizações e exige um processo de racionalização de dados e fluxos associados. Esta iniciativa resulta no desenvolvimento da organização de dados e modifica a visão tradicional da arquitetura de Business Intelligence.

O que é Modelagem Dimensional?

É uma forma de modelagem de dados que busca simplifi­car o banco de dados e tornar as consultas mais rápidas para sistemas de apoio à decisão.

O que é Star Schema ou Modelo Estrela?

O modelo estrela é composto no centro por uma tabela fato que é rodeada por dimensões e por isso tem o nome de Star Schema, porque parece uma estrela.

O que é Snowflake Schema ou Modelo Floco de Neve?

O modelo Snowflake também tem uma tabela fato rodeada por dimensões, mas segue o princípio de normalizar as dimensões, removendo atributos de baixa cardinalidade e criando tabelas separadas.

O que é Fact Constellation Schema ou Modelo Constelação de Fatos?

Modelo com múltiplas tabelas fato que compartilham dimensões, também conhecido como Galaxy Schema.

O que é Tabela Fato?

É a principal tabela do Data Warehouse, ela ­fica no centro do Star Schema e é rodeada por dimensões. A tabela fato armazena o que ocorreu, é o fato propriamente dito.

A fato armazena 2 coisas:

  • As métricas
  • As chaves das dimensões

O que é Tabela Dimensão?

Descreve o fato ocorrido, ela contém as características do evento. Ela vai quali­ficar, classi­ficar ou descrever as métricas que estão na fato.

A dimensão armazena 3 coisas:

  • A Surrogate Key
  • A Natural Key
  • Os atributos

O que é Cubo?

Cubo é um conceito. Serve para manipular e analisar um grande volume de dados sob múltiplas perspectivas e hipóteses. Os Cubos permitem fi­ltrar, cortar e pivotar os dados em tempo real, como em uma tabela dinâmica.

O que é Granularidade?

É o nível de detalhamento do dado. Alta granularidade é o grão, o menor nível do dado.

O que é Drill-Up, Drill-Down e Drill-Through?

Drill-Down: é quando você desce no nível de hierarquia do dado, aumentando a granularidade e o nível de detalhamento.

Drill-Up: é quando você sobe no nível de hierarquia do dado, diminuindo a granularidade e o nível de detalhamento.

Drill-Through: Ao invés de mover verticalmente, como drill down e drill up, o drill through se move horizontalmente, passando de um relatório para outro enquanto analisa a mesma amostra de dados.

O que é Data Visualization?

É a etapa onde a informação é apresentada, com dashboards, gráficos e reports.

O que é um Dashboard?

Uma das ferramentas de visualização de dados. É um painel que apresenta visualmente as informações mais importantes e necessárias para a tomada de decisão.

O que é uma Métrica?

Tudo que a empresa for mensurar é uma métrica. Elas são utilizadas para mensurar algo e são sempre números, porque precisam ser contáveis. Esses números são provenientes de transações da empresa.

O que é um KPI (Key Performance Indicator) ou Indicador-Chave de Desempenho?

É um índice para medir percentualmente as variações que ocorrem na empresa.

O que é Machine Learning?

A utilização conjunta de grandes quantidades de informação e de algoritmos de aprendizagem relativamente simples torna possível para resolver problemas que, até pouco tempo atrás, eram considerados insolúveis. Uma grande disciplina da inteligência artificial, a aprendizagem automática ocupa-se da análise de dados exploratórios para as mais sofisticadas técnicas de inferência e de classificação ou de regressão. A aprendizagem automática permite à empresa trabalhar com eficientes modelos de análise preditiva e prescritiva para antecipar e otimizar seus processos de decisão, custos e receitas.

Para que serve a Análise preditiva?

O conceito de análise preditiva está estreitamente ligado às noções de “mineração de dados”, que já estão familiarizadas na esfera de Business Intelligence. O progresso em algoritmos hoje permite que inferências sejam estendidas para além da análise das tendências retrospectivas. O objetivo agora é ajudar as empresas a obter um resultado potencial e antecipatório, a fim de produzir, em seguida, os métodos de previsão e de tomada de decisão automaticamente, com base em resultados da análise de dados.

Qual é o papel do Cientista de dados?

É um perfil estratégico raro e bem demandado. Cientistas de dados permitem que as empresas tecnológicas e inovadoras enfrentem o maior problema da nova economia digital: o do desenvolvimento da rede de dados.

O que é Visual Thinking?

Sem visualização de dados, não é possível interpretar os resultados da análise de Big Data de maneira inteligível e simples. Para orientar o foco para o que é mais importante para atingir uma tomada de decisão rápida e ideal: este é o objetivo de visualização de dados. As ferramentas utilizadas nas empresas oferecem uma escolha limitada de representações gráficas que se revelam ineficazes e sem impacto. As ligações existentes entre Business Intelligence, visualização de dados e o cérebro são mecanismos inerentes envolvidos ao consultar uma análise que contém elementos gráficos, um relatório ou um painel.

Para que serve a Experiência do Usuário?

A inteligência do consumidor representa o desenvolvimento e a fusão da visão do cliente, interação, personalização e desempenho. O objetivo é desenvolver a visão do cliente em 360 graus, facilitando a agregação e visualização de dados estruturados e não-estruturados. Desta forma, o cliente obtém uma visão holística dos consumidores ( particulares, profissionais e empresas) tornada possível pela ciência de dados massivos (Big Data).