10 melhores práticas para proteger a IoT em sua organização

By Juliana Monaco
20 jun 2017
Inovação

Um dos maiores desafios da Internet das Coisas (IoT) é a preocupação com a segurança. Esse problema é exacerbado na empresa, onde dispositivos conectados geralmente controlam máquinas grandes e perigosas ou enviam e recebem dados confidenciais.

Enquanto a IoT pode trazer novos dados e informações úteis, também apresenta novas vulnerabilidades em sua organização. Desse modo, é fundamental que as empresas considerem as implicações de segurança de uma implantação de IoT antes de avançar.

iot security

Imagem: reprodução – iStockphoto/phive2015

Neste artigo, estão as 10 melhores práticas para empresas, escolas, fábricas e outras organizações que procuram melhorar sua segurança de IoT. (mais…)

Data Lake – Uma nova abordagem para o DW

By Juliana Monaco
14 jun 2017
Big Data

Data lake

Considero que você conheça os conceitos básicos de Big Data* para avançar a leitura deste artigo, portanto irei focar em uma das vertentes (bastante específica), que envolve métodos e estruturas analíticas de dados, implementadas nas corporações.

O tema Big Data é bastante amplo e não pretendo explorá-lo com ênfase nesta abordagem. Proponho apenas uma elucidação sobre Data Lake.

*Confira os cursos de Big Data online e gratuitos que recomendamos.

Ralph Kimball, um dos precursores dos conceitos de Data Warehouse e da técnica de modelagem dimensional, menciona na terceira edição do famoso best-seller “The Data Warehouse Toolkit”:

⦁ Estes termos recorrentes (se referindo a grande parte dos conceitos de DW/BI) já existem há mais de três décadas;

⦁ Recolhemos toneladas de dados, mas não podemos acessá-los, precisamos “slice e dice” os dados em todas as direções (quebrar um conjunto de informações em partes menores, permitindo examiná-lo a partir de diferentes pontos de vista para que possamos compreendê-lo melhor);

⦁ Pessoas de negócios precisam obter os dados facilmente;

⦁ Mostrar apenas o que é importante;

⦁ Desperdiçamos reuniões inteiras discutindo sobre quem tem os números corretos ao invés de tomar decisões;

⦁ Queremos usar a informação para apoiar a tomada de decisão baseada em fatos;

Os primeiros estudos sobre a abordagem Data Warehouse surgiram na década de 80 como conceitos acadêmicos, naturalmente a sistematização das empresas com ERP, CRM e os demais sistemas transacionais ajudaram a criar as fontes de dados corporativas que alavancaram a necessidade da implementação de uma base de dados, também conhecida como armazém de dados (o DW), com o objetivo de consolidar uma visão estratégica dos dados, organizados na linha do tempo de acordo com as necessidades de negócio.

Consequentemente os dados evoluíram, as fontes de dados da era digital são bastante expansivas e possuem uma variedade de dados muito maior.

Não proponho discutirmos a importância e a necessidade de trabalharmos com DW, pois isso é evidente. Big Data não anula o Data Warehouse que foi projetado para atender soluções de Business Intelligence, o mercado não terá uma resposta rápida e definitiva para qualquer tipo de comparações neste sentido. Mas realmente precisamos considerar o apoio das plataformas de Big Data para compor uma arquitetura de Data Warehouse tradicional, portanto podemos afirmar que os domínios são complementares.

A arquitetura do Data Warehouse não está preparada para atender Big Data, por várias razões:

⦁ Toda e qualquer nova fonte de dados deverá passar por um processo burocrático de estruturação (modelagem, ETL, ajustes…) e quanto maior o volume e abrangência dos dados, maior será o tempo necessário para armazenamento e processamento;

⦁ As tecnologias de armazenamento e processamento tradicionais não atendem as capacidades das demandas de negócio. E os 3Vs de Big Data excedem seus limites facilmente;

⦁ O custo de soluções tradicionais de DW, considerando licenciamento de software, armazenamento, processamento e segurança, dificultam e até inviabilizam os projetos de evoluções;

James Dixon, Diretor de Tecnologia no Pentaho, mencionou: “Você pode pensar em um Data Mart como reserva de água engarrafadas, higienizadas, embaladas e estruturada para fácil consumo.” Fazendo uma analogia com o objetivo de preparar os dados para o fácil consumo.

Os Data Marts são parte de um domínio de dados, orientados aos departamentos ou assuntos da empresa, por exemplo.

Bill Inmon é considerado, por muitos, o pai do Data Warehouse, assim como Kimball possui dezenas de livros sobre o assunto. Um ponto de divergência curioso e conhecido, entre os dois, está relacionado aos Data Marts.

Kimball defende iniciar a construção dos Datamarts e integrá-los posteriormente, definindo o conceito que apelidou de Data Warehouse Bus Architeture.

Na avaliação de Inmon, é recomendável criar um Data Warehouse com um único modelo de dados corporativo e posteriormente derivar, construindo os Data Marts por assuntos ou departamentos, propondo o conceito do CIF – Corporate Information Factory.

Independente da opção sobre as melhores práticas de implementação dos Data Marts, James Dixon propôs o termo Data Lake para contrastar a abordagem dos Data Marts.

Segundo ele, existem duas grandes limitações na abordagem de Data Marts.

⦁ Apenas um subconjunto dos atributos é analisado, para que apenas perguntas pré-determinadas possam ser respondidas;

⦁ Os dados são agregados e perdemos visibilidade para os níveis mais baixos;

Estes problemas são muitas vezes definidos como silos de informações e acabam criando dificuldades para a evolução de modelos analíticos.

Uma consultoria americana está criando um “Data Lake” em conjunto com a White House Climate Data Initiative, com o objetivo de compreender os dados climáticos e suas implicações quanto ao aquecimento da Terra entre outros possíveis fatores.

“Quanto maior o número de pessoas adicionando mais dados, maior será o impacto”.

Foi realizado um estudo inicial com a seguinte questão: para onde foram 1 milhão de Andorinhas e qual é o motivo.

“Para entender como as mudanças climáticas afetam até mesmo uma ave durante o ano, comece multiplicando os milhões de aves por milhares de locais, todos os dias, durante 365 dias.

Essa visualização de big data revelou tudo isso em apenas alguns segundos e pode fazer mais, muito mais. Os cientistas conseguem ver rapidamente as mudanças na migração, observando os dados de vários anos. A migração está aumentando? E a temperatura? E as chuvas? Há correlações que apontam para as mudanças climáticas? ”

Data Lake é um repositório de armazenamento e engine para processamento de Big Data. Fornece armazenamento massivo para qualquer tipo de dados, enorme poder de processamento e capacidade de lidar com tarefas e jobs simultâneas, praticamente ilimitadas.

Um conceito chamado Data Lake e não uma tecnologia, significa que pode ir além da solução Hadoop. Porém o Ecossistema Hadoop é a tecnologia que melhor atende as necessidades definidas pelo conceito do Data Lake, seu custo benefício acaba sendo decisivo para que as empresas iniciem uma prova de valor (PoV) e evoluam com a implementação.

Esta arquitetura possibilita manter um grande repositório de dados “brutos”, preservando o princípio de imutabilidade, garantindo maior capacidade de retenção de dados com custo consideravelmente reduzido.

Um modelo tradicional de ETL (Extração/Transformação/Load), exige um esforço grande para modelagem e desenvolvimento de rotinas para preparar os dados. Aplicando a abordagem de Data Lake, o processo de carga poderá ser priorizado com a possibilidade de abrir mão da estruturação dos dados. Assim, podemos iniciar o processo de ingestão (carga) de dados no Data Lake e já submetermos os dados aos processos de análises.

Porém, nem todos os dados devem ser tratados de forma bruta, ainda continuaremos dependendo de processos pesados de transformação dos dados para grande parte dos dados, envolvendo técnicas de estruturação, enriquecimento e qualidade dos dados. Fazendo uso da grande capacidade do cluster de armazenamento, podemos otimizar o processo com um fluxo invertido, conhecido como ELT (Extração/Carga (Loader)/Transformação).

Aplicando o ELT, é possível usar a capacidade do cluster Hadoop para executar processamentos massivos, aumentando a velocidade e agilidade de todo o processo.

Mantendo o princípio de imutabilidade (não alterando os dados no Data Lake), será possível corrigir erros de regras de negócios e falhas de cadeias de transformação sem a necessidade de grandes manobras e esforços adicionais para movimentações de dados.

O Data Lake irá armazenar um grande volume de dados independente do seu formato ou estrutura e não define necessariamente um esquema, mantendo o dado no seu formato nativo até que os dados sejam efetivamente demandados.

O modelo propõe despejar todos os dados no lago, seguindo a abordagem “free-for-all”. Com o tempo, não será tão simples navegar por grandes lagos escuros com pouca visibilidade, passando por brejos improdutivos que limitaria o potencial dos dados.

Precisamos considerar técnicas importantes, como a curadoria, para manter as águas claras e passíveis de navegação, afinal nosso maior objetivo é extrair o valor dos dados com agilidade.

A Curadoria dos dados envolve a captura de metadados e gestão da linhagem dos dados, incorporando as informações no catálogo de metadados. Está intimamente ligado a governança dos dados e será importante para sustentar os processos de analise, estruturação, limpeza e transformação dos dados.

Com toda a confusão e volume de informações que estamos produzindo, é cada vez mais necessário a adoção da curadoria como premissa para um projeto de Big Data, fator decisivo para a sustentação do Data Lake.

Um exemplo de curadoria usado em redes sociais é o Moments do Twitter: https://twitter.com/i/moments 

Com um grande volume e tweets gerados a cada segundo versus vários assuntos, não é simples construirmos um roteiro sobre os fatos e qualificarmos os conteúdos com base em colaborações, afinal não temos possibilidade de seguir todas as pessoas e acompanhar um grande número de publicações a todo momento.

O Twitter aposta em parcerias com empresas especializadas em conteúdo para fazer o trabalho de curadoria e apresentar aos usuários os moments (ou histórias), que serão complementadas com os tweets de usuários que representem relevância para os assuntos discutidos.

(mais…)

Machine Learning em plataformas e produtos Apple

By Juliana Monaco
08 jun 2017
Destaque

Realizada dia 05 de junho de 2017, a WWDC (conferência anual para desenvolvedores da Apple) anunciou incríveis atualizações de software e novos produtos Apple que serão lançados ainda este ano. Entre eles estão: o novo Ipad Pro, iMac, iMac Pro, MacBook, MacBook Pro e o lançamento do HomePod, além de novas plataformas como o iOS 11, macOS High Sierra, watchOS 4 e aperfeiçoamento da Apple Store.

Com 16 milhões de desenvolvedores, a Apple apresentou os updates de seus quatro sistemas operacionais: iOS, watchOS, macOS e tvOS. Em muitos deles, a empresa utilizou Machine Learning* para desenvolver tecnologias mais avançadas. (mais…)

Como entender o algoritmo Gradient Descent

By Juliana Monaco
07 jun 2017
Inovação

Quando comecei a aprender sobre os algoritmos de Machine Learning, acabou por ser uma ótima tarefa para compreender o que os algoritmos estão fazendo. Não apenas porque era difícil entender todas as teorias e notações matemáticas, mas também era chato. Quando recorri aos tutoriais online, eu só podia ver equações ou explicações de alto nível sem passar pelos detalhes na maioria dos casos.

Foi então que um dos meus colegas de ciência de dados me apresentou ao conceito de elaborar um algoritmo em uma tela de excel. E isso me interessou. Qualquer novo algoritmo eu tento aprender em um excel e, acredite em mim, ele faz maravilhas para aprimorar sua compreensão.

Agora, para um iniciante, o nome Algoritmo Gradient Descent pode parecer intimidante. Mas, espero que depois de passar por esse post, isso possa mudar. (mais…)