Nielsen Rechia - Data Scientist

Big Data

O que é Big Data?


Nos últimos anos, muito se fala em Big Data, mas para muitas pessoas não está definitivamente claro o conceito de Big Data. Principalmente no Brasil, onde este tal conceito ainda está sendo aos poucos introduzido, tanto no mundo acadêmico, quanto na indústria.

Em resumo, pode-se dizer que Big Data refere-se a um conjunto de dados cujo​ tamanho está além da capacidade de ferramentas de software de banco de dados típicas capturar, armazenar, gerenciar e analisar [1].​

Analisando a frase acima, é possível perceber que Big Data não é uma situação nova, mas sim uma realidade atual para muitos, sendo algo diferente do que viveu-se nas décadas passadas. Um exemplo, é lembrar-mos que nos anos 90, próximo a chegada da internet no Brasil (1995), muitos utilizavam um MP3 Player.

Certo, mas no que o MP3 Player se relaciona com Big Data? É simples! A capacidade de armazenamento disponível nestes equipamentos variava entre 64MB e 4GB, mas se recordarmos, lembraremos que e a maioria das pessoas possuíam os modelos mais populares, como por exemplo os modelos de 256 MB, 512 MB e 1 GB [2].

Neste caso, se em 2001, ano do lançamento do Ipod [3], o qual possuía 10GB de capacidade, algum usuário necessitasse trocar seu Ipod por um Mp3 Player, na melhor das situações, só conseguiria continuar com 40% da sua playlist, ou do seu Big Data.

Está pode ser considerada uma situação de Big Data nos anos 90, pois não seria possível processar e armazenar o conjunto de dados (músicas). Então, pensando em outras possibilidades, por exemplo em empresas, já existiam problemas de Big Data, mas talvez não tantos quanto atualmente.

Mas por que agora?


Então qual a razão de somente nos últimos anos este termo ter se expandido de forma acelerada? Pelo crescimento exponencial do volume de dados. Principalmente, pela quantidade de dados não estruturados que são criados e disponibilizados [4].

Como pode-se perceber na imagem acima, o volume de dados vem aumentando constantemente, por isso o aumento significativo do Big Data. E pensando em tal cenário, muitos pesquisadores investigam como proceder nestes casos. Assim, pode-se dizer que:

Big Data são ativos de informação de grande volume, gerados em velocidade e / ou grande variedade que exigem novas formas de processamento para permitir tomadas de decisões aprimoradas, descoberta de insights e otimização de processos [5].

Estes são os 3 principais Vs de Big Data, sendo possível encontrar até mesmo 42 Vs de Big Data [6], o que claramente é um pouco de exagero.

Neste sentido, o mais importante é ter cuidado, pois uma análise complicada (inteligente) dos dados pode fazer com que um dado pequeno pareça ser grande​.

Para quem desejar mais informações, além das referencias citadas acima, recomendo cursos da IBM Cognitive Class [7] que são muito bons.


Espero ter conseguido de forma sucinta passar o que se trata Big Data. Nas próximas postagens desejo abordar alguns pontos de forma mais profunda, trazendo, por exemplo, arquiteturas de Big Data e papéis realizados por pessoas que trabalham nesta área, além é claro que outros tópicos.

Até breve.