Primeiros passos com Data Science

March 8, 2016

Data Science ou Ciência de Dados vem ganhando muita força de mercado nos últimos anos, um mercado até então acadêmico que agora chama atenção de grandes empresas e startups. Quem aqui não tem um conhecido no Linkedin que de um Software Engineer ou Developer se tornou um Data Analyst ou Data Scientist? É uma nova onda de profissionais com experiência em linguagens de programação como Python, R, Scala, Java juntamente com a experiência ou formação acadêmica em áreas da Matemática, como estatística.

Assistindo palestras em eventos da comunidade Python e motivado por bons amigos que já trabalham na área, resolvi investir no tema e em Outubro do ano passado iniciei alguns cursos por conta própria.

O primeiro curso que fiz foi o Introdução a Big Data do Coursera, oferecido pela universidade da California, San Diego. Minha experiência foi extremamente positiva, o que me motivou a criar uma espécie de roteiro para eu seguir nos próximos meses.

Esse artigo é a exposição dessa minha grade de estudos, que pode ser um guia para pessoas interessadas a investir nesse novo universo de informação. Mas se você é uma daquelas pessoas que nunca ouviram falar sobre Data Science ou Machine Learning, recomendo muito a leitura dos artigos Machine Learning is fun e Learn Data Science with Python from Scratch.

Vamos em frente, todos os materiais listados aqui são em inglês, legendados e nada assustador para quem não é fluente, com um pequeno esforço você consegue prosseguir. Vale frizar que 100% dos cursos citados são gratis!

Cursos introdutórios

Para os iniciantes a Udacity possui um grande acervo de material gratuito e de excelente qualidade. Esses cursos tem uma média de duração de 3 semanas, recomendo fazer alguns em paralelo. Alguns deles são bem pequenos que podem ser feitos em um único fim de semana.

Para complementar essa primeira lista temos a sessão de Matemática da KhanAcademy com lições de algebra, probabilidade e estatística e a Udemy com Big Data Basics: Hadoop, MapReduce, Hive, Pig & Spark.

Parece muita coisa para um material para iniciantes, correto? Correto, mas isso é uma visão geral que a Ciência de Dados abrange, se gostou dos tópicos de estatística então poderá ter um foco maior em Machine Learning mas se a preferência for visualização e análise de dados então talvez os tópicos de Big Data serão mais interessantes.

Nível intermediário

Os cursos de nível intermediário e avançados estão no roteiro, mas não farei todos necessiariamente nessa ordem. Nesse caso a escolha é mais on demand, dependendo da necessidade de algum projeto ou em algum estudo específico.

Nível avançado

Essa foi a lista de todos os cursos gratuitos que me interessei, como vocês podem perceber a Udacity fornece uma boa estrutura para quem tem tempo para investir. Com uma boa disciplina e uma boa gerência pessoal em alguns meses podemos evoluir muito sem gastar 1 centavo do bolso.

Mas eu também gostaria de adicionar alguns cursos pagos à esse roteiro, quero colocar os cursos de Frank Kane nessa lista. São cursos relativamente baratos, com algumas semanas de duração e muito material prático com exemplos reais, são eles:

Cada um desses cursos custam em média $25 então o custo-beneficio é enorme se comparado as especializações do Coursera ou a nanodegree da Udacity, vou explicar o que são eles logo abaixo.

Especializações

As especializações do Coursera são cursos mais longos, geralmente duram entre 4 a 6 meses e precisam de uma dedicação maior do que os cursos gratuitos que citei acima. Essas especializações são um pack de cursos agrupados, você pode adquirir individualmente sendo que o último curso é um trabalho de conclusão chamado de Capstone Project que precisa ser feito para que você possa obter a certificação.

Geralmente a especialização completa possui pelo menos 5 cursos, algumas chegam a 10. Cada curso tem o valor médio de $60.

O Introdução a Big Data que iniciei em Outubro é o primeiro curso da Big Data Specialization que irei concluir esse ano.

Essas duas especializações são algumas das minhas metas para 2016, lembrando que o Coursera oferece outras especializações de Data Science, a lista é enorme.

As nanodegrees do Udacity não estão nos meus planos por agora, não pela qualidade mas por questão de tempo e custo. Nanodegrees são cursos enormes que variam entre 9 a 12 meses e tem o custo mensal de $200, algo pouco fora da realidade brasileira com a alta do Dólar nos dias de hoje. Mas fica a recomendação para quem quiser topar essa mini-faculdade, eles prometem emprego garantido e um professor disponível para você. A grade de cursos é muito boa, feito em parceria com empresas como Google e Facebook:

Conclusão

Este artigo, além de um guia para iniciantes em Data Science serve também como uma meta pessoal para minha carreira. Estudar grande parte do material divulgado e continuar com minhas especializações.

O que acharam desse guia? Foi útil para você? Comentem abaixo e até a próxima!


comments powered by Disqus