Primeiros passos com Data Science

written in data-science, python

Data Science ou Ciência de Dados vem ganhando muita força de mercado nos últimos anos, um mercado até então acadêmico que agora chama atenção de grandes empresas e startups. Quem aqui não tem um conhecido no Linkedin que de um Software Engineer ou Developer se tornou um Data Analyst ou Data Scientist? É uma nova onda de profissionais com experiência em linguagens de programação como Python, R, Scala, Java juntamente com a experiência ou formação acadêmica em áreas da Matemática, como estatística.

Assistindo palestras em eventos da comunidade Python e motivado por bons amigos que já trabalham na área, resolvi investir no tema e em Outubro do ano passado iniciei alguns cursos por conta própria.

O primeiro curso que fiz foi o Introdução a Big Data do Coursera, oferecido pela universidade da California, San Diego. Minha experiência foi extremamente positiva, o que me motivou a criar uma espécie de roteiro para eu seguir nos próximos meses.

Esse artigo é a exposição dessa minha grade de estudos, que pode ser um guia para pessoas interessadas a investir nesse novo universo de informação. Mas se você é uma daquelas pessoas que nunca ouviram falar sobre Data Science ou Machine Learning, recomendo muito a leitura dos artigos Machine Learning is fun e Learn Data Science with Python from Scratch.

Vamos em frente, todos os materiais listados aqui são em inglês, legendados e nada assustador para quem não é fluente, com um pequeno esforço você consegue prosseguir. Vale frizar que 100% dos cursos citados são gratis!

Cursos introdutórios

Para os iniciantes a Udacity possui um grande acervo de material gratuito e de excelente qualidade. Esses cursos tem uma média de duração de 3 semanas, recomendo fazer alguns em paralelo. Alguns deles são bem pequenos que podem ser feitos em um único fim de semana.

Para complementar essa primeira lista temos a sessão de Matemática da KhanAcademy com lições de algebra, probabilidade e estatística e a Udemy com Big Data Basics: Hadoop, MapReduce, Hive, Pig & Spark.

Parece muita coisa para um material para iniciantes, correto? Correto, mas isso é uma visão geral que a Ciência de Dados abrange, se gostou dos tópicos de estatística então poderá ter um foco maior em Machine Learning mas se a preferência for visualização e análise de dados então talvez os tópicos de Big Data serão mais interessantes.

Nível intermediário

Os cursos de nível intermediário e avançados estão no roteiro, mas não farei todos necessiariamente nessa ordem. Nesse caso a escolha é mais on demand, dependendo da necessidade de algum projeto ou em algum estudo específico.

Nível avançado

Essa foi a lista de todos os cursos gratuitos que me interessei, como vocês podem perceber a Udacity fornece uma boa estrutura para quem tem tempo para investir. Com uma boa disciplina e uma boa gerência pessoal em alguns meses podemos evoluir muito sem gastar 1 centavo do bolso.

Mas eu também gostaria de adicionar alguns cursos pagos à esse roteiro, quero colocar os cursos de Frank Kane nessa lista. São cursos relativamente baratos, com algumas semanas de duração e muito material prático com exemplos reais, são eles:

Cada um desses cursos custam em média $25 então o custo-beneficio é enorme se comparado as especializações do Coursera ou a nanodegree da Udacity, vou explicar o que são eles logo abaixo.

Especializações

As especializações do Coursera são cursos mais longos, geralmente duram entre 4 a 6 meses e precisam de uma dedicação maior do que os cursos gratuitos que citei acima. Essas especializações são um pack de cursos agrupados, você pode adquirir individualmente sendo que o último curso é um trabalho de conclusão chamado de Capstone Project que precisa ser feito para que você possa obter a certificação.

Geralmente a especialização completa possui pelo menos 5 cursos, algumas chegam a 10. Cada curso tem o valor médio de $60.

O Introdução a Big Data que iniciei em Outubro é o primeiro curso da Big Data Specialization que irei concluir esse ano.

Essas duas especializações são algumas das minhas metas para 2016, lembrando que o Coursera oferece outras especializações de Data Science, a lista é enorme.

As nanodegrees do Udacity não estão nos meus planos por agora, não pela qualidade mas por questão de tempo e custo. Nanodegrees são cursos enormes que variam entre 9 a 12 meses e tem o custo mensal de $200, algo pouco fora da realidade brasileira com a alta do Dólar nos dias de hoje. Mas fica a recomendação para quem quiser topar essa mini-faculdade, eles prometem emprego garantido e um professor disponível para você. A grade de cursos é muito boa, feito em parceria com empresas como Google e Facebook:

Conclusão

Este artigo, além de um guia para iniciantes em Data Science serve também como uma meta pessoal para minha carreira. Estudar grande parte do material divulgado e continuar com minhas especializações.

O que acharam desse guia? Foi útil para você? Comentem abaixo e até a próxima!


Comments