Lectures

A seguir apresento alguns materiais escritos ao longo do tempo, seja para alguma apresentação pontual ou mesmo a tentativa de gerar conteúdo relevante relacionado a Ciência de Dados.

Unicamp Pretty Maps Imagem do mapa da Unicamp criada com o projeto Pretty Maps.

Alguns exemplos de técnicas: Link para o cabeçalho

  • Regressão:

    • Regressão Linear. É uma técnica muito importante, mas que a maioria dos profissionais do mercado não presta muita atenção por acreditarem ser muito básica. Muitos problemas podem ser resolvidos com essa simples técnica, além de possuir um fundamento estatístico forte, que pode ser útil em algumas aplicações;
    • Regressão não linear, no exemplo assintótica;
  • Séries temporais:

  • Miscelâneas:

    • Decodificando um JPEG na mão - apresentação - Uma explicação de como um arquivo JPEG é decodificado, mostrando as técnicas utilizadas, Transformada discreta de cosseno (DCT, Discrete Cosine Transform), quantização, codificação de Huffman, dentre outras.

Ferramentas Link para o cabeçalho

  • Exemplos códigos de SAS. O SAS é uma ferramenta muito utilizada no mercado financeiro e de seguros. A linguagem SAS vem sendo utilizada desde a década de 70, desta forma, conta com algumas características que são pouco usuais aos programadores de Python/R. Aqui são mostrados alguns exemplos de uso do SAS para análise de dados, séries temporais, regressões, etc. Você pode testar os programas acima utilizando o serviço gratuito SAS OnDemand for Academics.

Principais ferramentas: Link para o cabeçalho

  • Anaconda - Distribuição Python com as principais bibliotecas incluídas;
  • RStudio - Software para programação em linguagem R, é necessário também instalar a linguagem R.

Cursos recomendados: Link para o cabeçalho

  • Machine Learning - Coursera/Stanford - Andrew Ng - O curso mais clássico de Machine Learning ganhou uma nova versão, a anterior era um pouco datada, principalmente considerando que a linguagem de programação do curso era Matlab/Octave (apesar que alguém recriou em Python). A nova versão foi quebrada em uma trilha com 3 partes, provavelmente nunca farei todas, mas se mantiver o padrão da original é uma excelente pedida para começar. O curso é gratuito, apenas o certificado e ter os exercícios corrigidos é pago.

  • Cursos da DeepLerning.ai - O Andrew Ng tem uma empresa que desenvolveu uma série de cursos relacionados a Data Science, NLP (Natural Language Processing), MLOps, Deep Learing, Generative Adversarial Networks, dentre outros.

Bibliografia: Link para o cabeçalho

  • Python Data Science Handbook - Jake VanderPlas - Livro com o básico do uso de Python em Data Science, está disponível gratuitamente na página do autor. Começa com uma introdução para a linguagem. Depois: NumPy, a biblioteca utilizada para vetores; Pandas, a biblioteca utilizada para trabalhar com dados; Matplotlib, para criação de gráficos 2D e 3D. Por fim, a biblioteca Scikit-Learning, que implementa os principais algoritmos da literatura de Machine Learning;

  • Deep Learning with Python, Second Edition - Francois Chollet - Livro prático, bem mãos na massa, de Deep Learning, escrito pelo criador da biblioteca Keras, que facilita a implementação de modelos. Os notebooks disponíveis no Github do autor são um show à parte, implementando os ensinamentos do livro com explicações, ou seja, apenas com o notebook já é possível entender os conceitos e aplicações.

  • A Guide to Econometrics - Peter Kennedy - Livro de econometria, com teoria dos métodos clássicos e os seus fundamentos. Não é essencial para ciência de dados, mas para quem pretende trabalhar com métodos clássicos como ARIMA, é uma bibliografia recomendada.

Sites recomendados: Link para o cabeçalho

  • Kaggle - Site de competições de Data Science com diversos datasets, notebooks completos com dicas e técnicas. Além disso, é possível acessar notebooks executados na nuvem com Python/R;

  • Google Colaboratory - Serviço do Google para execução de código em Python com GPUs e TPUs para acelerar o treinamento. É gratuito com algumas limitações (se você deixar muito tempo executando, irá parar a execução do notebook, basta ir salvando parcialmente o modelo em treinamento);

  • Amazon SageMaker Studio Lab - Serviço similar ao Google Colaboratory. É separado da AWS, não precisa colocar o cartão de crédito;

  • towards data science - Excelente Medium com projetos, tutoriais de Data Science. É provável que em uma busca no Google você seja levado para um artigo desse site esmiuçando o tema.

  • KDnuggets - Site com notícias, empregos, tutoriais, etc de Data Science;

  • Data Science Central - Outro ótimo site de Data Science;

  • DataHackers - Comunidade Brasileira de Data Science, recomendo o Podcast deles;

  • Reddit Machine Learning - Comunidade no Reddit sobre o tema.