Aprendizado de Máquina - Machine Learning

Aprendizado de máquina (Machine Learning - ML) pode ser definida como: "aplicação e ciência de algoritmos que transformam grandes volumes de dados em conhecimento".

ML é então uma alternativa mais eficiente para a extração de conhecimento dos dados, melhorando o desempenho de modelos preditivos e as tomadas de decisão baseadas neles.

Os Três Tipos de Aprendizado de Máquina

São três as subáreas principais, ou mais comuns para a divisão da área de ML, cada uma adequada a diferentes tipos de tarefas:

Aprendizado Supervisionado: O objetivo principal é aprender um modelo a partir de dados de treinamento rotulados, permitindo fazer previsões sobre dados futuros ou não vistos. Ele se divide em:
- Classificação: Focada em prever rótulos de classes categóricas e discretas (ex: identificar se um e-mail é spam ou não).
- Regressão: Envolve a predição de desfechos contínuos com base em variáveis explicativas (ex: prever o preço de uma casa ou a nota de um exame).
Aprendizado Não Supervisionado: Lida com dados não rotulados ou de estrutura desconhecida, permitindo explorar os dados para extrair informações significativas sem a guia de uma variável alvo conhecida. Suas técnicas principais são:
- Agrupamento (Clustering): Técnica exploratória que organiza informações em subgrupos (clusters) com base na similaridade, sem conhecimento prévio de suas associações.
- Redução de Dimensionalidade: Frequentemente utilizada no pré-processamento para remover ruído, economizar espaço de armazenamento e comprimir dados em um subespaço de menor dimensão, mantendo a maior parte da informação relevante.
Aprendizado por Reforço: Busca desenvolver um sistema (agente) que melhora seu desempenho com base em interações com o ambiente. O feedback não é o rótulo correto, mas uma medida de quão bem a ação foi executada através de uma função de recompensa, permitindo o aprendizado por tentativa e erro, como em motores de xadrez.

Figura: Principais tipos de aprendizado de máquina

Fonte: Danish Khan: What are the types of Machine Learning?

Terminologia e Notação

Dataset: Conjunto de dados ou coleção organizada de informações relacionadas sobre um tema específico.
Amostras (Samples): Cada observação ou linha no conjunto de dados.
Características (Features): As medições ou colunas do dataset (atributos).
Notação: Segue-se a convenção de representar amostras como linhas em uma matriz de características \(\mathbf{X}\) e os rótulos de classe como um vetor \(\mathbf{y}\). O sobrescrito \((i)\) refere-se à \(i\)-ésima amostra de treinamento, e o subscrito \(j\) refere-se à \(j\)-ésima dimensão.

Figura: Terminologia

Fonte: RASCHKA, 2015

Fluxo de Trabalho para Sistemas de ML

Um roteiro típico para a construção de modelos preditivos é dividido em três fases críticas:

Pré-processamento: Considerado um dos passos mais cruciais, isso inclui a extração de características, escalonamento para desempenho ideal e a divisão aleatória do dataset em conjuntos de treinamento (para treinar e otimizar o modelo) e teste (para avaliação final).
Treinamento e Seleção de Modelo: Dado que diferentes algoritmos possuem vieses inerentes, é essencial comparar vários modelos para selecionar o melhor. Utiliza-se a validação cruzada para estimar o desempenho de generalização e técnicas de otimização de hiperparâmetros para ajustar o modelo.
Avaliação: Após selecionar um modelo ajustado no conjunto de treinamento, utiliza-se o conjunto de teste para estimar o erro de generalização. Se satisfeito com o desempenho, o modelo pode ser usado para prever dados futuros.

Figura: Fluxo de trabalho para construir um modelo de aprendizado de máquina

Fonte: RASCHKA, 2015

O Ecossistema Python

Python é a linguagem mais popular para ciência de dados: ele permite focar nas ideias e colocar conceitos em ação rapidamente. As principais bibliotecas para o fluxo de trabalho de ML são:

NumPy e SciPy: operações vetorizadas rápidas;
Scikit-learn: a biblioteca de ML mais popular e acessível;
Pandas: manipulação de dados tabulares;
Matplotlib: visualização de dados em formato gráfico.

Referências

RASCHKA, Sebastian. Python Machine Learning: unlock deeper insights into machine learning with this vital guide to cutting-edge predictive analytics. Birmingham: Packt Publishing, 2015
Danish Khan: What are the types of Machine Learning? https://python.plainenglish.io/what-are-the-types-of-machine-learning-540b15dc467f Acesso em 15/01/2026