Tópicos

Este paradigma caracteriza-se pelo facto dos dados de treino não estarem labeled, isto é, não existir um target.

Este tipo de aprendizagem serve para diferentes casos de uso:

  • Redução de features
  • Deteção de anomalias (samples que são muito diferentes da norma)
  • Clustering (agrupar samples semelhantes)

Redução

O objetivo principal é reduzir o número de features que existem nos dados.

Principais algoritmos:

  • PCA
  • Manifold
  • t-SNE
  • Autoencoders

Deteção de Anomalias

O objetivo é detetar quais das samples são muito diferentes da norma, permitindo a eliminação de outliers. Em casos mais concretos, numa linha de montagem, podemos encontrar os produtos defeituosos.

Principais algoritmos:

  • Floresta de isolamento
  • Local outlier factor

Clustering

O objetivo é agrupar as samples em diferentes grupos, consoante a sua correlação positiva.

K-means

São inicializados K centroids aleatoriamente, os pontos são atribuídos ao cluster mais próximo (definido pelo centroid) e o processo repete-se recursivamente.

DBSCAN

Este algoritmo baseia-se no em encontrar zonas com maior densidade de pontos, denominando-as de clusters. Assim, não requer que o K seja definido.

Affinity Propagation

Os pontos passam mensagens entre si identificado os seus representantes. Novamente, não requer que o K seja definido. No entanto, é bem mais lento a alcançar convergência.