Tópicos
Este paradigma caracteriza-se pelo facto dos dados de treino não estarem labeled, isto é, não existir um target.
Este tipo de aprendizagem serve para diferentes casos de uso:
- Redução de features
- Deteção de anomalias (samples que são muito diferentes da norma)
- Clustering (agrupar samples semelhantes)
Redução
O objetivo principal é reduzir o número de features que existem nos dados.
Principais algoritmos:
- PCA
- Manifold
- t-SNE
- Autoencoders
Deteção de Anomalias
O objetivo é detetar quais das samples são muito diferentes da norma, permitindo a eliminação de outliers. Em casos mais concretos, numa linha de montagem, podemos encontrar os produtos defeituosos.
Principais algoritmos:
- Floresta de isolamento
- Local outlier factor
Clustering
O objetivo é agrupar as samples em diferentes grupos, consoante a sua correlação positiva.
K-means
São inicializados K centroids aleatoriamente, os pontos são atribuídos ao cluster mais próximo (definido pelo centroid) e o processo repete-se recursivamente.
DBSCAN
Este algoritmo baseia-se no em encontrar zonas com maior densidade de pontos, denominando-as de clusters. Assim, não requer que o K seja definido.
Affinity Propagation
Os pontos passam mensagens entre si identificado os seus representantes. Novamente, não requer que o K seja definido. No entanto, é bem mais lento a alcançar convergência.