L’intelligence artificielle vous intéresse et la topologie et les probabilités ne vous font pas peur ? Vous voulez en savoir plus sur la classification non supervisée ?
Dans ce Matters Meetup, Laurent Morelli explique ce qu’est la classification non supervisée et à quoi cela sert. Il est recommandé d’avoir quelques connaissances mathématiques (topologie, statistiques et probabilités) afin d’apprécier ce meetup et de bien comprendre les notions abordées.
Après avoir introduit la classification non supervisée comme étant un problème de clusterisation (segmentation) d’un jeu de données, Laurent Morelli montre plusieurs exemples de résultats possibles d’une classification supervisée : la classification du monde vivant, la segmentation de zones sur la carte de France afin d’optimiser les coûts d’un client de Matters.
Laurent Morelli propose d’aborder deux approches de classification non supervisée, une première basée sur la distance et/ou la densité entre les données de votre jeu de données, et une deuxième basée plutôt sur des règles probabilistes.
Pour la première approche, on retrouve des modèles qui utilisent la distance entre les données du jeu de données tels que K-Means ou K-medoids, ou encore DBSCAN qui se base plutôt sur la densité des données du jeu de données. Ensuite, Laurent Morelli parle des approches probabilistes, et montre comment utiliser le théorème de Bayes et les statistiques/probabilités pour résoudre un problème de clusterisation. Il explique aussi qu’il existe d’autres approches de classification non supervisée, qu’il n’aborde pas dans cette présentation.
Laurent Morelli aborde ensuite la partie technique et liste des bibliothèques de code adaptées à la classification non supervisée en python, R et Scala.
Ce meetup se termine par une petite session de questions réponses, ou Laurent Morelli précise certains points de sa présentation.