Aller au contenu
« Apprentissage statistique non supervisé  » – Livre blanc

« Apprentissage statistique non supervisé  » – Livre blanc


Ce livre blanc porte sur la notion d’apprentissage statistique non supervisé ou utilisant des données non labellisées au préalable. Ensuite, il étudie les techniques disponibles aujourd’hui pour procéder à de l’apprentissage statistique à partir de données non labellisées : partitionnement, réduction de dimensionnalité, estimation de densité et utilisation de modèles génératifs. Il parcourt également les algorithmes classiques les plus anciens (analyse en composantes principales, k-moyennes) et les techniques les plus récentes qui font appel à l’apprentissage profond (représentations de mots, modèles autorégressifs, auto-encodeurs, réseaux génératifs adverses).

Deux axes permettent de comprendre l’apprentissage non supervisé :

La première façon d’exploiter un ensemble de données de façon statistique sans intervention humaine est de chercher à apprendre la distribution de ces données. À titre d’exemple, les modèles de langage sont des programmes s’appuyant sur des réseaux de neurones et ils cherchent à assigner une probabilité, ou valeur de vraisemblance, à chaque phrase ou groupe de phrases qu’on leur propose. Cela permet d’optimiser les logiciels de reconnaissance vocale ou de traduction en évitant de proposer des phrases jugées comme peu probables dans le langage et le contexte considérés, par exemple si elles contiennent des fautes grammaticales. Les données utilisées pour construire ces modèles de langage sont des corpus de textes disponibles librement sur Internet et ne nécessitent pas d’effort d’annotation.

Un deuxième chemin pour exploiter un vaste ensemble de données est de chercher à les utiliser pour construire une représentation de ce type de données, optimisée pour une ou plusieurs classes d’utilisations. Si l’on souhaite visualiser des données se présentant sous forme de vecteurs comprenant un grand nombre de coordonnées, une réduction de dimensionnalité à deux ou trois dimensions semble absolument nécessaire. Si l’on envisage d’utiliser des données pour faire de la classification mais que l’on ne dispose que de peu d’exemples labellisés, un regroupement préalable de ces données en un nombre limité de groupes est une approche utile. En matière de traitement du langage, des technologies ont été développées ces dernières années permettant de représenter chaque mot de notre vocabulaire par un vecteur de moyenne dimension. Ainsi des mots représentés par des vecteurs proches les uns des autres ont des significations qui sont elles aussi proches. La représentation vectorielle de ces mots serait en quelque sorte leur contenu sémantique, leur « sens », ce qui permet le développement d’applications inimaginables auparavant en matière d’analyse de contenu.



Source link

Laisser un commentaire