- Français
- English
Large-scale similarity search with Optimal Transport
Large-scale similarity search with Optimal Transport
Salle de séminaire M.0.1.
Okinawa Institute of Science and Technology au Japon
La distance de Wasserstein est un outil puissant pour comparer des distributions de probabilité et est largement utilisée pour la classification et la récupération de documents dans les tâches de NLP (Natural Language Processing). En particulier, elle est connue sous le nom de Word Mover’s Distance (WMD) dans la communauté NLP. Cette distance montre d'excellentes performances pour diverses tâches de NLP ; cependant, l'une de ses limitations réside dans son coût computationnel élevé, la rendant ainsi peu pratique pour des comparaisons de distributions à grande échelle. Dans cette étude, nous proposons une recherche simple et efficace du plus proche voisin basée sur la distance de Wasserstein. Plus précisément, pour identifier efficacement les k plus proches voisins, nous utilisons l'approximation de la distance de Wasserstein qui s’appuie sur une structure arborescente, et utilisons par la suite l’algorithme des kNN. Au travers d'expériences, nous montrons que notre méthode présente des performances similaires à celles de la distance de Wasserstein standard et qu'elle peut être calculée trois ordres de grandeur plus rapidement que cette dernière.