Large-scale similarity search with Optimal Transport

Large-scale similarity search with Optimal Transport

Thursday 16 May 2024, 11:30 à 12:30

Salle de séminaire M.0.1.

Cléa LAOUAR

Okinawa Institute of Science and Technology au Japon

La distance de Wasserstein est un outil puissant pour comparer des distributions de probabilité et est largement utilisée pour la classification et la récupération de documents dans les tâches de NLP (Natural Language Processing). En particulier, elle est connue sous le nom de Word Mover’s Distance (WMD) dans la communauté NLP. Cette distance montre d'excellentes performances pour diverses tâches de NLP ; cependant, l'une de ses limitations réside dans son coût computationnel élevé, la rendant ainsi peu pratique pour des comparaisons de distributions à grande échelle. Dans cette étude, nous proposons une recherche simple et efficace du plus proche voisin basée sur la distance de Wasserstein. Plus précisément, pour identifier efficacement les k plus proches voisins, nous utilisons l'approximation de la distance de Wasserstein qui s’appuie sur une structure arborescente, et utilisons par la suite l’algorithme des kNN. Au travers d'expériences, nous montrons que notre méthode présente des performances similaires à celles de la distance de Wasserstein standard et qu'elle peut être calculée trois ordres de grandeur plus rapidement que cette dernière.