L'IA pour analyser les millions de contributions citoyennes du Grand Débat National

7 févr. 2023
1 min de lecture

Dernière mise à jour : 5 mars

L'article original sous le titre "Indexation et recherche de similarité avec Faiss" est publié sur Medium via le compte de La Javaness R&D.

Nous vous recommandons de consulter l'article original sur le site Medium pour visualiser l'ensemble des illustrations et exemples.

Indexation et recherche de similarité avec Faiss

Cet article a pour but d’expliquer quelques-uns des algorithmes de recherche de similarité implémentés dans faiss, une bibliothèque développée par facebook, que j’ai découverte à l’occasion d’un projet de NLP. Je passe brièvement sur le contexte du problème et l’intérêt d’utiliser faiss, et je poursuis avec une explication technique des trois principaux indexes proposés par faiss : inverted file index, product quantization, et hierarchical navigable small worlds.

Introduction

Contexte : le projet Grand Débat

Le projet Grand Débat est un projet de R&D mené par La Javaness en automne 2022. Le but était d’appliquer nos compétences et connaissances en NLP et visualisation de données pour créer une application permettant d’explorer les contributions citoyennes récoltées lors du Grand Débat National.

L’une des fonctionnalités que nous souhaitions implémenter était la recherche de contributions similaires à une proposition entrée par l’utilisateur. Plutôt que d’utiliser un moteur de recherche par mots-clés, comme c’est possible par exemple avec Elasticsearch, on souhaite ici permettre à l’utilisateur de visualiser des contributions sémantiquement similaires à la sienne. Nous avons donc décidé de faire usage du moteur d’embedding développé par un de nos data scientists, et d’effectuer une recherche de similarité. (Note : un moteur d’embedding est optimisé pour que des phrases ayant un contenu sémantique similaire soient encodées par des vecteurs proches).

Consulter le reste de l'article ici.