Sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes : méthode, application et garanties théoriques.

Sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes

Jeudi 13 mars 2025, 10:15 à 11:15

Salle des séminaires M.0.1

Marion Naveau

IRMAR (Univ. Rennes)

La problématique de la sélection de variables en grande dimension, caractérisée par un nombre significativement plus élevé de covariables que d'observations, est bien étudiée dans le contexte des modèles de régression standard. Cependant, peu d'outils sont actuellement disponibles pour aborder cette question dans le cadre des modèles non-linéaires à effets mixtes, où les données sont collectées de façon répétée sur plusieurs individus. Ma thèse a porté sur le développement d’une procédure de sélection de covariables en grande dimension pour ces modèles, en étudiant à la fois leurs implémentations pratiques et leurs propriétés théoriques. Cette méthode repose sur un prior bayésien de type spike-and-slab gaussien et l’algorithme SAEM (Stochastic Approximation of Expectation Maximisation Algorithm). Nous en illustrons l’intérêt à travers une application concrète visant à identifier des marqueurs génétiques potentiellement impliqués dans le processus de sénescence du blé tendre. D’un point de vue théorique, nous avons analysé les propriétés fréquentistes des distributions a posteriori et établi des taux de contraction a posteriori autour des vraies valeurs des paramètres dans un modèle non-linéaire à effets mixtes sous prior spike-and-slab discret, comparables à ceux observés dans des modèles linéaires.