Le Groupe de travail en Statistique est organisé par Gaëlle Chagny et Antoine Channarond. Sauf précision contraire, les séances ont lieu au Madrillet le jeudi, de 10h15 à 11h15 dans la salle de séminaire M.0.1 (rez-de-chaussée).

Programme 2015-2016

30 juin 2016 (11h, séance commune avec le GT Théorie ergodique et Probabilités) Wei Biao Wu (University of Chicago) $L^2$ Asymptotic Theory for High-Dimensional Data I will present an asymptotic theory for $L^2$ norms of sample mean vectors of high-dimensional data. An invariance principle for the $L^2$ norm is derived under conditions that involve a delicate interplay between the dimension $p$, the sample size $n$ and the moment condition. Under proper normalization, central and non-central limit theorems are obtained. To perform the related statistical inference, I will propose a plug-in calibration method and a re-sampling procedure to approximate the distributions of the $L^2$ norms. The results will be applied multiple tests and inference of covariance matrix structures.

23 juin 2016 William Edward Strawderman (Rutgers University, États Unis) Robust minimax shrinkage estimation of location vectors under concave loss We consider the problem of estimating the mean vector, $\theta$, of a multivariate spherically symmetric distribution under a loss function which is a concave function of squared error. In particular we find conditions on the shrinkage factor under which Stein-type shrinkage estimators dominate the usual minimax best equivariant estimator. In problems where the scale is known, minimax shrinkage factors which generally depend on both the loss and the sampling distribution are found. When the scale is estimated through the squared norm of a residual vector, for a large subclass of concave losses, we find minimax shrinkage factors which are independent of both the loss and the underlying distribution. Recent applications in predictive density estimation are examples where such losses arise naturally.

9 juin 2016 (10h15) Slim Beltaief (LMRS) Robust adaptive efficient estimation for a semi-Markov nonparametric regression model. We consider the problem of estimating a periodic function $S$ in a continuous time regression model $\text{d}y(t)=S(t)\text{d}t+\text{d}W(t)$, where the process $W(t)$ is a renewal noise. An adaptive model selection procedure based on the weighted least square estimates will be proposed in order to obtain a sharp non-asymptotic oracle inequality.

26 mai 2016 (10h15) Serge Pergamenchtchikov (LMRS) Asymptotically optimal pointwise and minimax quickest change-point detection for dependent data We consider the quickest change-point detection problem in pointwise and minimax settings for general dependent data models. Two new classes of sequential detection procedures associated with the maximal ``local'' probability of a false alarm within a period of some fixed length are introduced. For these classes of detection procedures, we consider two popular risks: the expected positive part of the delay to detection and the conditional delay to detection. Under very general conditions for the observations, we show that the popular Shiryaev--Roberts procedure is asymptotically optimal, as the local probability of false alarm goes to zero, with respect to both these risks pointwise (uniformly for every possible point of change) and in the minimax sense (with respect to maximal over point of change expected detection delays). The conditions are formulated in terms of the rate of convergence in the strong law of large numbers for the log-likelihood ratios between the ``change'' and ``no-change'' hypotheses, specifically as a uniform complete convergence of the normalized log-likelihood ratio to a positive and finite number. We also develop tools and a set of sufficient conditions for verification of the uniform complete convergence for a large class of Markov processes. These tools are based on concentration inequalities for functions of Markov processes and the Meyn--Tweedie geometric ergodic theory. Finally, we check these sufficient conditions for a number of challenging examples (time series) frequently arising in applications, such as autoregression, autoregressive GARCH, etc.

12 mai 2016 (10h15) Andrea Rau (équipe PSGen, INRA Jouy) Poisson mixtures with slope heuristics and visualization tools for RNA-seq co-expression In recent years, decreasing costs and significant advances in next generation sequencing technologies have made RNA sequencing (RNA-seq) a popular choice for studies of gene expression. Although a great deal of methodological research has recently focused on appropriate methods for the normalization and differential analysis of RNA-seq data, relatively little attention has thus far been paid to the issue of identifying co-expressed genes. One of the primary concerns for co-expression analyses of RNA-seq data is the choice of an appropriate family of models; this is related not only to the discrete nature of the data, but also a precise understanding of how co-expression is defined.
In this work we focus on the clustering of RNA-seq expression profiles using finite mixtures of Poisson loglinear models, where the mean of each component is parameterized to account for several specificities of RNA-seq data, including normalization factors for differences in library size among samples. This mixture model, implemented in the R package HTSCluster, provides a straightforward procedure for parameter estimation, and model selection is performed using a data-driven method to calibrate a penalized criterion, known as the slope heuristics. We illustrate the use of this approach through a co-expression analysis of a set of RNA-seq data from the modENCODE project, which aimed to characterize expression dynamics over the life-cycle of Drosophila melanogaster. Finally, we will briefly discuss several visualization tools that are useful for exploring model diagnostics and the per-cluster expression dynamics identified using our approach.
Rau, A., Maugis-Rabusseau, C., Martin-Magniette, M.-L., Celeux, G. (2015) Co-expression analysis of high-throughput transcriptome sequencing data with Poisson mixture models. Bioinformatics, 31(9): 1420-1427.

21 avril 2016 (14h) Alex Karagrigoriou, University of the Aegean, Greece On the accuracy of asymptotic results of gof tests based on divergence measures. The distance or divergence measures which provide ways to measure the distance between two distributions can be used for the study of hypothesis testing problems. The conclusions drawn are based on the X2 distribution which is the asymptotic distribution of the divergence measure (under the null hypothesis) with appropriate degrees of freedom. This asymptotic result is the main subject of this work. Specifically, the presentation deals with the degree of precision of the asymptotic distribution. The investigation focuses on comparing the moments of the asymptotic distribution with those of the actual distribution of finite sample sizes. Thus, for various sample sizes using Taylor expansions we approximate as many moments of the exact distribution as it is mathematically possible and compare them with the corresponding moments of the asymptotic distribution. Our goal is to determine the range of the parameter involved for which the distance (divergence) between the moments compared is minimum. Simulation results reveal the behavior and applicability of popular divergence measures.

17 mars 2016 (10h15) Julien Chiquet (INRA) Fast tree inference with weighted fusion penalties Given a data set with many features observed in a large number of conditions, it is desirable to fuse and aggregate conditions which are similar to ease the interpretation and extract the main characteristics of the data. This paper presents a multidimensional fusion penalty framework to address this question when the number of conditions is large. If the fusion penalty is encoded by an $\ell_q-$norm, we prove for uniform weights that the path of solutions is a tree which is suitable for interpretability. For the $\ell_1$ and $\ell_\infty-$norms, the path is piecewise linear and we derive a homotopy algorithm to recover exactly the whole tree structure. For weighted $\ell_1-$fusion penalties, we demonstrate that distance-decreasing weights lead to balanced tree structures. For a subclass of these weights that we call "exponentially adaptive", we derive an $O(n\log n)$ homotopy algorithm and we prove an asymptotic oracle property. This guarantees that we recover the underlying structure of the data efficiently both from a statistical and a computational point of view. We provide a fast implementation of the homotopy algorithm for the single feature case, as well as an efficient embedded cross-validation procedure that takes advantage of the tree structure of the path of solutions. Our proposal outperforms its competing procedures on simulations both in terms of timings and prediction accuracy. As an example we consider phenotypic data: given one or several traits, we reconstruct a balanced tree structure and assess its agreement with the known taxonomy.

10 mars 2016 (10h15, séance commune avec le GT Théorie ergodique et Probabilités) Yasumasa Matsuda (Faculté d'Economie, Univ. Tohoku, Japon) CARMA random fields We define an isotropic Lévy-driven CARMA$(p,q)$ random field on $\mathbb{R}^n$ as the integral of an isotropic CARMA kernel with respect to a Lévy sheet. Such fields constitute a parametric family characterized by an autoregressive polynomial and a moving average polynomial having zeros in both the left and right complex half-planes. They extend the well-balanced Ornstein-Uhlenbeck process of Schnurr and Woerner (2011) to a well-balanced CARMA process in one dimension (with a much richer class of autocovariance functions) and to an isotropic CARMA random field on $\mathbb{R}^n$ for $n>1$. We derive second-order properties of these random fields and find that the CAR(1) fields constitute a subclass of the well known Matèrn class. If the driving Lévy sheet is compound Poisson it is a trivial matter to simulate the corresponding random field on any $n-$dimensional hypercube. A method for joint estimation of the CARMA kernel parameters and knot locations is proposed for compound-Poisson-driven fields and is illustrated by applications to simulated data and Tokyo land-price data.

25 février 2016 (10h15) Mélina Gallopin (Labo. MAP5, Univ. Paris Descartes) Classification et inférence de réseaux pour les données RNA-seq Dans un premier temps, je présenterai les données RNA-seq et les difficultés statistiques qu’elles présentent, liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de ma présentation portera sur la classification à l'aide de modèles de mélange dont l'objectif est la détection de modules de gènes co-exprimés. Après avoir discuté des choix de modélisation des données RNA-seq, je présenterai un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. La seconde partie de ma présentation portera sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Après avoir discuté des choix de modélisation des données RNA-seq, je me concentrerai sur le modèle graphique gaussien et je présenterai une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien.

21 janvier 2016 (10h15) Benjamin Guedj (équipe MODAL, INRIA Lille) Apprentissage statistique en grande dimension : le point de vue PAC-bayésien La théorie statistique de l'apprentissage s'est affirmée en quelques décennies comme une discipline extrêmement dynamique, empruntant tant à la statistique mathématique (inégalités de concentration, approche oracle, ...) qu'à l'optimisation (méthodes de descentes de gradient stochastique, ...) et au machine learning (percetron de Rosenblatt, deep learning, ...), et s'enrichit de nombreuses méthodes pour lesquelles existent des garanties mathématiques et algorithmiques. Je m'attacherai dans cet exposé à présenter l'une d'elle, la théorie PAC-bayésienne introduite par Shawe-Taylor et Williamson (1997) et McAllester (1998,1999) et formalisée par Catoni (2003,2004,2007), qui consiste à analyser de manière PAC (probably approximately correct) des estimateurs quasi-bayésiens. Après un tour d'horizon du domaine et une synthèse des résultats théoriques et algorithmiques existants, cet exposé présentera en particulier deux travaux récents (Guedj & Robbiano, http://arxiv.org/abs/1511.02729; Alquier & Guedj, http://arxiv.org/abs/1601.01345) sur l'extension de la théorie PAC-bayésienne au ranking en grande dimension et à la factorisation de grandes matrices aléatoires, respectivement.

3 décembre 2015 (10h20, séance commune avec le GT Théorie ergodique et Probabilités) Herold Dehling Robust tests for structural breaks in long-range dependent time series. In our talk, we will present some recent results on robust change-point tests for long-range dependent (LRD) time series. The test statistics are motivated by tests for the two-sample problem, such as the Wilcoxon rank sum test. More generally, we will study test statistics of the form $$T_n=\max_{1\leq k\leq n−1}\left \|\sum_{i=1}^k\sum_{j=k+1}^nh(X_i,X_j)\right\|,$$ where $h(x,y)$ is some given kernel function. We will derive the asymptotic distribution of Tn, both under the null hypothesis as well as under local alternatives. We compare the power of some standard tests, such as the CUSUM and the Wilcoxon change-point test, both asymptotically as well as for finite samples. For Gaussian data, the asymptotic relative efficiency of the CUSUM and the Wilcoxon test is 1, while for heavy tailed data, the Wilcoxon test is superior to the CUSUM test.

3 décembre 2015 (13h30, séance commune avec le GT Théorie ergodique et Probabilités) Alfredas Rackauskas Central limit theorem for summability transforms of linear processes. In the talk we shall discuss some asymptotic results for summation transforms of iid random variables and present some new results including a central limit theorem for summation methods of short memory linear processes as well a central limit theorem for summation methods of long memory linear processes. Some extensions to functional random elements shall be presented too.

26 novembre 2015 (10h30) Sarah Lemler (Labo. MAS, Ecole Centrale Supélec) Estimation de l’intensité d’un processus de comptage en grande dimension Nous cherchons à estimer/apprendre le lien entre des covariables en grande dimension et l’intensité avec laquelle des événements se produisent (décès, crises d’asthme, achats, notes de blogs, sinistres...). Pour répondre à cette problématique, nous proposons deux approches pour estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables.
D’abord, nous considérons une intensité non-paramétrique et nous l’estimons par le meilleur modèle de Cox. Nous considérons alors une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres inconnus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non-asymptotiques pour l’estimateur Lasso obtenu.
Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski.
Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.

19 novembre 2015 (10h30) Sandra Plancade (unité MIAJ, INRA Jouy) NMF (Nonnegative Matrix Factorization) pour l'analyse de voies métaboliques à partir de données métagénomiques La NMF est une technique de réduction de dimension où une matrice à coefficients positifs est approchée par un produit de matrices également à coefficient positifs. Dans des contextes où les variables sont supposées avoir un effet additif, la contrainte de positivité fournit des résultats plus interprétables en termes de modélisation que d'autres techniques comme l'ACP. Au sein du projet de biologie/modélisation MetaFun, nous avons utilisé des techniques de NMF pour l'analyse de données métagénomiques liées à la digestion des fibres dans l'intestin. Les données métagénomiques sont des données génomiques (ADN) mesurées sur une population de bactéries dans un milieu donné (ici l'intestin). Dans cette présentation, j’exposerai tout d'abord des aspects généraux de la NMF (algorithme, choix de la dimension du modèle réduit, etc) et de ses applications en génomique. Je présenterai ensuite les données et problématiques du projet, et l'approche de NMF originale que nous avons développée et qui combine analyse de données et inclusion de connaissances biologiques.

12 novembre 2015 (10h30) Charlotte Dion (LJK, Univ. de Grenoble et MAP5, Univ. Paris Descartes) Estimation non-paramétrique dans des modèles d'équations différentielles stochastiques à effets aléatoires. Les équations différentielles stochastiques avec effets aléatoires sont utiles pour décrire des processus en temps continu dont les répétitions ont une forme fonctionnelle commune mais présentent une grande variabilité entre chaque observation. C'est le cas des données de potentiel neuronal par exemple. Les différences entres les observations sont alors dues à la réalisation du mouvement Brownien et de l'effet aléatoire. Mieux connaître ces effets aléatoires et notamment leur loi, nous permettrait donc d'avoir une meilleure modélisation du phénomène observé. Dans cet exposé nous traiterons d'abord du modèle d'Ornstein-Uhlenbeck à un effet aléatoire dans le coefficient de dérive. A partir de l'observation de N trajectoires observées de manière continue sur un intervalle de temps [0,T], nous verrons comment estimer la densité des effets aléatoires en construisant un estimateur adaptatif à partir d'une méthode introduite par Goldenshluger et Lepski (2011). Puis nous étudierons le cas de deux effets aléatoires. Nous traiterons en particulier le modèle de Cox-Ingersoll-Ross à effets mixtes. Nous présenterons les résultats d'estimation de la densité bivariée des effets aléatoires.

22 octobre 2015 (10h30) Victor Konev (Univ. de Tomsk) Detecting a change in regression: nonparametric CUSUM The talk considers the problem of optimal detection of abrupt changes in a stochastic regression with possibly dependent values and unknown distributions of errors. The key idea of our approach is to retain the CUSUM rule but replace the unknown in it the unknown likelihood ratio statistics by a special system of statistics computed from observations. To construct such statistics we use the LSE method and apply a sequential sampling scheme which measures time in terms of accumulated Lulbuck-Leibler divergence. We show that such procedure insures the logarithmic asymptotic upper bound for the detection delay.

15 octobre 2015 (10h30) Clément Levrard (LPMA, Univ. Paris Diderot 7) Reconstruction simpliciale de variétés via l'estimation des plans tangents Je présenterai une procédure de reconstruction de variétés développée par l'équipe Geometrica de INRIA (le complexe de Delaunay tangentiel), et montrerai, dans un cadre statistique, plusieurs de ses propriétés en tant qu'estimateur d'une variété source. Une attention particulière sera portée au lien entre vitesse d'estimation des plans tangents et vitesse de convergence du Delaunay tangentiel, ainsi que sur la robustesse à un certain type de bruit.