M. Alain Celisse

Professeur des universités

Mathématiques appliquées et applications des mathématiques

Affectation(s)

SAMM : Statistique, analyse, modélisation multidisciplinaire (EA 4543)

UFR 27 : Mathématiques et informatique

Domaines d'expertise

Statistical learning Data Science Deep Learning and AI

À propos de moi

I am Professor in Statistical / Machine learning and Data Science

    Affiliation:

    • Paris 1 Panthéon-Sorbonne University
    • SAMM (Statistics, Analysis, Models, and Mathematics), EA 4543
    • UFR 27: Mathematics and Informatics

    Mailing address:

          Centre PMF
          Office: C-20.07
          SAMM - Université Paris 1 Panthéon-Sorbonne
          90, rue de Tolbiac
          75634 PARIS CEDEX 13 - FRANCE

    E-mail: alain [dot] celisse (At) univ-paris1 {dot} fr

    Duties:

    • Co-organization of the weekly SAMM seminar
    • Member of the Una Europa project

     

    Scientific interests:

    • My main background is in Mathematics applied to Statistical/Machine learning.
    • I design learning strategies and also provide the theoretical analysis of their statistical performance, with a particular emphasis on scalable approaches in the context of massive data (Big Data).
    • Regarding this aspect, a crucial question is to understand the trade-off between the available computational resources and the statistical precision one can achieve.
    • Applications from various fields such as biology, industry or cyber-security are also welcome.

     

    Recherche

    Direction(s) de recherche

    Estimator/Model selection

    Goal: Choose among several candidate estimators/models the best one.

    • Penalized (random) criteria: AIC-or BIC-like penalties
    • Regularization (convex relaxation): L1 (Lasso), L2 (Ridge)
    • Cross-validation: Leave-one-out, Leave-p-out, V-fold

    Two possible perspectives:

    • Identification: recover the "true model" (if any)
    • Estimation/prediction: recover the model with the smallest generalization error

     


     

    Change-points detection, anomaly/outlier detection

    Data: Time-series of "objects" which can be a sequence of high-dimensional measurements from (dependent) sensors, or structured objects such as texts or audio/video streams.
    Type of change: Changes in any (prescribed or not) features of the distribution along the time

    • Offline: Change-points detection, segmentation
    • Online: Outlier detection, anomaly detection

    Asset: Does not require any distributional assumption (no parametric model)

     


    Reproducing kernels

    Reproducing kernels, mean embedding, Minimum Mean Discrepancy (MMD), neighboring graph between objects, combination of heterogeneous data of different nature

    Rough interpretation:

    • Reproducing kernels can be thought of as a "similarily measure" between objects. The more similar a pair of objects, the larger the value of the kernel evaluated at this pair of objects.

    Interest:

    • Reproducing kernels can deal with objects which are not necessarily vetcors (DNA sequences, graphs, video streams,...).
    • As long as such a similarity measure between objects does exist, then these objects can be compared. For instance, a neighboring graph can be built from this pairwise proximity measure.
    • Simple combinations of kernels can help combining descriptors (of an individual) although they are of different kinds

     


     

    Parameter estimation/approximation techniques

    Variational algorithm in the Stochastic Block Model (SBM), Low-rank matrix approximation, Random Fourier features, approximate cross-validation

    Main interest and difficulty:

    • Whereas an estimator can be costly to compute (or even not achievable!), replacing such an estimator by an approximation can greatly reduce the computation time.
    • Several approximating strategies often exist. Choosing one of them is usually a difficult task although a large number of them perform well in practice.

     


    Trade-off between Computation resources and Statistical precision

    Motivation:

    • Most estimators are defined as minimizers of an optimization problem.
    • Optimization algorithms are mainly used to output an (approximate) evaluation
    • Numerous optimization algorithms are itertive ones (Gradient descent, Stocastic gradient descent, EM-algorithm, coordinate descent,...)

    Goal:

    • Reducing the computational burden (time and memory), while keeping a reliable statistical performance
    • Designing an early stopping rule, that is a data-driven stopping rule indicating when to stop the iterative optimization process

     


    Stability of learning algorithms and concentration inequalities

     

    Strategy:

    • Introduce a new notion of stability for learning algorithms
    • Exploit connections between this notion of stability and concentration inequalities
    • Derive (tighter) concentration results for classical learning algorithms (Ridge regression, k-Nearest Neighbors, Nadaraya-Watson estimators,...)

     


    Applications

    • Biostatistics:
    1. Multiple testing: Identifying genes/SNPs that are differentially expressed between two experimental conditions.
    2. Change-points detection: Detecting copy number variations along the genome, including variations of the allelic ratio.
    3. Lasso-like strategies: Supervised selection of features (SNPs for instance) that are related to a disease (cancer) in a high-dimensional context by exploiting the existing between-features redundancy.
    • Industry:

    In a supervised framework:

    1. Identifying weak events related to some failures occurrences.
    2. Designing data-driven rules allowing for detecting weak events online.

    Publications

    Publications HAL

    2022

    Article dans une revue

    titre
    MLGL: An R package implementing correlated variable selection by hierarchical clustering and group-Lasso
    auteur
    Quentin Grimonprez, Samuel Blanck, Alain Celisse, Guillemette Marot
    article
    Journal of Statistical Software, University of California, Los Angeles, In press
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01857242/file/MLGL2022.pdf BibTex

    2020

    Communication dans un congrès

    titre
    SYSBOOSTER, application of Data Science to surveillance of systems for detection or anticipation of dysfunctions or failures of systems
    auteur
    Alain Celisse, Olivier Gauriau, Margot Corréard, Jean-François Bouin, Lennart Priester, Ronald Naumann, Emmanuel Arbaretier, Michel Kaczmarek, Uwe Schmietainski, Hagen Friedrich
    article
    Congrès Lambda Mu 22 « Les risques au cœur des transitions » (e-congrès) - 22e Congrès de Maîtrise des Risques et de Sûreté de Fonctionnement, Institut pour la Maîtrise des Risques, Oct 2020, Le Havre (e-congrès), France. pp.1-9
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-03483963/file/LM22_COM_FULL_493240_Emmanuel_Arbaretier_20200716_308700.pdf BibTex

    Pré-publication, Document de travail

    titre
    Analyzing the discrepancy principle for kernelized spectral filter learning algorithms
    auteur
    Alain Celisse, Martin Wahl
    article
    2020
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-02548917/file/draft.pdf BibTex

    2019

    Article dans une revue

    titre
    A Kernel Multiple Change-point Algorithm via Model Selection
    auteur
    Sylvain Arlot, Alain Celisse, Zaid Harchaoui
    article
    Journal of Machine Learning Research, Microtome Publishing, 2019, 20 (162), pp.1--56
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00671174/file/kernelchpt_hal_v3.pdf BibTex

    Communication dans un congrès

    titre
    Smoothed discrepancy principle as an early stopping rule in RKHS
    auteur
    Yaroslav Averyanov, Alain A. Celisse
    article
    51es Journées de Statistique, Jun 2019, Nancy, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-02427696/file/sfds2019-1.pdf BibTex

    2018

    Article dans une revue

    titre
    New efficient algorithms for multiple change-point detection with reproducing kernels
    auteur
    Alain Celisse, Guillemette Marot, Pierre-Jean Male, Guillem Rigaill
    article
    Computational Statistics and Data Analysis, Elsevier, 2018, 128, pp.200-220. ⟨10.1016/j.csda.2018.07.002⟩
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex
    titre
    Theoretical analysis of cross-validation for estimating the risk of the k-nearest neighbor classifier
    auteur
    Alain Celisse, Tristan Mary-Huard
    article
    Journal of Machine Learning Research, Microtome Publishing, 2018, 19, pp.1-54
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.inrae.fr/hal-02621332/file/2018_Celisse_Journal%20of%20Machine%20Learning%20Researchpdf_1 BibTex

    HDR

    titre
    Contributions à la calibration d'algorithmes d'apprentissage : Validation-croisée et détection de ruptures
    auteur
    Alain Celisse
    article
    Statistics [math.ST]. Université de Lille, 2018
    typdoc
    HDR
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/tel-02050179/file/HDR_manuscript.pdf BibTex

    2017

    Communication dans un congrès

    titre
    Compromis précision - temps de calcul appliqué au problème de régression linéaire
    auteur
    Maxime Brunin, Christophe Biernacki, Alain Celisse
    article
    2017 - 49e Journées de Statistique de la SFdS, May 2017, Avignon, France. pp.1-6
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01653754/file/subm266.pdf BibTex
    titre
    About Two Disinherited Sides of Statistics: Data Units and Computational Saving
    auteur
    Christophe Biernacki, Alexandre Lourme, Maxime Brunin, Alain A. Celisse
    article
    Statlearn 2017, Apr 2017, Lyon, France. pp.1-56
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01665905/file/slides_biernacki_statlearn.pdf BibTex

    2016

    Communication dans un congrès

    titre
    Computation time/accuracy trade-off and linear regression
    auteur
    Christophe Biernacki, Maxime Brunin, Alain Celisse
    article
    9th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2016, ERCIM 2016), Dec 2016, Séville, Spain
    typdoc
    Communication dans un congrès
    Accès au bibtex
    BibTex
    titre
    Compromis précision-temps de calcul appliqué au problèeme de détection de ruptures
    auteur
    Maxime Brunin, Christophe Biernacki, Alain Celisse
    article
    48èmes Journées de Statistique de la SFdS, May 2016, Montpellier, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01420669/file/submission_54.pdf BibTex

    Pré-publication, Document de travail

    titre
    New efficient algorithms for multiple change-point detection with kernels
    auteur
    Alain Celisse, Guillemette Marot, Morgane Pierre-Jean, Guillem Rigaill
    article
    2016
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01413230/file/article.pdf BibTex
    titre
    Stability revisited: new generalisation bounds for the Leave-one-Out
    auteur
    Alain Celisse, Benjamin Guedj
    article
    2016
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01355365/file/main.pdf BibTex

    2015

    Communication dans un congrès

    titre
    Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
    auteur
    Quentin Grimonprez, Alain Celisse, Guillemette Marot
    article
    Sixièmes rencontres des jeunes statisticiens, SFdS, Aug 2015, Le Teich, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01238253/file/rjs-res.pdf BibTex
    titre
    Compromis précision-temps de calcul et détection de ruptures
    auteur
    Maxime Brunin, Christophe Biernacki, Alain Celisse
    article
    6ème Rencontres des Jeunes Statisticiens, Aug 2015, Le Teich, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01238276/file/Brunin-RJS2015.pdf BibTex
    titre
    Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
    auteur
    Quentin Grimonprez, Alain Celisse, Guillemette Marot
    article
    47èmes Journées de Statistique, Jun 2015, Lille, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01238248/file/sfds.pdf BibTex

    Pré-publication, Document de travail

    titre
    Theoretical analysis of cross-validation for estimating the risk of the k-Nearest Neighbor classifier
    auteur
    Alain Celisse, Tristan Mary-Huard
    article
    2015
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-01185092/file/knn_celisse_maryhuard.pdf BibTex
    titre
    A One-Sample Test for Normality with Kernel Methods
    auteur
    Jérémie Kellner, Alain Celisse
    article
    2015
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01175237/file/EJS%20-%20Kernel%20Norm%20Test.pdf BibTex

    2014

    Article dans une revue

    titre
    MPAgenomics : An R package for multi-patients analysis of genomic markers
    auteur
    Quentin Grimonprez, Alain Celisse, Samuel Blanck, Meyling Cheok, Martin Figeac, Guillemette Marot
    article
    BMC Bioinformatics, BioMed Central, 2014, 15, pp.394. ⟨10.1186/s12859-014-0394-y⟩
    typdoc
    Article dans une revue
    pubmedId
    Pubmed icone : 25495450
    Accès au texte intégral et bibtex
    https://hal.inria.fr/hal-00933614/file/s12859-014-0394-y.pdf BibTex

    Communication dans un congrès

    titre
    High-dimensional test for normality
    auteur
    Jérémie Kellner, Alain Celisse
    article
    Journées des Statistiques, Jun 2014, Rennes, France
    typdoc
    Communication dans un congrès
    Accès au bibtex
    BibTex
    titre
    Analyse multi-patients de données génomiques
    auteur
    Quentin Grimonprez, Alain Celisse, Guillemette Marot
    article
    46e Journées de Statistique, SFDS, Jun 2014, Rennes, France
    typdoc
    Communication dans un congrès
    Accès au bibtex
    BibTex

    Poster

    titre
    Analysis of genomic markers: Make it easy with the R package MPAgenomics
    auteur
    Quentin Grimonprez, Alain Celisse, Guillemette Marot
    article
    SMPGD 2014, Jan 2014, Paris, France. 2014
    typdoc
    Poster
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01091543/file/SMPGD.pdf BibTex

    Rapport

    titre
    New goodness-of-fit tes for normality in RKHS
    auteur
    Jérémie Kellner, Alain Celisse
    article
    [Research Report] Inria. 2014
    typdoc
    Rapport
    Accès au bibtex
    BibTex

    Pré-publication, Document de travail

    titre
    New normality test in high dimension with kernel methods
    auteur
    Jérémie Kellner, Alain Celisse
    article
    2014
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00977839/file/rkhsgauss-preprint.pdf BibTex

    2013

    Brevet

    titre
    Détection de ruptures à partir de méthodes à noyaux
    auteur
    Morgane Pierre-Jean, Guillemette Marot, Guillem Rigaill, Alain Celisse
    article
    United Kingdom, Patent n° : 0000000. 2013
    typdoc
    Brevet
    Accès au bibtex
    BibTex
    titre
    Change-point detection with kernel methods : application to DNA copy number signals
    auteur
    Morgane Pierre-Jean, Guillemette Marot, Rigaill Guillem, Alain Celisse
    article
    France, Patent n° : 00000000000000. 2013
    typdoc
    Brevet
    Accès au bibtex
    BibTex

    2012

    Article dans une revue

    titre
    Consistency of maximum-likelihood and variational estimators in the stochastic block model
    auteur
    Alain A. Celisse, Jean-Jacques J.-J. Daudin, Laurent L. Pierre
    article
    Electronic Journal of Statistics , Shaker Heights, OH : Institute of Mathematical Statistics, 2012, 6, pp.1847-1899. ⟨10.1214/12-EJS729⟩
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01000059/file/EJS729_1.pdf BibTex

    2011

    Article dans une revue

    titre
    Exact Cross-Validation for k-NN in binary classification, applications to passive and active learning
    auteur
    Tristan Mary-Huard, Alain Celisse
    article
    Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, 2011, 152 (3), pp.83-97
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex
    titre
    Exact Cross-Validation for kNN and applications to passive and active learning in classification
    auteur
    Alain A. Célisse, Tristan Mary-Huard
    article
    Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, 2011, 152 (3), pp.83-97
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01000024/file/2011CelisseSFDS_1.pdf BibTex

    Pré-publication, Document de travail

    titre
    Consistency of maximum-likelihood and variational estimators in the Stochastic Block Model
    auteur
    Alain Celisse, J.-J. Daudin, Laurent Pierre
    article
    2011
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00593644/file/SBM_Var_MLE_EJS.pdf BibTex

    2010

    Article dans une revue

    titre
    Segmentation of the mean of heteroscedastic data via cross-validation
    auteur
    Sylvain Arlot, Alain Celisse
    article
    Statistics and Computing, Springer Verlag (Germany), 2010, 21 (4), ⟨10.1007/s11222-010-9196-x⟩
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00363627/file/chpt.pdf https://hal.archives-ouvertes.fr/hal-00363627/file/chpt_supp.pdf BibTex
    titre
    A cross-validation based estimation of the proportion of true null hypotheses
    auteur
    Alain Célisse, Stephane Robin
    article
    Journal of Statistical Planning and Inference, Elsevier, 2010, 140 (11), pp.3132-3147. ⟨10.1016/j.jspi.2010.04.014⟩
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex
    titre
    A survey of cross-validation procedures for model selection
    auteur
    Sylvain Arlot, Alain Celisse
    article
    Statistics Surveys, Institute of Mathematical Statistics (IMS), 2010, 4, pp.40--79. ⟨10.1214/09-SS054⟩
    typdoc
    Article dans une revue
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00407906/file/preprintLilleArlotCelisse.pdf BibTex

    Communication dans un congrès

    titre
    Properties of variational estimates of a mixture model for random graphs
    auteur
    Jean-Jacques Daudin, Alain Célisse, Steven Gazal, Stephane Robin
    article
    ECCS10 European Conference on Complex Systems, Sep 2010, Lisbonne, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01197575/file/51657_20120206120148426_1.pdf BibTex
    titre
    Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
    auteur
    Alain Célisse, Jean-Jacques Daudin
    article
    42. Journées de Statistique, May 2010, Marseille, France
    typdoc
    Communication dans un congrès
    Accès au bibtex
    BibTex
    titre
    Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
    auteur
    Alain Celisse, Jean-Jacques Daudin
    article
    42èmes Journées de Statistique, 2010, Marseille, France, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/inria-00494669/file/p107.pdf BibTex

    2009

    Article dans une revue

    titre
    Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
    auteur
    Mickaël Guedj, Stephane Robin, Alain Célisse, Grégory Nuel
    article
    BMC Bioinformatics, BioMed Central, 2009, 10, pp.1-12. ⟨10.1186/1471-2105-10-84⟩
    typdoc
    Article dans une revue
    pubmedId
    Pubmed icone : 19291295
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-01197596/file/2009RobinBMC_1.pdf BibTex
    titre
    A semi-parametric kernel-based approach to local False Discovery Rate estimations
    auteur
    Gregory Nuel, Alain Celisse, Mickaël Guedj, Stéphane Robin
    article
    BMC Bioinformatics, BioMed Central, 2009, 10, pp.84
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex
    titre
    Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
    auteur
    M. Guedj, S. Robin, Alain Celisse, Gregory Nuel
    article
    BMC Bioinformatics, BioMed Central, 2009, 10, pp.84
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex

    Communication dans un congrès

    titre
    Détection de ruptures dans la moyenne d'un processus hétéroscédastique par validation-croisée
    auteur
    Sylvain Arlot, Alain Celisse
    article
    41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inria.fr/inria-00386677/file/p116.pdf BibTex

    2008

    Article dans une revue

    titre
    Nonparametric density estimation by exact leave-p-out cross-validation
    auteur
    Alain Célisse, Stephane Robin
    article
    Computational Statistics and Data Analysis, Elsevier, 2008, 52 (5), pp.2250-2368. ⟨10.1016/j.csda.2007.10.002⟩
    typdoc
    Article dans une revue
    Accès au bibtex
    BibTex

    Communication dans un congrès

    titre
    Segmentation in the mean of heteroscedastic data via resampling or cross-validation
    auteur
    Alain Celisse, Sylvain Arlot
    article
    Workshop Change-Point Detection Methods and Applications, Sep 2008, Paris, France
    typdoc
    Communication dans un congrès
    Accès au texte intégral et bibtex
    https://hal.inrae.fr/hal-02816806/file/158250_20120312114058838_1.pdf BibTex

    Thèse

    titre
    Model selection via cross-validation in density estimation, regression, and change-points detection
    auteur
    Alain Celisse
    article
    Mathematics [math]. Université Paris Sud - Paris XI, 2008. English
    typdoc
    Thèse
    Accès au texte intégral et bibtex
    https://tel.archives-ouvertes.fr/tel-00346320/file/PhDManuscript.pdf BibTex
    titre
    Model selection via cross-validation in density estimation, regression, and change-point detection
    auteur
    Alain Celisse
    article
    Mathematics [math]. Université Paris Sud - Paris 11, 2008. English
    typdoc
    Thèse
    Accès au bibtex
    BibTex

    Pré-publication, Document de travail

    titre
    Optimal cross-validation in density estimation
    auteur
    Alain Celisse
    article
    2008
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00337058/file/cvhistoAOS_HAL.pdf BibTex

    2007

    Pré-publication, Document de travail

    titre
    A leave-p-out based estimation of the proportion of null hypotheses
    auteur
    Alain Celisse, Stéphane Robin
    article
    2007
    typdoc
    Pré-publication, Document de travail
    Accès au texte intégral et bibtex
    https://hal.archives-ouvertes.fr/hal-00270908/file/pi0estimation.pdf BibTex