M. Alain Celisse
Professeur des universités
Mathématiques appliquées et applications des mathématiques
Affectation(s)
SAMM : Statistique, analyse, modélisation multidisciplinaire (UR 4543)
UFR 27 : Mathématiques et informatique
Domaines d'expertise
Statistical learning Data Science Deep Learning and AI
À propos de moi
I am Professor in Statistical / Machine learning and Data Science
Affiliation:
- Paris 1 Panthéon-Sorbonne University
- SAMM (Statistics, Analysis, Models, and Mathematics), EA 4543
- UFR 27: Mathematics and Informatics
Mailing address:
Centre PMFOffice: C-20.07
SAMM - Université Paris 1 Panthéon-Sorbonne
90, rue de Tolbiac
75634 PARIS CEDEX 13 - FRANCE
E-mail: alain [dot] celisse (At) univ-paris1 {dot} fr
Duties:
- Co-organization of the weekly SAMM seminar
- Member of the Una Europa project
Scientific interests:
- My main background is in Mathematics applied to Statistical/Machine learning.
- I design learning strategies and also provide the theoretical analysis of their statistical performance, with a particular emphasis on scalable approaches in the context of massive data (Big Data).
- Regarding this aspect, a crucial question is to understand the trade-off between the available computational resources and the statistical precision one can achieve.
- Applications from various fields such as biology, industry or cyber-security are also welcome.
Recherche
Direction(s) de recherche
Estimator/Model selection
![](https://pro.univ-lille.fr/fileadmin/user_upload/pages_pros/alain_celisse/CrossVal.jpg)
Goal: Choose among several candidate estimators/models the best one.
- Penalized (random) criteria: AIC-or BIC-like penalties
- Regularization (convex relaxation): L1 (Lasso), L2 (Ridge)
- Cross-validation: Leave-one-out, Leave-p-out, V-fold
Two possible perspectives:
- Identification: recover the "true model" (if any)
- Estimation/prediction: recover the model with the smallest generalization error
Change-points detection, anomaly/outlier detection
![](https://pro.univ-lille.fr/fileadmin/_processed_/9/2/csm_fig_exampleSignal_equalMean_equalVar_withRupt_8f360f18d6.jpg)
Data: Time-series of "objects" which can be a sequence of high-dimensional measurements from (dependent) sensors, or structured objects such as texts or audio/video streams.
Type of change: Changes in any (prescribed or not) features of the distribution along the time
- Offline: Change-points detection, segmentation
- Online: Outlier detection, anomaly detection
Asset: Does not require any distributional assumption (no parametric model)
Reproducing kernels
![](https://pro.univ-lille.fr/fileadmin/_processed_/d/0/csm_RKHSsmall_4109307e69.jpg)
Reproducing kernels, mean embedding, Minimum Mean Discrepancy (MMD), neighboring graph between objects, combination of heterogeneous data of different nature
Rough interpretation:
- Reproducing kernels can be thought of as a "similarily measure" between objects. The more similar a pair of objects, the larger the value of the kernel evaluated at this pair of objects.
Interest:
- Reproducing kernels can deal with objects which are not necessarily vetcors (DNA sequences, graphs, video streams,...).
- As long as such a similarity measure between objects does exist, then these objects can be compared. For instance, a neighboring graph can be built from this pairwise proximity measure.
- Simple combinations of kernels can help combining descriptors (of an individual) although they are of different kinds
Parameter estimation/approximation techniques
![](https://pro.univ-lille.fr/fileadmin/_processed_/d/0/csm_RunTimeExactAndApprox_61a3d51ecf.png)
![](https://pro.univ-lille.fr/fileadmin/_processed_/b/7/csm_Mem_KSeg_ECP_77be828a6b.gif)
Variational algorithm in the Stochastic Block Model (SBM), Low-rank matrix approximation, Random Fourier features, approximate cross-validation
Main interest and difficulty:
- Whereas an estimator can be costly to compute (or even not achievable!), replacing such an estimator by an approximation can greatly reduce the computation time.
- Several approximating strategies often exist. Choosing one of them is usually a difficult task although a large number of them perform well in practice.
Trade-off between Computation resources and Statistical precision
![](https://pro.univ-lille.fr/fileadmin/_processed_/e/5/csm_truerisk_756fdbd1f6.jpg)
Motivation:
- Most estimators are defined as minimizers of an optimization problem.
- Optimization algorithms are mainly used to output an (approximate) evaluation
- Numerous optimization algorithms are itertive ones (Gradient descent, Stocastic gradient descent, EM-algorithm, coordinate descent,...)
Goal:
- Reducing the computational burden (time and memory), while keeping a reliable statistical performance
- Designing an early stopping rule, that is a data-driven stopping rule indicating when to stop the iterative optimization process
Stability of learning algorithms and concentration inequalities
Strategy:
- Introduce a new notion of stability for learning algorithms
- Exploit connections between this notion of stability and concentration inequalities
- Derive (tighter) concentration results for classical learning algorithms (Ridge regression, k-Nearest Neighbors, Nadaraya-Watson estimators,...)
Applications
![](https://pro.univ-lille.fr/fileadmin/user_upload/pages_pros/alain_celisse/snp_2.jpg)
- Biostatistics:
- Multiple testing: Identifying genes/SNPs that are differentially expressed between two experimental conditions.
- Change-points detection: Detecting copy number variations along the genome, including variations of the allelic ratio.
- Lasso-like strategies: Supervised selection of features (SNPs for instance) that are related to a disease (cancer) in a high-dimensional context by exploiting the existing between-features redundancy.
- Industry:
In a supervised framework:
- Identifying weak events related to some failures occurrences.
- Designing data-driven rules allowing for detecting weak events online.
Publications
2024
Pré-publication, Document de travail
- titre
- Détection d'anomalies online basée sur les points de ruptures
- auteur
- Etienne Krönert, Dalila Hattab, Alain Celisse
- article
- 2024
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2023
Article dans une revue
- titre
- MLGL: An R package implementing correlated variable selection by hierarchical clustering and group-Lasso
- auteur
- Quentin Grimonprez, Samuel Blanck, Alain Celisse, Guillemette Marot
- article
- Journal of Statistical Software, 2023, 106 (3), ⟨10.18637/jss.v106.i03⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
Pré-publication, Document de travail
- titre
- Contrôle du FDR pour la détection d'anomalies online
- auteur
- Etienne Krönert, Alain Célisse, Dalila Hattab
- article
- 2023
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2022
Communication dans un congrès
- titre
- Variable selection with Multi-Layer Group Lasso
- auteur
- Guillemette Marot, Quentin Grimonprez, Samuel Blanck, Alain Celisse
- article
- useR! 2022, Jun 2022, Virtual, United States
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2021
Article dans une revue
- titre
- Analyse d'une règle d'arrêt prématuré basée sur le principe de discrépance pour les algorithmes à filtrage spectral
- auteur
- Alain Celisse, Martin Wahl
- article
- Journal of Machine Learning Research, 2021, ⟨10.48550/arXiv.2004.08436⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
2020
Communication dans un congrès
- titre
- SYSBOOSTER, application of Data Science to surveillance of systems for detection or anticipation of dysfunctions or failures of systems
- auteur
- Alain Celisse, Olivier Gauriau, Margot Corréard, Jean-François Bouin, Lennart Priester, Ronald Naumann, Emmanuel Arbaretier, Michel Kaczmarek, Uwe Schmietainski, Hagen Friedrich
- article
- Congrès Lambda Mu 22 « Les risques au cœur des transitions » (e-congrès) - 22e Congrès de Maîtrise des Risques et de Sûreté de Fonctionnement, Institut pour la Maîtrise des Risques, Oct 2020, Le Havre (e-congrès), France. pp.1-9
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2019
Article dans une revue
- titre
- A Kernel Multiple Change-point Algorithm via Model Selection
- auteur
- Sylvain Arlot, Alain Celisse, Zaid Harchaoui
- article
- Journal of Machine Learning Research, 2019, 20 (162), pp.1--56
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
Communication dans un congrès
- titre
- Smoothed discrepancy principle as an early stopping rule in RKHS
- auteur
- Yaroslav Averyanov, Alain A. Celisse
- article
- 51es Journées de Statistique, Jun 2019, Nancy, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2018
Article dans une revue
- titre
- New efficient algorithms for multiple change-point detection with reproducing kernels
- auteur
- Alain Celisse, Guillemette Marot, Pierre-Jean Male, Guillem Rigaill
- article
- Computational Statistics and Data Analysis, 2018, 128, pp.200-220. ⟨10.1016/j.csda.2018.07.002⟩
- typdoc
- Article dans une revue
- Accès au bibtex
-
- titre
- Theoretical analysis of cross-validation for estimating the risk of the k-nearest neighbor classifier
- auteur
- Alain Celisse, Tristan Mary-Huard
- article
- Journal of Machine Learning Research, 2018, 19, pp.1-54
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
HDR
- titre
- Contributions à la calibration d'algorithmes d'apprentissage : Validation-croisée et détection de ruptures
- auteur
- Alain Celisse
- article
- Statistics [math.ST]. Université de Lille, 2018
- typdoc
- HDR
- Accès au texte intégral et bibtex
-
2017
Communication dans un congrès
- titre
- Compromis précision - temps de calcul appliqué au problème de régression linéaire
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 2017 - 49e Journées de Statistique de la SFdS, May 2017, Avignon, France. pp.1-6
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
- titre
- About Two Disinherited Sides of Statistics: Data Units and Computational Saving
- auteur
- Christophe Biernacki, Alexandre Lourme, Maxime Brunin, Alain A. Celisse
- article
- Statlearn 2017, Apr 2017, Lyon, France. pp.1-56
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2016
Communication dans un congrès
- titre
- Computation time/accuracy trade-off and linear regression
- auteur
- Christophe Biernacki, Maxime Brunin, Alain Celisse
- article
- 9th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2016, ERCIM 2016), Dec 2016, Séville, Spain
- typdoc
- Communication dans un congrès
- Accès au bibtex
-
- titre
- Compromis précision-temps de calcul appliqué au problèeme de détection de ruptures
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 48èmes Journées de Statistique de la SFdS, May 2016, Montpellier, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
Poster de conférence
- titre
- Variable selection by exploiting correlation
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- XXVIIIth International Biometric Conference, Jul 2016, Victoria, Canada.
- typdoc
- Poster de conférence
- Accès au texte intégral et bibtex
-
Pré-publication, Document de travail
- titre
- New efficient algorithms for multiple change-point detection with kernels
- auteur
- Alain Celisse, Guillemette Marot, Morgane Pierre-Jean, Guillem Rigaill
- article
- 2016
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
- titre
- Stability revisited: new generalisation bounds for the Leave-one-Out
- auteur
- Alain Celisse, Benjamin Guedj
- article
- 2016
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2015
Communication dans un congrès
- titre
- Compromis précision-temps de calcul et détection de ruptures
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 6ème Rencontres des Jeunes Statisticiens, Aug 2015, Le Teich, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
- titre
- Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- Sixièmes rencontres des jeunes statisticiens, SFdS, Aug 2015, Le Teich, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
- titre
- Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- 47èmes Journées de Statistique, Jun 2015, Lille, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
Pré-publication, Document de travail
- titre
- Theoretical analysis of cross-validation for estimating the risk of the k-Nearest Neighbor classifier
- auteur
- Alain Celisse, Tristan Mary-Huard
- article
- 2015
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
- titre
- A One-Sample Test for Normality with Kernel Methods
- auteur
- Jérémie Kellner, Alain Celisse
- article
- 2015
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2014
Article dans une revue
- titre
- MPAgenomics : An R package for multi-patients analysis of genomic markers
- auteur
- Quentin Grimonprez, Alain Celisse, Samuel Blanck, Meyling Cheok, Martin Figeac, Guillemette Marot
- article
- BMC Bioinformatics, 2014, 15, pp.394. ⟨10.1186/s12859-014-0394-y⟩
- typdoc
- Article dans une revue
- pubmedId
: 25495450
- Accès au texte intégral et bibtex
-
Communication dans un congrès
- titre
- High-dimensional test for normality
- auteur
- Jérémie Kellner, Alain Celisse
- article
- Journées des Statistiques, Jun 2014, Rennes, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
-
- titre
- Analyse multi-patients de données génomiques
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- 46e Journées de Statistique, SFDS, Jun 2014, Rennes, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
-
Poster de conférence
- titre
- Analysis of genomic markers: Make it easy with the R package MPAgenomics
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- SMPGD 2014, Jan 2014, Paris, France. , 2014
- typdoc
- Poster de conférence
- Accès au texte intégral et bibtex
-
Rapport
- titre
- New goodness-of-fit tes for normality in RKHS
- auteur
- Jérémie Kellner, Alain Celisse
- article
- [Research Report] Inria. 2014
- typdoc
- Rapport
- Accès au bibtex
-
Pré-publication, Document de travail
- titre
- New normality test in high dimension with kernel methods
- auteur
- Jérémie Kellner, Alain Celisse
- article
- 2014
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2013
Brevet
- titre
- Détection de ruptures à partir de méthodes à noyaux
- auteur
- Morgane Pierre-Jean, Guillemette Marot, Guillem Rigaill, Alain Celisse
- article
- United Kingdom, Patent n° : 0000000. 2013
- typdoc
- Brevet
- Accès au bibtex
-
- titre
- Change-point detection with kernel methods : application to DNA copy number signals
- auteur
- Morgane Pierre-Jean, Guillemette Marot, Rigaill Guillem, Alain Celisse
- article
- France, Patent n° : 00000000000000. 2013
- typdoc
- Brevet
- Accès au bibtex
-
2012
Article dans une revue
- titre
- Consistency of maximum-likelihood and variational estimators in the stochastic block model
- auteur
- Alain A. Celisse, Jean-Jacques J.-J. Daudin, Laurent L. Pierre
- article
- Electronic Journal of Statistics , 2012, 6, pp.1847-1899. ⟨10.1214/12-EJS729⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
2011
Article dans une revue
- titre
- Exact Cross-Validation for k-NN in binary classification, applications to passive and active learning
- auteur
- Tristan Mary-Huard, Alain Celisse
- article
- Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
- typdoc
- Article dans une revue
- Accès au bibtex
-
- titre
- Exact Cross-Validation for kNN and applications to passive and active learning in classification
- auteur
- Alain A. Célisse, Tristan Mary-Huard
- article
- Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
Pré-publication, Document de travail
- titre
- Consistency of maximum-likelihood and variational estimators in the Stochastic Block Model
- auteur
- Alain Celisse, J.-J. Daudin, Laurent Pierre
- article
- 2011
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2010
Article dans une revue
- titre
- Segmentation of the mean of heteroscedastic data via cross-validation
- auteur
- Sylvain Arlot, Alain Celisse
- article
- Statistics and Computing, 2010, 21 (4), ⟨10.1007/s11222-010-9196-x⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
- titre
- A cross-validation based estimation of the proportion of true null hypotheses
- auteur
- Alain Célisse, Stephane Robin
- article
- Journal of Statistical Planning and Inference, 2010, 140 (11), pp.3132-3147. ⟨10.1016/j.jspi.2010.04.014⟩
- typdoc
- Article dans une revue
- Accès au bibtex
-
- titre
- A survey of cross-validation procedures for model selection
- auteur
- Sylvain Arlot, Alain Celisse
- article
- Statistics Surveys, 2010, 4, pp.40--79. ⟨10.1214/09-SS054⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
-
Communication dans un congrès
- titre
- Properties of variational estimates of a mixture model for random graphs
- auteur
- Jean-Jacques Daudin, Alain Célisse, Steven Gazal, Stephane Robin
- article
- ECCS10 European Conference on Complex Systems, Sep 2010, Lisbonne, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
- titre
- Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
- auteur
- Alain Célisse, Jean-Jacques Daudin
- article
- 42. Journées de Statistique, May 2010, Marseille, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
-
- titre
- Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
- auteur
- Alain Celisse, Jean-Jacques Daudin
- article
- 42èmes Journées de Statistique, 2010, Marseille, France, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2009
Article dans une revue
- titre
- A semi-parametric kernel-based approach to local False Discovery Rate estimations
- auteur
- Gregory Nuel, Alain Celisse, Mickaël Guedj, Stéphane Robin
- article
- BMC Bioinformatics, 2009, 10, pp.84
- typdoc
- Article dans une revue
- Accès au bibtex
-
- titre
- Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
- auteur
- Mickaël Guedj, Stephane Robin, Alain Célisse, Grégory Nuel
- article
- BMC Bioinformatics, 2009, 10, pp.1-12. ⟨10.1186/1471-2105-10-84⟩
- typdoc
- Article dans une revue
- pubmedId
: 19291295
- Accès au texte intégral et bibtex
-
- titre
- Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
- auteur
- M. Guedj, S. Robin, Alain Celisse, Gregory Nuel
- article
- BMC Bioinformatics, 2009, 10, pp.84
- typdoc
- Article dans une revue
- Accès au bibtex
-
Communication dans un congrès
- titre
- Détection de ruptures dans la moyenne d'un processus hétéroscédastique par validation-croisée
- auteur
- Sylvain Arlot, Alain Celisse
- article
- 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
2008
Article dans une revue
- titre
- Nonparametric density estimation by exact leave-p-out cross-validation
- auteur
- Alain Célisse, Stephane Robin
- article
- Computational Statistics and Data Analysis, 2008, 52 (5), pp.2250-2368. ⟨10.1016/j.csda.2007.10.002⟩
- typdoc
- Article dans une revue
- Accès au bibtex
-
Communication dans un congrès
- titre
- Segmentation in the mean of heteroscedastic data via resampling or cross-validation
- auteur
- Alain Celisse, Sylvain Arlot
- article
- Workshop Change-Point Detection Methods and Applications, Sep 2008, Paris, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
-
Thèse
- titre
- Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
- auteur
- Alain Celisse
- article
- Mathematics [math]. Université Paris Sud - Paris XI, 2008. English. ⟨NNT : ⟩
- typdoc
- Thèse
- Accès au texte intégral et bibtex
-
- titre
- Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
- auteur
- Alain Celisse
- article
- Mathematics [math]. Université Paris Sud - Paris 11, 2008. English. ⟨NNT : ⟩
- typdoc
- Thèse
- Accès au bibtex
-
Pré-publication, Document de travail
- titre
- Optimal cross-validation in density estimation
- auteur
- Alain Celisse
- article
- 2008
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-
2007
Pré-publication, Document de travail
- titre
- A leave-p-out based estimation of the proportion of null hypotheses
- auteur
- Alain Celisse, Stéphane Robin
- article
- 2007
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
-