Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara...

27
[MSDMA novembre 2011] 1 Equipe MSDMA Méthodes statistiques de Data Mining et apprentissage

Transcript of Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara...

Page 1: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 1

Equipe MSDMA

Méthodes statistiques de Data Mining et apprentissage

Page 2: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 2

Permanents

F.Badran M.Béra P.L.Gonzalez L.Jaupi

A.Latouche N.Niang G.Saporta M.Yacoub

Page 3: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 3

Doctorants

A.Bernard M.Ouattara J.Séguela

Post-doc

G.Russolillo

Page 4: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 4

Membres associés

P.Bastien S.Benammou M.Charrad S.Demeyer N.FischerL’Oréal U.Sousse U.Tunis CEA LNE

E.Jakobowicz A.Lorga L.Nardi M.Plasse G.YounessAddinsoft U.lusophone Murex PSA CNAM-Liban

Page 5: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 5

Présentation

Double origine: analyse des données et réseaux de neurones

Concept fédérateur : « data mining », discipline à la frontière de la statistique, de l’intelligence artificielle et des bases de données qui se propose de découvrir des relations, des structures dans des données préexistantes.

Apprentissage supervisé ou non supervisé

Les modèles proviennent des données.

Grande dimension

Un axe principal et 4 autres axes plus thématiques mais non orthogonaux...

Page 6: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 6

Axe 1. Analyse des données multidimensionnelles

(Réduction de la dimension, sélection de variables, données manquantes, méthodes « sparse, méthodes multiblocs…)

Analyse de données fonctionnelles

classification et discrimination de courbes par régression PLS Régression avec nombre de donnéesinférieur à celui variables)(Preda & Saporta)

Page 7: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 7

Prévision anticipée et adaptative (Saporta & Preda)

Page 8: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 8

Régression PLS:

Thèse de P.Bastien (L’Oréal Paris) 2008: Régression PLS et données de survieLe modèle PLS-Cox issu d’une généralisation de la régression PLS à tous modèles de régression fournit une alternative régularisée aux modèles de survie en grande dimension (p>>n)..

Approche PLS (Relations structurelles avec variables latentes)

Thèse E.Jakobowicz (contrat CIFRE EDF, 2007) satisfaction client

ImageImageAttentes Attentes clientsclients

FidFidéélitlitéé clientsclients

QualitQualitéé perperççueue

RRééclamatioclamatio ns clientsns clients

SatisfactiSatisfacti on clientson clients

ValeVale ur ur

perperçç ueue

Page 9: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 9

Thèse S.Demeyer (CIFRE LNE) 2011

1

2

12

34

Contributions théoriques: Développement d’un algorithme d’estimation MCMC des modèles à équations structurelles, aux propriétés de convergence améliorées.

Modélisation de résultats de comparaisons interlaboratoires

Estimation de la valeur de consensus, de son incertitude associée et du biais de mesure des laboratoires

Développement d’un modèle à équations structurelles, basé sur la décomposition du processus de mesure

Page 10: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 10

Classification croisée (biclustering)

classer simultanément les lignes et les colonnes d’un tableau

Thèse M.Charrad (cotutelle Tunis) 2010: Analyse de sites web croisant contenus et usages

N.Niang: construire plusieurs sous tableaux dans des études préalables de très grands tableaux de données (génomique) axe 4

Page 11: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 11

Text Mining, systèmes de recommandation

Thèse J.Séguéla (CIFRE Multiposting): développement d'un outil algorithmique permettant d'optimiser le processus de recrutement sur Internet.

Page 12: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 12

Page 13: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 13

Méthodes multiblocs ou multitableaux (N.Niang)

classification d'individus décrits par plusieurs tableaux de données (avec des variables de nature quelconque):

recherche d'une partition consensus des partitions issues de chaque tableau

Application au contrôle des procédés par lots et à des données environnementales (pollution de l'air, océanographie) axe 2

Page 14: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 14

Méthodes robustes multivariées (L.Jaupi en lien avec l’axe 2)

Travaux en cours:

Recherche de méthodes robustes dans la classe des estimateurs de pseudo-covariances qui constitue la plus grande famille d'estimateurs pour un paramètre position-échelle en statistique multivariée. Quantification des variations des valeurs propres et des vecteurs propres d'une matrice de dispersion classique et/ou robuste, lorsque la distribution de la variable aléatoire parente appartient à un voisinage de contamination du modèle paramétrique idéal..

Etude de la distribution asymptotique des fonctions d’influence de divers paramètres d’un modèle de distribution contaminé.

Sélection de variables et du nombre de clusters

utilisation des cartes topologiques (apprentissage non supervisé) M.Yacoub en liaison avec l’axe 3

Page 15: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 15

Statistique robustes et nouvelles cartes pour le contrôle on-line de processus et les processus de fabrication complexes. (L.Jaupi)

Fonctions d’influence:

pour quantifier les variations des valeurs propres et des vecteurs propres d'une matrice de dispersion.

comme outils de détection de changement de la structure dans un processus complexe.

Création d’un cadre de travail innovant pour la conception, le développement, la production et l’assurance de la qualité des produits complexes en adéquation avec les nouvelles directives (ISO, ICH , FDA,…). Utilisation de l’analyse des données et des plans d’expériences

Axe 2. Contrôle de qualité multivarié

(Amélioration des performances de processus complexes, sélection et hiérarchie des paramètres critiques)

Page 16: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 16

Contrôle multivarié de procédés par lot avec des méthodes multitableaux (N.Niang)

Le suivi du procédé s'effectue à travers un ensemble de variables prélevées au fur et à mesure de son déroulement. On développe des méthodes adaptée à des données fortement auto-corrélées et non gaussiennes. Collaboration avec F.Fogliatto (Brésil)

Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de l'Air Intérieur)

Développement et mise en place d’une méthode de classification multicritère du parc des bâtiments à usage de bureaux. au regard d’indicateurs préalablement définis pour la qualité de l’air, la santé, le confort et les performances énergétiques.

Page 17: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 17

Contrôle off-line: application des règles d’association et de la classification croisée pour la détection de défauts corrélés . Thèse M.Plasse (CIFRE PSA) 2006

Page 18: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 18

Modèles adjoints et assimilation des données :

Axe 3. Modélisation par réseaux de neurones à partir de données empiriques

Page 19: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 19

Modèles adjoints et assimilation des données :

Modélisation des probabilités a posteriori à l’aide d’ACP probabiliste,

définition des méthodes d’optimisations locales et globales (Application en géoacoustique).

Thèse de L.Nardi (mars 2011): Formalisation et automatisation de YAO, générateur de code pour l’assimilation variationnelle de données. Direction : F.Badran & S.Thiria. Financement : Contrat CEA-LOCEAN

Formalise d’une manière plus générale les spécifications du générateur de code YAO pour l’assimilation de données variationnelles, développé au laboratoire LOCEAN de l’UPMC.

Génération automatique d’un parcours “optimal” de l’ordre des calculs

Parallélisation automatique en mémoire partagée du code généré en utilisant de directives OpenMP.

Collaborations

Laboratoire d'Océanographie et du Climat : expérimentation et approches numériques (LOCEAN) de Paris 6

Equipe « performance et qualité des algorithmes numériques » (PEQUAN) du LIP6

Equipe Equipe Architectures parallèles (Alchemy) du LRI.

Page 20: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 20

Méthodes d'évaluation :

Projet : Inégalités sociales, lieux de résidence et mortalité par causes

impact des inégalités sociales sur la mortalité par cause de décès.

Echantillon démographique permanent 900 000 français suivis depuis 1968 (INSEE)

Méthodes exploratoires

Identification d’interactions médicamenteuse :

Amélioration de la détection automatique de signaux de pharmacovigilance (N.Niang) par biclustering

Base Française de notification spontanée

Collaborations

INSERM : Centre d'épidémiologie sur les causes médicales de décès (Cépidc), Centre de recherche en Epidémiologie et Santé des Populations.

Internationales : Université de Freiburg (Allemagne), North Carolina University , Yale (Etats Unis)

Axe 4. Biostatistique

Page 21: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 21

Analyse de données génomiques .

Thèse en cours d’A.Bernard (CIFRE, CERIES) influence du polymorphisme génétique sur le vieillissement cutané

500 individus, 15 000 gènes, 800 000 SNP

Méthodes multi-blocs, sélection de variables, méthodes sparse (sparse-PLS, lasso …).

Page 22: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 22

Axe 5. Risque (en création autour de M.Béra)

Détection de patterns dans des données massives en mode "streaming", analyse de complexité algorithmique et comparaison de scalabilités

Détection et estimation statistique de comportements systémiques (graphes sans échelle/de percolation = lois extrêmes de Pareto) sur des données de la crise financière

Page 23: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 23

Méthodes de robustification en analyse de données sur petits échantillons en économétrie (données de finance, assurance et de santé publique

Fouille et visualisation de données appliquées au système électrique européen (projet de thèse CIFRE avec EDF)

Page 24: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 24

Activités contractuelles

2 Thèses CIFRE

Contrat AMAFI (analyse massive de données financières) 159 k€ sur 2010-2012

Contrats de conseil industriels

SETRA: aide à la méthodologie statistique

Veritas : validation des algorithmes de tirage de la Française des Jeux

Biotronik : aide méthodologique pour cette société leader sur la marché des pacemakers (données recueillies par satellite)

Page 25: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 25

Rayonnement

Responsabilités au sein de sociétés savantes:

SFdS, SFB, IASC, ISI

Organisation de colloques :

Workshop Franco-Brésilien à Recife sur la fouille de données en 2009.

Congrès COMPSTAT’2010

Colloque risque nucléaire après Fukushima avril 2011

Collaborations internationales ayant conduit à des réalisations ou publications communes:

Forts liens avec des équipes européennes , séjours de professeurs invités venant de Lisbonne, Barcelone, Pékin, Porto, Rabat, Rome et dans l’autre sens invitations à l’étranger

Collaboration avec le Brésil (UFRGS Porto Alegre et UFPE Recife)

Collaboration avec l’université Beihang (Pékin)

Page 26: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 26

Séminaire de statistique appliquée

Animateur: P.L.Gonzalez

Le troisième mercredi du mois de 11h00 à 12h00

Année 2011/2012

Mercredi 14 décembre 2011Hervé Abdi, Professeur à l’université du Texas à Dallas Les problèmes statistiques de la mise en relation du génome et du comportement

Mercredi 16 novembre 2011Ismaïl Ahmed, Chercheur à l’INSERM Détection automatique de signaux en pharmacovigilance : Approche statistique fondée sur les comparaisons multiples. Résumé

Mercredi 19 octobre 2011Aurélien Latouche, CNAM, Estimation de l’aire sous la courbe Roc en présence de censure

Page 27: Equipe MSDMA - Cédriccedric.cnam.fr/~saporta/MSDMAnov2011.pdf · Thèse de Mory Ouattara (Direction : Fouad Badran & N.Niang, bourse ADEME avec l’observatoire de la Qualité de

[MSDMA novembre 2011] 27

Perspectives

Recrutements:

MCF en Modélisation statistique du risque (2012)

MCF en fouille de données

Préparation du remplacement des seniors

Poursuite des thématiques porteuses:

Analyse multi-tableaux, méthodes PLS,

Apprentissage et génomique

Méthodes sparse pour grandes matrices

Développement des axes biostatistique et risque

Projets de recherche avec la chaire « techniques ferroviaires » sur la régularité

Colloques

Big Data

Risques financiers