Thèse de doctorat : “Modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes”
Publié le 16 janvier 2024Télécom SudParis
L'École Doctorale Mathématiques Hadamard et le Laboratoire de recherche SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux présentent l'avis de soutenance de Monsieur Etienne DAVID, autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l'Institut Polytechnique de Paris, préparé à Télécom SudParis en : Mathématiques appliquées.
“Modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes”
Le jeudi 18 janvier 2024,
à 14 h
Amphithéâtre 2 à Télécom SudParis,
19 place Marguerite Perey, 91120 PALAISEAU.
Lien de visioconférence disponible ici
Membres du jury :
- M. Sylvain LE CORFF, Professeur, Sorbonne Université, FRANCE - Directeur de thèse
- M. François DESBOUVRIES, Professeur, Télécom SudParis, FRANCE - Examinateur
- Mme Marie PERROT-DOCKES, Maîtresse de conférences, Université de Paris, FRANCE - Examinateur
- M. Lionel TRUQUET, Professeur, ENSAI, FRANCE - Rapporteur
- M. Joseph RYNKIEWICZ, Maître de conférences, Université Paris 1, FRANCE - Rapporteur
Résumé :
La prévision de séries temporelles est un problème mathématique répandu dans de nombreux secteurs, devenant un véritable défi pour les méthodes existantes de la littérature lorsque de grands ensembles de données rassemblant des milliers de séries temporelles et des signaux externes sont considérés.
Une illustration concrète de ce problème peut être trouvée dans l’industrie de la mode où ses acteurs tentent d’anticiper l’évolution de milliers de vêtements pour créer leurs collections, analysant les comportements des influenceurs pour proposer la mode de demain.
En utilisant cette application comme fil conducteur, nous présentons trois contributions explorant différentes réponses concernant le problème de prévision de séries temporelles où de grands ensembles de données et des signaux externes sont considérés. Une première réponse est proposée avec l'introduction d'un nouveau modèle hybride et la publication d'un large ensemble de données rassemblant 10000 séries temporelles de mode et des signaux externes d'influenceurs.
Une seconde approche est ensuite étudiée avec un travail théorique sur les modèles de Markov cachés à signaux externes. Enfin, une dernière réponse est proposée avec l'introduction d'une nouvelle méthode mélangeant le fonctionnement interne des modèles de Markov cachés avec des réseaux de neurones.
Les résultats présentés dans ces trois contributions ont mis en évidence plusieurs éléments de réponse. Premièrement, les réseaux de neurones sont décisifs pour traiter de grands ensembles de données et sont particulièrement bien conçus pour exploiter des signaux externes.
Deuxièmement, les modèles de Markov cachés avec signaux externes sont également des méthodes efficaces, capables de capturer des dépendances complexes entre des séries temporelles et leurs signaux externes. Cependant, ils ne parviennent pas à gérer de grands ensembles de données car un modèle doit être entraîné pour chaque nouvelle série temporelle.
Enfin, inspirés par les résultats frappants des modèles de Markov cachés avec des signaux externes, nous montrons que l'introduction de processus cachés dans des modèles basés sur des réseaux neuronaux peut les aider à explorer plus profondément les grands ensembles de données, à modéliser une plus grande variété de comportements et à exploiter plus finement les signaux externes.