Contexte :
Cat Data est un acteur clé du Big Data dans l’industrie automobile, spécialisé dans la collecte, l’analyse et l’enrichissement des données de véhicules. L’entreprise accompagne garages, assureurs et constructeurs en leur fournissant des insights précieux basés sur des volumes massifs de données : numéros VIN, historiques de maintenance, caractéristiques techniques, etc. Face à des bases de données toujours plus complexes, Cat Data investit fortement dans la recherche en intelligence artificielle pour automatiser et fiabiliser le traitement de l’information.
Dans le cadre d’un partenariat de recherche avec l’Icam Strasbourg-Europe, ce stage s’intègre à un projet plus large visant à développer un modèle hybride combinant des réseaux de neurones graphiques (GNNs) et des modèles tabulaires avancés (comme TabPFN). Cette collaboration académique et industrielle permettra au stagiaire d’évoluer dans un environnement stimulant, avec un encadrement de pointe assuré à la fois par les équipes de Cat Data et par les chercheurs de l’Icam.
Les données automobiles combinent des informations relationnelles (ex : lien entre un véhicule et ses interventions) et des caractéristiques tabulaires (ex : cylindrée, année de fabrication). Les modèles tabulaires traditionnels (XGBoost, TabPFN [1]) excellent sur des données structurées, mais échouent à capturer les dépendances complexes entre entités. À l’inverse, les Graph Neural Networks (GNNs [2][3]) exploitent ces relations mais perdent en efficacité sur les informations purement tabulaires. Ce projet a pour objectif d’évaluer la faisabilité d’une approche dîtes “hybride” qui combinera à la fois les modèles tabulaires et les GNN.
Mission :
Mettre en place un premier prototype d’intégration entre un modèle tabulaire de type TabPFN et un modèle graphique (par ex : Variational Graph Autoencoder – VGAE). Ce travail servira de base pour valider la faisabilité de la thèse et évaluer les bénéfices d’une approche hybride.
Travail attendu :
- Étude bibliographique :
- Comprendre en profondeur TabPFN et son mécanisme d’apprentissage in-context.
- Explorer les architectures de GNNs, en particulier les modèles comme VGAE et GCN.
- Analyser les techniques existantes de fusion graph-tabulaire (fusion tardive, joint learning, etc.).
- Prototypage :
- Générer des datasets synthétiques avec composantes tabulaires et relationnelles.
- Entraîner TabPFN sur la partie tabulaire et un VGAE sur la partie graphique.
- Expérimenter différentes stratégies de fusion : concaténation des embeddings, attention inter-modale, etc.
- Évaluation :
- Comparer la performance du modèle hybride avec celle des modèles purs (TabPFN seul, VGAE seul).
- Mesurer l’impact de la fusion sur des tâches comme la classification ou la détection d’anomalies.
- Analyser la robustesse aux données bruitées, manquantes ou incomplètes.
Résultats attendus :
- Un état de l’art des approches hybrides et des pistes d’amélioration.
- Un code fonctionnel avec un modèle hybride initial.
- Un rapport détaillant les conclusions et recommandations pour la thèse.
Votre Profil
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en informatique, et notamment en Python.
Compétences requises :
- Bases solides en machine learning et deep learning.
- Maîtrise de Python et des bibliothèques associées (PyTorch, scikit-learn, PyG).
Compétences préférées:
- Connaissances en architectures de réseaux neuronaux et en traitement des graphes.
Poursuite :
Ce stage s’inscrit dans un projet R&D complet : il constitue une première brique exploratoire pour une potentiel poursuite en thèse Cifre; dont l’objectif sera développer un modèle hybride capable d’exploiter à la fois la structure relationnelle des données (graphes) et leur richesse tabulaire (attributs des entités).
Modalité du stage :
Salaire : 669€ / mois
Lieu de travail : Icam, site de Strasbourg. 2 rue de madrid, Schiltigheim. 67200
Superviseurs : Cédric Bobenrieth, Nathalie Al Makdessi et Rabih Amhaz
Candidater :
Pour candidater merci d’envoyer un mail, votre CV et deux emails contact de references (ou recommendation) à rabih.amhaz(at)icam.fr
Bibliographie :
[1] Hollmann, N., Müller, S., Purucker, L. et al. Accurate predictions on small data with a tabular foundation model. Nature 637, 319–326 (2025). https://doi.org/10.1038/s41586-024-08328-6
[2] Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2017). Graph attention networks. arXiv preprint arXiv:1710.10903.
[3] Kipf, T. N., & Welling, M. (2016). Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.