{"id":222,"date":"2025-04-12T13:53:42","date_gmt":"2025-04-12T11:53:42","guid":{"rendered":"https:\/\/rabihamhaz.com\/?p=222"},"modified":"2025-04-12T13:55:33","modified_gmt":"2025-04-12T11:55:33","slug":"m2-internship-prototype-de-fusion-graph-tabulaire","status":"publish","type":"post","link":"https:\/\/rabihamhaz.com\/index.php\/2025\/04\/12\/m2-internship-prototype-de-fusion-graph-tabulaire\/","title":{"rendered":"M2 Internship: Prototype de Fusion Graph-Tabulaire"},"content":{"rendered":"\n<p><strong>Contexte :<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/catdata.com\/\">Cat Data<\/a> est un acteur cl\u00e9 du Big Data dans l&rsquo;industrie automobile, sp\u00e9cialis\u00e9 dans la collecte, l&rsquo;analyse et l&rsquo;enrichissement des donn\u00e9es de v\u00e9hicules. L&rsquo;entreprise accompagne garages, assureurs et constructeurs en leur fournissant des insights pr\u00e9cieux bas\u00e9s sur des volumes massifs de donn\u00e9es : num\u00e9ros VIN, historiques de maintenance, caract\u00e9ristiques techniques, etc. Face \u00e0 des bases de donn\u00e9es toujours plus complexes, <a href=\"https:\/\/catdata.com\/\">Cat Data<\/a> investit fortement dans la recherche en intelligence artificielle pour automatiser et fiabiliser le traitement de l\u2019information.<br><br>Dans le cadre d\u2019un <strong>partenariat de recherche avec l\u2019Icam Strasbourg-Europe<\/strong>, ce stage s\u2019int\u00e8gre \u00e0 un projet plus large visant \u00e0 d\u00e9velopper un mod\u00e8le hybride combinant des r\u00e9seaux de neurones graphiques (GNNs) et des mod\u00e8les tabulaires avanc\u00e9s (comme TabPFN). Cette collaboration acad\u00e9mique et industrielle permettra au stagiaire d\u2019\u00e9voluer dans un environnement stimulant, avec un encadrement de pointe assur\u00e9 \u00e0 la fois par les \u00e9quipes de Cat Data et par les chercheurs de l\u2019Icam.<\/p>\n\n\n\n<p>Les donn\u00e9es automobiles combinent des informations relationnelles (ex : lien entre un v\u00e9hicule et ses interventions) et des caract\u00e9ristiques tabulaires (ex : cylindr\u00e9e, ann\u00e9e de fabrication). Les mod\u00e8les tabulaires traditionnels (XGBoost, TabPFN [1]) excellent sur des donn\u00e9es structur\u00e9es, mais \u00e9chouent \u00e0 capturer les d\u00e9pendances complexes entre entit\u00e9s. \u00c0 l\u2019inverse, les Graph Neural Networks (GNNs [2][3]) exploitent ces relations mais perdent en efficacit\u00e9 sur les informations purement tabulaires.&nbsp; Ce projet a pour objectif d\u2019\u00e9valuer la faisabilit\u00e9 d\u2019une approche d\u00eetes \u201chybride\u201d qui combinera \u00e0 la fois les mod\u00e8les tabulaires et les GNN.&nbsp;<\/p>\n\n\n\n<p><strong>Mission :&nbsp;<br><\/strong>Mettre en place un premier prototype d\u2019int\u00e9gration entre un mod\u00e8le tabulaire de type TabPFN et un mod\u00e8le graphique (par ex : Variational Graph Autoencoder &#8211; VGAE). Ce travail servira de base pour valider la faisabilit\u00e9 de la th\u00e8se et \u00e9valuer les b\u00e9n\u00e9fices d\u2019une approche hybride.<\/p>\n\n\n\n<p><strong>Travail attendu :<\/strong><\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>\u00c9tude bibliographique :<\/strong>\n<ul class=\"wp-block-list\">\n<li>Comprendre en profondeur TabPFN et son m\u00e9canisme d\u2019apprentissage in-context.<\/li>\n\n\n\n<li>Explorer les architectures de GNNs, en particulier les mod\u00e8les comme VGAE et GCN.<\/li>\n\n\n\n<li>Analyser les techniques existantes de fusion graph-tabulaire (fusion tardive, joint learning, etc.).<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Prototypage :<\/strong>\n<ul class=\"wp-block-list\">\n<li>G\u00e9n\u00e9rer des datasets synth\u00e9tiques avec composantes tabulaires et relationnelles.<\/li>\n\n\n\n<li>Entra\u00eener TabPFN sur la partie tabulaire et un VGAE sur la partie graphique.<\/li>\n\n\n\n<li>Exp\u00e9rimenter diff\u00e9rentes strat\u00e9gies de fusion : concat\u00e9nation des embeddings, attention inter-modale, etc.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>\u00c9valuation :<\/strong>\n<ul class=\"wp-block-list\">\n<li>Comparer la performance du mod\u00e8le hybride avec celle des mod\u00e8les purs (TabPFN seul, VGAE seul).<\/li>\n\n\n\n<li>Mesurer l\u2019impact de la fusion sur des t\u00e2ches comme la classification ou la d\u00e9tection d\u2019anomalies.<\/li>\n\n\n\n<li>Analyser la robustesse aux donn\u00e9es bruit\u00e9es, manquantes ou incompl\u00e8tes.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n\n\n\n<p><strong>R\u00e9sultats attendus :<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Un \u00e9tat de l\u2019art des approches hybrides et des pistes d\u2019am\u00e9lioration.<\/li>\n\n\n\n<li>Un code fonctionnel avec un mod\u00e8le hybride initial.<\/li>\n\n\n\n<li>Un rapport d\u00e9taillant les conclusions et recommandations pour la th\u00e8se.<\/li>\n<\/ul>\n\n\n\n<p><strong>Votre Profil<\/strong><\/p>\n\n\n\n<p>L\u2019offre s\u2019adresse \u00e0 un \u00e9tudiant en M2, ou derni\u00e8re ann\u00e9e d\u2019\u00e9cole d\u2019ing\u00e9nieur avec de fortes comp\u00e9tences en informatique, et notamment en Python.<\/p>\n\n\n\n<p><strong>Comp\u00e9tences requises :<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Bases solides en machine learning et deep learning.<\/li>\n\n\n\n<li>Ma\u00eetrise de Python et des biblioth\u00e8ques associ\u00e9es (PyTorch, scikit-learn, PyG).<\/li>\n<\/ul>\n\n\n\n<p><strong>Comp\u00e9tences pr\u00e9f\u00e9r\u00e9es:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Connaissances en architectures de r\u00e9seaux neuronaux et en traitement des graphes.<\/li>\n<\/ul>\n\n\n\n<p><strong>Poursuite :&nbsp;<\/strong><\/p>\n\n\n\n<p>Ce stage s\u2019inscrit dans un projet R&amp;D complet : il constitue une premi\u00e8re brique exploratoire pour une potentiel poursuite en th\u00e8se Cifre; dont l\u2019objectif sera d\u00e9velopper un mod\u00e8le hybride capable d\u2019exploiter \u00e0 la fois la structure relationnelle des donn\u00e9es (graphes) et leur richesse tabulaire (attributs des entit\u00e9s).<\/p>\n\n\n\n<p><strong>Modalit\u00e9 du stage :<\/strong><\/p>\n\n\n\n<p>Salaire :&nbsp; 669\u20ac \/ mois<br>Lieu de travail : Icam, site de Strasbourg. 2 rue de madrid, Schiltigheim. 67200<br>Superviseurs : C\u00e9dric Bobenrieth, Nathalie Al Makdessi et Rabih Amhaz<\/p>\n\n\n\n<p><strong>Candidater :&nbsp;<\/strong><\/p>\n\n\n\n<p>Pour candidater merci d\u2019envoyer un mail, votre CV et deux emails contact de references (ou recommendation) \u00e0 rabih.amhaz(at)icam.fr<\/p>\n\n\n\n<p><strong>Bibliographie :&nbsp;<\/strong><\/p>\n\n\n\n<p>[1] Hollmann, N., M\u00fcller, S., Purucker, L. <em>et al.<\/em> Accurate predictions on small data with a tabular foundation model. <em>Nature<\/em> 637, 319\u2013326 (2025). <a href=\"https:\/\/doi.org\/10.1038\/s41586-024-08328-6\">https:\/\/doi.org\/10.1038\/s41586-024-08328-6<\/a><\/p>\n\n\n\n<p>[2] Veli\u010dkovi\u0107, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., &amp; Bengio, Y. (2017). Graph attention networks. <em>arXiv preprint arXiv:1710.10903<\/em>.<\/p>\n\n\n\n<p>[3] Kipf, T. N., &amp; Welling, M. (2016). Semi-supervised classification with graph convolutional networks. <em>arXiv preprint arXiv:1609.02907<\/em>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Contexte : Cat Data est un acteur cl\u00e9 du Big Data dans l&rsquo;industrie automobile, sp\u00e9cialis\u00e9 dans la collecte, l&rsquo;analyse et l&rsquo;enrichissement des donn\u00e9es de v\u00e9hicules. L&rsquo;entreprise accompagne garages, assureurs et constructeurs en leur fournissant des insights pr\u00e9cieux bas\u00e9s sur des volumes massifs de donn\u00e9es : num\u00e9ros VIN, historiques de maintenance, caract\u00e9ristiques techniques, etc. Face \u00e0 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":223,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-container-style":"default","site-container-layout":"default","site-sidebar-layout":"default","site-transparent-header":"default","prose-style":"enable","disable-article-header":"default","disable-site-header":"default","disable-site-footer":"default","disable-content-area-spacing":"default","footnotes":""},"categories":[10],"tags":[19,16],"class_list":["post-222","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-research-job-offer","tag-ai","tag-multimodal-ai"],"_links":{"self":[{"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/posts\/222","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/comments?post=222"}],"version-history":[{"count":2,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/posts\/222\/revisions"}],"predecessor-version":[{"id":225,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/posts\/222\/revisions\/225"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/media\/223"}],"wp:attachment":[{"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/media?parent=222"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/categories?post=222"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rabihamhaz.com\/index.php\/wp-json\/wp\/v2\/tags?post=222"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}