CoRIIN2026

Estelle Ruellan

Estelle est chercheuse en renseignement sur les cyber menaces chez Flare. Forte d’une formation en mathématiques et en criminologie, Estelle Ruellan est spécialisée dans l’application de machine learning et LLM aux données du cybercrime. Passionnée de data science, Estelle aime donner vie aux données à travers des visualisations interactives. Elle a présenté ses travaux lors de conférences telles que Black Hat USA 2025, DEF CON 2025, NorthSec 2025, ShmooCon 2025, Hack.lu 2024, eCrime APWG 2024 à Boston, ainsi qu’à la 23ᵉ conférence annuelle de la Société européenne de criminologie (EUROCRIM 2023) à Florence.


Intervention

31/03
16:15
35minutes
StealerLens: Utiliser les LLM pour trier le bruit forensique dans les logs d’infostealer
Olivier Bilodeau, Estelle Ruellan

Cinquante millions de machines infectées. C'est le nombre de stealer logs diffusés dans les deux dernières années sur les canaux underground, faisant des infostealers l'une des menaces cyber les plus prolifiques de notre époque.

Chaque log constitue un dossier numérique exhaustif sur une victime : identifiants volés, cookies de session, historiques de navigation, capture d'écran au moment de l’infection, fichiers personnels, des centaines, parfois des milliers d'artefacts par infection. Mais noyés dans cette masse de données se cachent quelques artefacts d'une tout autre nature : des traces forensiques laissées par le malware lui-même. Chemins d'exécution, processus actifs au moment de l'infection, ces indices permettent de reconstituer le vecteur d'infection et de comprendre le comportement du malware.

Le paradoxe est cruel : ces artefacts forensiques sont l'équivalent d'une aiguille dans une botte de foin. Ils existent, mais leur extraction manuelle est si chronophage qu'ils restent largement inexploités.

Leur identification repose sur une lecture exhaustive de l’ensemble du log, des centaines voire des milliers de lignes, un processus long et fastidieux, souvent sujet aux erreurs et omissions. La mise en corrélation de ces artefacts est ensuite iterative: un nouvel artefact peut recontextualiser des éléments jugés bénins avant, amenant ainsi plusieurs aller-retours dans le log. Cette charge cognitive rend l’analyse humaine lente, coûteuse et difficilement systématique.

C'est précisément cette friction analytique/charge cognitive que StealerLens ambitionne de lever. Notre outil exploite une architecture LLM multicouche où chaque composant du log (métadonnées système, inventaire logiciel, process, historique de navigation et presse-papiers) est analysé par un prompt spécialisé. Une couche de synthèse corrèle ensuite l'ensemble pour produire un récit d'infection complet, identifiant les sources probables d'infection et les vecteurs de livraison avec des preuves à l'appui, prêt à être validée par l'analyste.

L'objectif n'est pas de remplacer l'humain, mais de lui redonner du temps. L’analyste peut ainsi se concentrer sur la validation et l’approfondissement de l’investigation, plutôt que sur l’extraction manuelle de l’information. Tests internes sur 15 logs : StealerLens produit une hypothèse cohérente dans 11 cas, reconnaît ses limites sur 3 logs trop incomplets, et présente deux pistes valables sur 1 cas ambigu, à l'analyste de trancher. StealerLens effectue le travail de débroussaillage. Il identifie les artefacts pertinents, formule une première hypothèse et pointe l’analyste vers les éléments de preuve; tout cela en quelques minutes plutôt qu'en plusieurs heures. L'analyste reste maître de l'investigation, il est simplement armé pour aller plus vite et plus loin.

Cette présentation vous fera entrer dans les coulisses de StealerLens : architecture technique, prompt engineering pour chaque artefact, pièges à éviter, et limites à connaître. L'objectif : transmettre à la communauté les outils et les connaissances nécessaires pour industrialiser l'analyse forensique des stealer logs.

Présentation
Amphithéâtre Pasteur