SuperviZ @ESORICS 2025
Publié le

Le projet SuperviZ a vu trois articles soumis par ses membres acceptés à ESORICS’25, la plus prestigieuse conférence européenne dans le domaine de la sécurité informatique.
Deux de ces articles [1, 2] sont liés à l’évaluation des systèmes de détection d’intrusion (NIDS) basés sur l’apprentissage automatique et s’intéressent à la qualité et à la représentativité des jeux de données utilisés pour leur entraînement et leur évaluation. En effet, d’une part la performance de ces outils dépend des données d’apprentissage, d’autre part les corpus de test publics disponibles sont souvent critiqués pour leur manque de diversité et leur faible réalisme. Aussi, [1] établit une méthodologie pour quantifier la diversité et la représentativité des données d’apprentissage et des données d’évaluation des NIDS, tandis que [2] propose une approche pratique et automatisée pour modifier les données d’évaluation afin de les rendre plus adaptées à l’identification de faiblesses des NIDS. Ensemble, ces deux articles ouvrent la voie à des évaluations plus pertinentes des NIDS.
Plus précisément, l’article [1] propose, en s’appuyant sur la théorie de la mesure, un cadre d’évaluation de la diversité dans les jeux de tests de NIDS. Trois indicateurs ont été définis : la diversité intra-classe, qui capture la variabilité au sein d’une même classe de trafic ; la divergence inter-classe, qui mesure la séparation entre distributions de classes différentes ; et enfin la dérive de domaine, qui quantifie le décalage entre données d’entraînement et données de test.
Ces métriques ont été appliquées au jeu de données CIC-IDS2018. Les expérimentations montrent qu’une diversité intra-classe croissante favorise la capacité de généralisation des modèles, mais avec des effets variables selon les types d’attaque. En outre, une dérive croissante conduit sans surprise à une nette dégradation des performances des NIDS.
L’article [2] s’intéresse aussi à la diversité des données, mais dans une perspective différente. En effet, si classiquement les données d’évaluation utilisées sont similaires aux données d’entraînement (dérive faible, donc), l’idée est ici d’identifier des zones de l’espace du trafic où la détection est difficile et à générer des nouvelles données dans ces zones (augmentation de la dérive), pour éprouver la robustesse des détecteurs. L’approche repose sur deux étapes : (1) un auto-encodeur permet d’identifier des zones de l’espace intéressantes puis (2) un système d’apprentissage par renforcement est utilisé pour générer un nouveau trafic de test plus difficile à classifier, en ciblant ces zones.
Expérimentée sur les jeux de test CIC-IDS2017 et 2018, l’approche montre qu’étant donné des données initiale trop « facile », il est possible, par augmentation systématique, de générer un trafic nouveau, réaliste et difficile, apte à identifier des faiblesses de NIDS par apprentissage. Il est donc possible de placer un tel NIDS sous test dans des conditions plus difficiles, ce qui est intéressant pour son évaluation.
[1] Benoit Nougnanke, Gregory Blanc and Thomas Robert. How Dataset Diversity Affects Generalization in ML-based NIDS
[2] Omar Anser, Jérôme François, Isabelle Chrisment and Daishi Kondo. TATA: Benchmark NIDS Test Sets Assessment and Targeted Augmentation
Autres Événements


