L’open source intelligence (OSINT), c’est-à-dire le renseignement de sources ouvertes ou le renseignement open source en français, désigne la collecte et l’analyse des données accessibles publiquement à des fins de cyberveille.
Que sont les données open source ?
Les données open source regroupent toutes les informations facilement accessibles au public ou disponibles sur demande. Les sources OSINT peuvent notamment inclure :
- Articles de journaux et de magazines et rapports de presse
- Travaux académiques et de recherche publiés
- Livres et autres documents de référence
- Activités sur les réseaux sociaux
- Données de recensement
- Répertoires téléphoniques
- Décisions de justice
- Procès-verbaux d’arrestations
- Données concernant des transactions publiques
- Enquêtes publiques
- Données de géolocalisation
- Informations concernant la divulgation de compromissions
- Indicateurs de cyberattaques partagés publiquement, tels que les adresses IP, les noms de domaines et les hachages de fichiers
- Données d’enregistrement de certificats ou de domaines
- Données relatives aux vulnérabilités des applications ou systèmes
La plupart des données open source sont accessibles sur Internet et peuvent être trouvées à l’aide d’un simple moteur de recherche tel que Google. Il est également possible d’y accéder via des forums plus fermés qui ne sont pas répertoriés par les moteurs de recherche. Bien que le contenu du Deep Web ne soit généralement pas accessible au grand public, dans la mesure où il est hébergé derrière un paywall (littéralement, un mur de péage) ou nécessite un identifiant de connexion, il reste considéré comme faisant partie du domaine public.
Il convient également de noter qu’il est possible d’extraire un volume considérable de données secondaires à partir de toute source ouverte d’information. Par exemple, les comptes de réseaux sociaux peuvent regorger d’informations personnelles, comme le nom de l’utilisateur, sa date de naissance, les membres de sa famille et son lieu de résidence. Par ailleurs, les métadonnées de fichiers associées à des publications spécifiques peuvent également révéler des informations complémentaires, comme le lieu de publication, l’appareil utilisé pour créer le fichier et l’auteur du fichier.
Comment les données open source sont-elles utilisées ?
Dans le contexte de l’OSINT, le terme « veille » fait référence à l’extraction et à l’analyse des données publiques pour obtenir des informations qui serviront à améliorer la prise de décisions et à contextualiser les activités. Par le passé, l’OSINT était utilisée par les services de sécurité nationale et les forces de l’ordre. Cependant, ces dernières années, elle est également devenue une fonctionnalité de base dans le domaine de la cybersécurité.
OSINT et cybersécurité
Dans le domaine de la cybersécurité, les chercheurs et analystes en cyberveille utilisent les données open source pour mieux comprendre le paysage des menaces et aider les entreprises et les particuliers à se protéger des risques connus présents au sein de leur environnement informatique.
Cas d’usage de l’OSINT dans le domaine de la cybersécurité
Dans le domaine de la cybersécurité, l’OSINT présente deux cas d’usage courants :
- Mesurer le risque pour une entreprise
- Comprendre le cyberadversaire, ses tactiques et ses cibles
Mesurer le risque pour une entreprise
Un pen test (ou test d’intrusion, validation de la sécurité, évaluation de la surface d’attaque ou encore ethical hacking ou piratage éthique) consiste à simuler une cyberattaque observée dans le monde réel afin de tester les capacités de cybersécurité d’une entreprise et d’en exposer les vulnérabilités. Le pen test a pour but d’identifier les points faibles et les vulnérabilités de l’environnement informatique et de les corriger avant qu’ils ne soient détectés et exploités par un cybercriminel.
Il existe plusieurs types de tests d’intrusion. Dans le cadre de l’OSINT, les trois plus courants sont les suivants :
- Pen test externe : ce test évalue vos systèmes Internet afin de déterminer si des vulnérabilités exploitables exposent des données ou des accès non autorisés au monde extérieur. Il comprend l’identification du système, l’énumération, la découverte des vulnérabilités et l’exploitation.
- Évaluation de la surface d’attaque : également appelée analyse de la surface d’attaque, ce test consiste à mapper les éléments d’un système qui doivent être examinés et testés afin de détecter les vulnérabilités de sécurité. L’analyse de la surface d’attaque permet de comprendre les zones de risque d’une application, d’informer les développeurs et les spécialistes de la sécurité des parties de l’application qui sont exposées à une attaque, de trouver des solutions pour limiter ce risque, et de déterminer quand et comment la surface d’attaque change et les implications de ce changement en termes de risque.
- Pen test d’application web : ce test évalue votre application web au moyen d’un processus en trois phases : la reconnaissance, au cours de laquelle l’équipe découvre différentes informations telles que le système d’exploitation, les services et les ressources utilisés ; la découverte, durant laquelle l’équipe tente d’identifier les vulnérabilités, telles que les identifiants faibles, les ports ouverts ou les logiciels non corrigés ; et l’exploitation, pendant laquelle l’équipe exploite les vulnérabilités découvertes pour obtenir un accès non autorisé aux données sensibles.
Comprendre le cyberadversaire, ses tactiques et ses cibles
Les données open source sont l’un des nombreux types de données que les équipes de cybersécurité exploitent dans le cadre d’une opération de cyberveille complète pour cerner l’auteur de l’attaque.
La cyberveille désigne l’ensemble des données collectées, traitées et analysées pour comprendre les motivations, les cibles et les comportements d’attaque des cybercriminels. Elle consiste notamment à utiliser des données open source et à les combiner à des sources de données fermées, comme la télémétrie interne, les données collectées sur le Dark Web et d’autres sources externes, pour obtenir un tableau plus complet du paysage des menaces.
En règle générale, les données open source sont dépourvues du contexte nécessaire qui leur permettrait d’avoir un sens aux yeux des équipes de sécurité. Par exemple, une publication dans un groupe de discussion public peut ne fournir aucune information utile aux équipes de cybersécurité. Cependant, si elles analysent cette publication dans le contexte d’un cadre de collecte de données et de cyberveille plus large, les équipes de sécurité pourront peut-être attribuer l’activité à un groupe cybercriminel connu, ce qui leur permettra d’ajouter de la profondeur et de la couleur au profil du groupe et d’utiliser ces données pour protéger l’entreprise contre ce groupe en particulier.
OSINT : une voie à double sens
Les informations open source sont accessibles à tous. Cela signifie qu’elles sont tout aussi facilement accessibles par les professionnels de la cybersécurité et la communauté de cyberveille que par les cybercriminels et les groupes de cyberadversaires, qui peuvent ainsi les utiliser à des fins malveillantes.
Les cybercriminels exploitent principalement l’OSINT à des fins d’ingénierie sociale. Ils collectent généralement des données personnelles sur leurs victimes potentielles à l’aide de leurs profils sur les réseaux sociaux ou d’autres activités en ligne afin d’en dresser le portrait et de personnaliser leurs attaques de phishing. L’OSINT peut également être exploitée pour échapper à la détection. En analysant les informations disponibles publiquement, les cybercriminels peuvent par exemple déterminer où les entreprises ont érigé des lignes de défense et chercher des méthodes alternatives pour les attaquer.
Une autre technique couramment utilisée par les cyberpirates est le Google hacking, également appelé Google dorking. Le Google hacking est une technique qui consiste à utiliser le moteur de recherche et les applications Google pour effectuer des recherches au moyen de commandes très spécifiques afin d’identifier les vulnérabilités d’un système ou des données sensibles. Par exemple, un cybercriminel peut lancer une recherche sur des fichiers afin de récupérer des documents contenant l’expression « informations sensibles non classifiées ». Les cyberadversaires peuvent également utiliser des outils pour analyser le code d’un site web à la recherche d’erreurs de configuration ou de failles de sécurité. Ces vulnérabilités peuvent ensuite être exploitées en tant que points d’entrée en vue de lancer des attaques ultérieures de ransomware ou de logiciel malveillant.
Les cyberattaquants sont également connus pour influencer les recherches Google en créant un réseau de faux sites web contenant des données open source essentiellement non fiables. Ces informations erronées ont pour but de tromper les robots d’indexation et les lecteurs ou de les amener à distribuer des logiciels malveillants.
Techniques OSINT
Le principal défi posé par l’OSINT est probablement la gestion de la quantité astronomique de données publiques, qui augmente quotidiennement. L’être humain étant incapable de gérer à lui seul un tel volume de données, les entreprises n’ont pas d’autre choix que d’automatiser la collecte et l’analyse des données et de recourir à des outils de mappage pour visualiser et connecter les points de données de manière plus claire.
Grâce au Machine Learning et à l’intelligence artificielle, un outil OSINT peut aider les experts OSINT à collecter et à stocker de gros volumes de données. Ce type d’outil peut également permettre de mettre en lumière des liens et des schémas significatifs entre les différentes informations.
Par ailleurs, les entreprises doivent élaborer une stratégie sous-jacente claire afin de déterminer les sources de données qu’elles souhaitent collecter. Elles éviteront ainsi de submerger le système d’informations inutiles ou peu fiables. Pour ce faire, les entreprises doivent clairement définir leurs objectifs en matière d’open source intelligence.
Techniques de collecte liées à l’OSINT
De manière générale, la collecte de données d’open source intelligence est soit passive, soit active.
- La collecte passive regroupe toutes les données disponibles dans un endroit unique et facile d’accès. Grâce au Machine Learning (ML) et à l’intelligence artificielle, les plateformes de cyberveille peuvent aider à gérer et à prioriser ces données, ainsi qu’à ignorer certains points de données en fonction des règles définies par l’entreprise.
- La collecte active fait appel à une multitude de techniques d’investigation pour identifier des informations spécifiques. Elle peut être utilisée de manière ad hoc pour compléter les profils de cybermenaces identifiés par les outils de collecte passive de données ou pour étayer une investigation spécifique. Les outils OSINT les plus connus incluent la recherche d’enregistrement de domaines ou de certificats afin d’identifier le propriétaire de certains domaines. L’analyse antimalware d’applications en environnement sandbox public est un autre exemple de collecte de données OSINT.
Le cadre OSINT
Bien que la quantité de données publiques susceptibles d’être exploitées par les professionnels de la cybersécurité soit colossale, le volume de données OSINT – qui sont dispersées dans de nombreuses sources différentes – est tel qu’il peut compliquer l’extraction des points de données clés par les équipes de sécurité. De plus, il est essentiel que les informations pertinentes de grande valeur collectées dans le cadre de l’OSINT soient ensuite intégrées dans les outils et systèmes de cybersécurité.
Le cadre OSINT est une méthode qui intègre données, processus, méthodes, outils et techniques afin d’aider les équipes de sécurité à identifier de manière rapide et précise les informations relatives à un cyberadversaire ou à ses activités.
Un cadre OSINT peut être utilisé à différentes fins :
- Établir l’empreinte numérique d’une menace connue
- Recueillir toutes les informations de cyberveille disponibles concernant les activités, les centres d’intérêt, les techniques, les motivations et les habitudes d’un adversaire
- Catégoriser les données par source, outil, méthode ou objectif
- Identifier les possibilités d’amélioration du niveau de sécurité existant grâce aux recommandations du système
Problèmes inhérents à l’open source intelligence
Les communautés de cyberveille, de même que les équipes de sécurité et les forces de l’ordre nationales, utilisent régulièrement l’OSINT pour protéger les entreprises et la société contre toutes sortes de menaces.
Cependant, comme nous l’avons déjà souligné, l’OSINT peut également être exploitée tout aussi facilement à des fins malveillantes par les cybercriminels et autres cyberadversaires. Il faut également savoir que, ces dernières années, l’OSINT a fait couler beaucoup d’encre en ce qui concerne l’utilisation sûre et responsable des informations qui tombent dans le domaine public. Les problèmes les plus courants sont les suivants :
Légalité
Il est parfaitement légal d’accéder aux informations disponibles publiquement, ainsi que de les analyser et de les distribuer. Gardez simplement à l’esprit que ces informations peuvent également être utilisées par les cyberpirates pour soutenir ou développer des activités illicites en disséminant des données trompeuses ou malveillantes au sein de certaines communautés. Les cyberactivistes, en particulier, sont connus pour distribuer des données publiquement afin d’influencer l’opinion publique.
Éthique
Les particuliers et les entreprises sont tenus d’utiliser la profusion d’informations disponibles en ligne de manière éthique. Lorsqu’ils utilisent l’OSINT, les experts doivent veiller à le faire à des fins légitimes et s’assurer que ces informations ne sont pas utilisées pour exploiter, harceler, ostraciser ou nuire à autrui.
Confidentialité
Le domaine public abrite un volume impressionnant de données concernant des personnes physiques. En combinant les informations tirées des profils de réseaux sociaux, des activités en ligne, des dossiers publics et d’autres sources, il est possible de dresser un profil détaillé des habitudes, des centres d’intérêt et des comportements d’une personne. Bien que ces informations aient généralement été partagées par la personne elle-même, celle-ci n’a pas toujours conscience des implications d’un tel partage. Le débat fait rage pour savoir quelles informations les marques et les entreprises devraient pouvoir collecter et stocker lorsque des personnes utilisent leurs services, visitent leurs boutiques ou interagissent en ligne – et de quelle manière elles pourront utiliser ces données à l’avenir.