Text mining : identification de noms de sociétés
La constitution de dictionnaires spécialisés, tel que celui des noms de sociétés, est une tâche nécessitant beaucoup de temps. De plus, lorsque les données concernées sont en perpétuelle évolution, comme c'est le cas pour les données relatives aux sociétés (de nouvelles sociétés sont constamment créées, d'autres cessent leur activité), maintenir ces dictionnaires à jour s'avère très fastidieux.
De récentes publications scientifiques ont montré que l'importance de l'utilisation des dictionnaires est toute relative dans le cas de la reconnaissance des entités nommées (cf. [1, 2]). Mikhev et al. [1] voient ainsi leur système passé d'un score P & R de 91,5 % (voir encadré « Métriques pour l'évaluation des systèmes de filtrage d'information ») dans le cadre de l'identification des noms d'organisations, à 85,5 % lorsqu'ils effectuent les tests sans les dictionnaires spécialisés.

Métriques pour l'évaluation des systèmes de filtrage d'information [3]
Suite à ces résultats, une méthode de détection des noms de sociétés basée sur l'utilisation d'un réseau Bayésien a été étudiée dans le cadre du développement d'un analyseur de CV pour une des plus grandes sociétés de recrutement professionnel. L'objectif est d'identifier les noms des sociétés cités dans la section « Expérience Professionnelle » des CV des candidats sans faire appel à un dictionnaire spécialisé.
Description générale du processus
La démarche retenue est la suivante : les mots constitutifs des noms de sociétés sont identifiés à l'aide d'un réseau bayésien. Ces mots marqués sont ensuite utilisés comme amorces dans une étape d'analyse de type « parsing » effectuée à l'aide d'une grammaire spécialisée. Des heuristiques sont également utilisées pour reconstituer les noms de société dans leur intégralité.
Apprentissage du réseau bayésien
Chaque mot est caractérisé en utilisant 21 variables décrivant :
- La structure du mot (tout en majuscule, tout en minuscule, première lettre en majuscule),
- Mot absent du dictionnaire des mots communs,
- Propriétés morphosyntaxique du mot (type grammatical, genre, ...),
- Nature des lexèmes précédents et suivants,
- Données caractéristiques de la ligne de texte dans laquelle le mot apparaît (nombre de mots, ponctuation, ...).
La constitution d'un ensemble d'apprentissage et de test a été réalisée en analysant un corpus de 8000 CV. Les données correspondantes aux mots rencontrés dans la section « Expérience Professionnelle » ont ainsi été collectées et une variable a été ajoutée aux caractéristiques de chaque mot pour indiquer si le mot fait parti d'un nom de société.
L'ensemble d'apprentissage a ensuite été exploité par BayesiaLab pour apprendre automatiquement le réseau bayésien illustré ci-dessous. Ce réseau a été appris avec l'algorithme d'apprentissage supervisé “Sons&Spouses”.
L'évaluation des performances sur l'ensemble de test donne les résultats suivants :
- Rappel = 84%
- Précision=72%
- P&R=77.5%
Phase d'analyse
Les données issues du réseau bayésien sont utilisées pour effectuer un marquage prédictif des mots composant les noms de sociétés. Une étape d'analyse (parsing) basée sur l'utilisation de règles grammaticales dédiées est ensuite effectuée. Les noms de sociétés sont ainsi identifiés in extenso.
Les performances globales du système sont indiquées ci-dessous :
- Rappel = 75 %
- Précision = 80 %
- P & R = 77,3 %
Pour plus de détails sur ces travaux, contactez Turn on JavaScript!.
[1] Andrei Mikhev, Marc Moens, and Claire Grover. 1999. "Named Entity Recognition without Gazetteers". In Proceeding of EACL'99.
[2] GuoDong Zhou, and Jian Su. 1999. "Named Entity Recognition using an HMM-based Chunk Tagger". In Proceedings of the 40th Annual Meeting of the ACL.
[3] Ralph Grishman and Beth Sundheim. 1996. "Message understanding conference - 6: A brief history". In Proceedings of the 16th International Conference on Computational Linguistics, Copenhagen.



