Limiter l’impact des erreurs OCR sur les représentations distribuées de mots Axel Jean-Caurant axel.jean-caurant@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Cyrille Suire cyrille.suire@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Vincent Courboulay vincent.courboulay@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Jean-Christophe Burie jean-christophe.burie@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Université de La Rochelle, France Les chercheurs en Humanités numériques intéres- sés par l’analyse de grands corpus textuels utilisent de nombreuses méthodes et outils issus de domaines in- formatiques comme le traitement du langage naturel (Piotrowski, 2012) ou l’analyse de réseaux (Lemercier, 2005). Des méthodes récentes fondées sur les réseaux de neurones présentent également un intérêt majeur. Word2Vec est une méthode qui a grandement facilité l’utilisation de tels modèles (Mikolov, 2013). Les diffé- rentes optimisations apportées permettent, très sim- plement, d’entraı̂ner un modèle sur de grandes quan- tités de données en utilisant un simple ordinateur de bureau. Le code source a été largement diffusé et a rendu cette méthode très populaire, notamment parmi les chercheurs en Humanités numériques. Hamilton a par exemple montré l’intérêt de ces modèles pour an- alyser l’évolution de certains mots du langage au cours du temps (Hamilton, 2016). Ces méthodes peuvent également être utilisées à d’autres fins. En effet, de nombreux corpus utiles aux Humanités numériques sont issus de processus de reconnaissance de carac- tères (OCR). Malheureusement, ces processus gé - nèrent très souvent des erreurs, en particulier quand les documents analysés sont de mauvaise qualité (doc- uments anciens ou mal numérisés par exemple). Ces erreurs touchent notamment les entités nommées comme les noms de lieux ou de personnes, par- ticulièrement intéressants pour les chercheurs (Gefen, 2015). Ces erreurs ont un impact majeur sur l’accès à l’information car elles peuvent empêcher d’accéder à toutes les occurrences d’un mot d’intérêt. Dans ce poster, nous présentons la méthode que nous avons développée pour étendre l’usage de Word2Vec à l’identification des erreurs OCR dérivées d’entités nommées. Après avoir entraı̂né un modèle sur un corpus donné, chaque mot est associé à un vec- teur représentatif. Il devient alors possible de com- parer les vecteurs pour extraire des relations mor- phologiques ou sémantiques entre les mots. On peut par exemple calculer la distance cosinus qui sépare deux mots dans l’espace vectoriel du modèle. Si, au sein du corpus, ces mots apparaissent dans des con- textes similaires, la distance qui les sépare sera faible. Or, une entité nommée, bien que mal reconnue par le processus OCR, apparaı̂t souvent dans le même con- texte que l’entité originale. En combinant cette dis- tance, qui agit sur les vecteurs, avec une distance d’édi- tion sur les mots, nous pouvons identifier des mots proches sémantiquement et qui possèdent beaucoup de caractères en commun. Cette analyse produit ainsi une liste de termes qui ont toutes les chances d’être des entités mal reconnues par le processus de recon- naissance de caractères. Figure 1: Expérience menée par Bjerva et. al., qui présente les similarités entre différents personnages et quelques grands concepts. Plus une cellule est rouge, plus la similar- ité est importante. Une fois les erreurs identifiées, il est possible de s’in- téresser à une entité nommée particulière. Sur la base des résultats précédents, nous proposons la construc- tion d’un nouveau vecteur associant le vecteur de l’en- tité originale et les vecteurs représentatifs des erreurs. Ce nouveau vecteur est le résultat de la combinaison linéaire des vecteurs du mot original et des erreurs OCR. Pour modérer l’importance des vecteurs dans la