Limiter l’impact des erreurs OCR sur les représentations distribuées de mots Axel Jean-Caurant axel.jean-caurant@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Cyrille Suire cyrille.suire@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Vincent Courboulay vincent.courboulay@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Uni- versité de La Rochelle, France Jean-Christophe Burie jean-christophe.burie@univ-lr.fr Laboratoire Informatique, Image et Interaction (L3i) Université de La Rochelle, France Les chercheurs en Humanités numériques intéres- sés par l’analyse de grands corpus textuels utilisent de nombreuses méthodes et outils issus de domaines in- formatiques comme le traitement du langage naturel (Piotrowski, 2012) ou l’analyse de réseaux (Lemercier, 2005). Des méthodes récentes fondées sur les réseaux de neurones présentent également un intérêt majeur. Word2Vec est une méthode qui a grandement facilité l’utilisation de tels modèles (Mikolov, 2013). Les diffé- rentes optimisations apportées permettent, très sim- plement, d’entraı̂ner un modèle sur de grandes quan- tités de données en utilisant un simple ordinateur de bureau. Le code source a été largement diffusé et a rendu cette méthode très populaire, notamment parmi les chercheurs en Humanités numériques. Hamilton a par exemple montré l’intérêt de ces modèles pour an- alyser l’évolution de certains mots du langage au cours du temps (Hamilton, 2016). Ces méthodes peuvent également être utilisées à d’autres fins. En effet, de nombreux corpus utiles aux Humanités numériques sont issus de processus de reconnaissance de carac- tères (OCR). Malheureusement, ces processus gé - nèrent très souvent des erreurs, en particulier quand les documents analysés sont de mauvaise qualité (doc- uments anciens ou mal numérisés par exemple). Ces erreurs touchent notamment les entités nommées comme les noms de lieux ou de personnes, par- ticulièrement intéressants pour les chercheurs (Gefen, 2015). Ces erreurs ont un impact majeur sur l’accès à l’information car elles peuvent empêcher d’accéder à toutes les occurrences d’un mot d’intérêt. Dans ce poster, nous présentons la méthode que nous avons développée pour étendre l’usage de Word2Vec à l’identification des erreurs OCR dérivées d’entités nommées. Après avoir entraı̂né un modèle sur un corpus donné, chaque mot est associé à un vec- teur représentatif. Il devient alors possible de com- parer les vecteurs pour extraire des relations mor- phologiques ou sémantiques entre les mots. On peut par exemple calculer la distance cosinus qui sépare deux mots dans l’espace vectoriel du modèle. Si, au sein du corpus, ces mots apparaissent dans des con- textes similaires, la distance qui les sépare sera faible. Or, une entité nommée, bien que mal reconnue par le processus OCR, apparaı̂t souvent dans le même con- texte que l’entité originale. En combinant cette dis- tance, qui agit sur les vecteurs, avec une distance d’édi- tion sur les mots, nous pouvons identifier des mots proches sémantiquement et qui possèdent beaucoup de caractères en commun. Cette analyse produit ainsi une liste de termes qui ont toutes les chances d’être des entités mal reconnues par le processus de recon- naissance de caractères. Figure 1: Expérience menée par Bjerva et. al., qui présente les similarités entre différents personnages et quelques grands concepts. Plus une cellule est rouge, plus la similar- ité est importante. Une fois les erreurs identifiées, il est possible de s’in- téresser à une entité nommée particulière. Sur la base des résultats précédents, nous proposons la construc- tion d’un nouveau vecteur associant le vecteur de l’en- tité originale et les vecteurs représentatifs des erreurs. Ce nouveau vecteur est le résultat de la combinaison linéaire des vecteurs du mot original et des erreurs OCR. Pour modérer l’importance des vecteurs dans la