S76 Colloque Adelf-Emois / Revue d’Épidémiologie et de Santé Publique 62S (2014) S71–S92 Méthodes.– Près de 7000 séjours hospitaliers représentant deux années d’hospitalisations d’un hôpital du nord de la France sont utilisés. Un tirage au sort permet de constituer un échantillon d’apprentissage et un échantillon de test. Les diagnostics présents au moins 135 fois sont les variables à prédire. Des motifs séquentiels sont construits à partir des courriers hospitaliers, d’une part, et des résultats de biologie et prescriptions médicamenteuses, d’autre part. Ces motifs séquentiels sont utilisés comme variables explicatives aﬁn de prédire les diagnostics : des règles de prédiction sont construites en utilisant notamment l’indice de Gini. Résultats.– Un dictionnaire médical contenant près de 47 000 motifs fréquents est obtenu, d’une part, et plus de 150 000 motifs fréquents de prescriptions médicamenteuses et résultats de biologie sont générés, d’autre part. Ensuite, 356 règles de prédiction sont construites, soit environ 6,5 règles par diagnostic. L’évaluation de ces règles sur l’échantillon de test permet de retrouver près de 86 % des diagnostics (rappel) et parmi les diagnostics retrouvés, 87 % sont cor- rects (précision). La biologie et les médicaments sont retrouvés parmi 17 des jeux de règles générés pour chaque diagnostic. Discussion/Conclusion.– Des règles de prédiction de diagnostics CIM- 10 incluant plusieurs types de données ont été construites par fouille de données et évaluées. Les résultats obtenus suggèrent que la prédiction de codes est amé- liorée lorsque des informations structurées hétérogènes sont utilisées, en plus des seuls courriers. http://dx.doi.org/10.1016/j.respe.2014.01.016 B2-3 Exploitation automatisée des données électrocardiographiques pour le codage : mise en place et évaluation E. Chazard a , C. Dumesnil a , M.S. Marcolino b , A. Caron a , M.B. Alkmim b , A.L. Pinho-Ribeiro b a EA 2694, université Lille Nord de France, CHRU de Lille, Lille, France b Hospital das Clinicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brésil Introduction.– Le contrôle de qualité du codage est souvent guidé des procédures qui permettent de détecter des oublis de codes. Certaines de ces procédures sont automatisées et s’appuient sur des données produites en routine : les courriers de sortie, les résultats de laboratoire et les médicaments administrés. Un concept présent dans ces sources sans code correspondant déclenche alors une alerte. Le signal des électrocardiogrammes (ECG) n’est pas utilisé, alors que ce signal est parfois disponible et qu’il existe des interpréteurs automatisés, comme le Glasgow University Interpreter (GUI). L’objectif de ce travail est de mettre en place cet interpréteur et d’évaluer son aptitude à détecter automatiquement des anomalies électrocardiographiques. Méthodes.– Un ensemble de 897 ECG est analysé séquentiellement par trois cardiologues aﬁn d’obtenir un gold standard. Le GUI est exécuté aﬁn d’obtenir un diagnostic automatisé. Les deux codages sont comparés. Les anomalies ECG détectées sont triées selon la moyenne harmonique (F) de la sensibilité et de la valeur prédictive positive. Résultats.– Le GUI obtient ses meilleurs résultats pour (anomalie, code CIM10, moyenne harmonique) : – les blocs de branche droits, I451, F = 0,722 ; – les ﬁbrillations atriales, I490, F = 0,667 ; – les déviations de l’axe du QRS, R943, F = 0,604 ; – les blocs de branche gauche, I447, F = 0,582 ; – les tachycardies atriales, I471, F = 0,571 ; – les blocs atrio-ventriculaires du premier degré, I440, F = 0,516 ; – les extrasystoles atriales, I491, F = 0,500 ; – les syndromes de Wolff-Parkinson-White, I456, F = 0,500. Discussion/Conclusion.– Ces moyennes harmoniques sont modérément bonnes (du même ordre qu’entre deux médecins non experts), principalement du fait de faibles taux de prévalence. Néanmoins, cette approche permettrait de retrou- ver automatiquement, à moindre effort, certaines complications et morbidités associées. Par exemple, I490 est une CMA de niveau 2, et ce code rapporte en moyenne 71D par séjour lorsqu’il est utilisé (étude http://valodiag.ceﬁmis.com). Il représente 1,46 % des cas de notre échantillon et est détecté avec une valeur prédictive positive de 52,2 %. http://dx.doi.org/10.1016/j.respe.2014.01.017 B2-4 Courbes des valeurs des GHS en fonction de la durée et de la sévérité : tracé systématique et analyse M. Djennaoui a , M. Genty b , E. Aernout a , F. Maury b a Service d’information et des archives médicales, EA 2694, CHRU de Lille, Lille, France b SARL CEFIMIS, Lille, France Introduction.– L’arrêté tarifaire estime le prix d’un séjour selon sa racine de GHM, sa durée et son niveau de complexité. Son interprétation est complexe car l’algorithme de groupage tient également compte de la durée, les CMA ne s’appliquent pas toujours, les bornes temporelles varient, il peut exister plusieurs GHS par GHM. Objectif.– Représenter graphiquement et discuter la relation entre durée, comple- xité et valorisation (totale et journalière) des séjours au sein des racines de GHM. Méthodes.– Exploitant les ﬁchiers de tarifs diffusés par l’ATIH, un programme est développé en R aﬁn de tracer, pour chaque GHS, la valeur du séjour en fonc- tion de sa durée. Les courbes sont ensuite regroupées par racine de GHM. Les limites temporelles sont recalculées en fonction des autres GHS de la racine. La valeur journalière moyenne est représentée similairement. Trois graphiques sont produits pour chaque racine, en 2012 et 2013, secteurs ex-DGF et ex-OQN, soit un total de 7662 images PNG. L’analyse est focalisée sur les catégories majeures diagnostiques 1 et 4 à 7, correspondant à 206 racines de GHM et 1035 GHS du secteur ex-DGF en 2013. Résultats.– L’analyse du proﬁl des courbes d’évolution du tarif journalier en fonction des durées de séjour identiﬁe cinq proﬁls : – une décroissance graduelle du tarif journalier (610 GHS, 59 %) ; – une décroissance entrecoupée d’une réascension précoce (197 GHS, 19 %) ; – une décroissance entrecoupée d’une réascension tardive (71 GHS, 6,9 %) ; – un aplatissement de la courbe (152 GHS, 15 %) ; – une réascension sans décroissance (5 GHS, 0,5 %). Il ressort de l’analyse des spéciﬁcités médicales de ces proﬁls que la réascen- sion tardive concerne surtout des GHS chirurgicaux de niveau 4 tandis que le l’aplatissement est typique des GHS médicaux de niveau 1. Discussion/Conclusion.– Les valorisations en fonction de la durée et de la sévé- rité sont parfois différentes de la représentation que les professionnels s’en font, plus encore pour la valorisation journalière moyenne. Les images sont librement téléchargeables à l’adresse http://ghs.ceﬁmis.com. http://dx.doi.org/10.1016/j.respe.2014.01.018 B2-5 Comparaison de performance des algorithmes de rapprochement de patients X. Li a , A. Guttman a , S. Cipière b , L. Maigne b , J.-Y. Boire a , L. Ouchchane a a Institut des sciences de l’image pour les techniques interventionnelles, UMR 6284 UdA-CNRS, Clermont-Ferrand, France b Laboratoire de physique corpusculaire, UMR6533 CNRS/IN2P3 UBP, Aubière, France Introduction.– En l’absence d’identiﬁant unique, le chaînage des données distri- buées d’un même patient nécessite des algorithmes de rapprochement. À partir des traits d’identiﬁcation communs entre deux patients, ces algorithmes ont pour principe de quantiﬁer l’éventualité qu’il s’agisse d’un même individu. La compa- raison de ces algorithmes est difﬁcile du fait que leur évaluation est souvent réalisée dans des contextes spéciﬁques. Nous avons comparé quatre algorithmes de chaînages, deux algorithmes princeps et deux adaptations, sur les mêmes données, aﬁn d’en évaluer les performances. Méthodes.– Quatre algorithmes sont évalués : – chaînage probabiliste selon Fellegi et Sunter ;