Cancer du rein : un pronostic plus sûr grâce au big data
À l’occasion d'un stage dans un laboratoire du CNRS, un étudiant de médecine passionné de nouvelles technologies a mis au point un algorithme pronostic de l’évolution du cancer du rein. Un outil précurseur qui combine big data et intelligence artificielle.
Sarah Balfagon - Publié le
Été 2015 : étudiant en quatrième année de chirurgie, Adnan El Bakri est à la recherche d’un stage de Master 2 à effectuer entre octobre 2015 et septembre 2016. Il contacte le laboratoire de biophotonique du CNRS de Reims spécialisé dans la micro-imagerie infra-rouge. Le futur chirurgien urologue s’intéresse particulièrement au cancer du rein et propose au laboratoire une étude sur l’identification de marqueurs optiques à des fins pronostiques.
Parmi les spécialités de l’équipe de Reims, en effet, se trouve la spectroscopie vibrationnelle, une technique qui utilise la lumière infra-rouge pour déterminer les caractéristiques moléculaires des tissus, c’est-à-dire leur composition en protéines par exemple. Or, explique l'étudiant, « des travaux ont déjà été effectués en cancérologie avec cet appareil, mais uniquement dans le cadre du diagnostic ». L’objectif d’Adnan est d’identifier un marqueur permettant de mieux prédire le risque de survenue de métastases dans le cancer du rein.
Pour cela, il propose d’exploiter les possibilités offertes par le big data, c’est-à-dire la collecte et l’analyse de données en nombre gigantesque. Plus l’échantillon considéré est important, en effet, plus les statistiques – d’évolution tumorale, par exemple – sont pertinentes.
100 patients, 4 millions de données
Pour le projet, donc, l’équipe de recherche sélectionne un groupe de cent patients opérés d’un cancer du rein plusieurs années auparavant, toute trace de tumeur ayant été retirée. Dans la moitié des cas, des métastases sont apparues au cours des cinq années suivant l’opération ; dans l’autre moitié, aucune récidive ne s’est déclarée cinq ans plus tard. Les deux groupes sont comparables statistiquement : impossible de prédire a priori l’évolution de la maladie.
L’étape suivante consiste à récupérer des morceaux des tumeurs retirées et à les analyser sous forme de micro-puces dans le spectrophotomètre. L’analyse de ces tissus rénaux malades livre une énorme quantité d’informations : pour chaque patient, quatre prélèvements sont étudiés, chacun fournissant un spectre lumineux par pixel, soit 10 000 données pour des images de 100 par 100 pixels. Passionné de technologies informatiques, l’étudiant en médecine a alors l’idée de traiter cette base de quatre millions de données selon les principes du big data, et notamment le data mining (traitement des données) : il demande à l’ordinateur de dégager des tendances et de constituer des groupes de patients, fondés sur les marqueurs optiques mis en évidence et correspondant à des risques différenciés d’évolution métastasique.
Deux marqueurs de risque
Pour s’assurer de la pertinence de cette classification informatique, dite « non supervisée », elle est ensuite soumise à des anatomopathologistes, ces médecins spécialisés dans l’étude des tissus au microscope, permettant de diagnostiquer un cancer à partir de l’échantillon d’une lésion suspecte. Ils étudient les images des tissus tumoraux et comparent leurs résultats à ceux de l’ordinateur. Des corrections sont ainsi apportées au programme initial grâce à un principe de l’intelligence artificielle, le machine learning. Au terme de ces différentes étapes, deux marqueurs optiques se dégagent comme présentant une probabilité statistique accrue d’association avec le risque métastatique.
« C’est une étude préliminaire prometteuse, mais qui nécessite encore beaucoup de travail pour être appliquée à la prise en charge des patients », souligne Adnan El Bakri, qui poursuit ce projet dans le cadre d’une thèse de science : « L’étape suivante sera d’effectuer une classification supervisée pour laquelle nous intégrerons les caractéristiques de chaque patient, afin que l’ordinateur affine ses prédictions grâce au deep learning », méthode d’apprentissage automatique permettant de créer des modèles capables d’effectuer des tâches complexes (comme la reconnaissance vocale). L’enjeu de tels marqueurs optiques est de déterminer la durée optimale du suivi médical et de préciser les traitements associés à la chirurgie selon le risque métastatique.
Mêlant big data et médecine prédictive, ce type de recherche pourrait être appliqué à d’autres cancers afin d’améliorer la puissance statistique des études, actuellement limitée par le nombre de patients inclus. Dans ce domaine, les États-Unis ont une longueur d’avance : des algorithmes utilisant le big data sont déjà utilisés par Google et IBM pour la recherche scientifique.