Analyser efficacement les « Big Data » en Neurosciences

Les séries de données constituent l’un des types de données les plus populaires que les scientifiques ont à traiter et cela dans de nombreux domaines scientifiques et industriels. Les séries de données sont définies comme des suites ordonnées de valeurs. Les séries chronologiques sont un cas particulier de série de données particulièrement courant, où les valeurs sont mesurées au cours du temps. Mais une série peut être également définie relativement à d’autres quantités comme par exemple la masse en spectroscopie de masse. En Neurosciences, l’imagerie fonctionnelle (IRMf, NIRSf), l’Electroencéphalographie (EEG) et la Magnétoencéphalographie (MEG), par exemple, fournissent des séries temporelles de données.

Une caractéristique commune à la plupart des applications impliquant l’analyse de séries de données est que l’on doit considérer la suite de valeurs comme un objet unique, plutôt que de
traiter les points individuels indépendamment. Pour rendre les choses encore plus difficiles, les récents progrès dans les technologies de détection ont considérablement facilité le processus de production, conduisant à la collecte d’énormes quantités de séries de données à des taux et volumes extrêmement élevés, ce qu’on appelle maintenant communément les Big Data.

Dans ce contexte, rechercher efficacement les similitudes entre séries de données est d’une importance primordiale, car cela constitue la base de presque toutes les tâches d’analyse des séries de données, qu’il s’agisse de classification et de regroupement des données (clustering), ou d’identification des motifs récurrents ou des valeurs aberrantes. Malheureusement, rechercher les similarités dans une collection de séries de données s’avère un vrai défi, car nous sommes maintenant confrontés à la nécessité pratique de traiter des masses de données pouvant compter jusqu’à des milliards de séries. Par conséquent, il y a un intérêt majeur à pouvoir analyser très grandes collections de séries de données en étant le moins pénalisé possible par les contraintes de traitement et de stockage.

L’analyse des séquences de données est l’un axes de recherche majeur du Laboratoire d’Informatique de Paris Descartes (LIPADE), laboratoire membre de l’Institut Neurosciences et Cognition. Les chercheurs de ce laboratoire ont mis au point des techniques de pointe pour résoudre le problème de la recherche efficace de similarités dans de très grandes collections de séries de données, qui minimisent le temps de prétraitement de données et le temps de réponse aux requêtes. Ces techniques permettent de lancer diverses recherches séquentiellement et en parallèle sur les données en obtenant des réponses rapides et d’effectuer des tâches complexes d’analyse sur des collections d’un milliard de séries, ce qui était précédemment infaisable. Ces avancées augmentent considérablement la quantité et la finesse des données de Neurosciences que l’on peut traiter et analyser efficacement, avec les conséquences que l’ on peut imaginer en termes scientifiques et médicaux.

La gestion et l’analyse des séries de données est un domaine particulièrement excitant de la recherche en informatique qui a des applications pratiques importantes en neurosciences. Les résultats récemment obtenus au LIPADE sont déjà très encourageants et promettent un bel avenir pour les analyses complexes de très grandes bases de série de données.

capture écran

Capture d’écran montrant le logiciel développé au LIPADE pour la recherche de similarité dans les séries de données. La série en gris correspond à la requête, tandis que la série de données en bleu est la réponse, c’est à dire la série de données la plus similaire à celle en gris dans la collection.