Le groupe de travail Miners a pour vocation de réunir des chercheurs autour du domaine de l’apprentissage artificiel à travers des réunions, des échanges (brainstorming) et des séminaires.
La recherche au sein du groupe Miners s'articule autour de trois grands axes: Apprentissage automatique, Analyse des données et leurs applications au monde réel.
Title: Explainable Classification of Uncertain Time Series.
Abstract: Time series classification is one of the most studied theoretical and applied fields of time series analysis. Many classical machine learning as well as deep learning algorithms, have been developed during the last decade to accurately perform time series classification. However, the case where the time series are uncertain is still under-explored. In this work, we discuss the importance of uncertainty handling in machine learning in general and in time series classification in particular. We propose efficient, robust and explainable methods for the classification of uncertain time series. We assess our methods on simulated datasets, but also on a real scenario in the astrophysics in which uncertainty in preponderant. The results we obtained are understandable and trustable by astronomers. Our proposed methods are tools that will facilitate the understanding of the universe in which we life in particular, and the field of uncertain time classification in general.
Invited speaker: Pablo Báez
Title: Linguistic characterization of the Chilean clinical text: towards an automatic extraction of information.
Abstract: Free text is an effective and efficient method for documenting the complex reasoning involved in patient care, which explains its frequent use in the clinical setting. Using these records in research offers unprecedented possibilities but presents significant difficulties, especially in languages other than English, where linguistic resources and models are scarce. Knowledge of linguistic properties in the clinical text is essential because it forms the basis for developing and optimizing Natural Language Processing (NLP) and text mining tools. Despite its importance, there is a significant knowledge gap in Chilean clinical text's linguistic features and sublanguage. Since NLP tools tend to be more robust in specific domains, it is essential to define and understand well the sublanguages of the domain to be analyzed. Considering the current needs, we aim to characterize the linguistic richness and sublanguage of six Chilean clinical corpora to advance in developing NLP tools suitable for the contemporary Chilean clinical text.
La société Jeolis Solutions axe une partie de ses activités sur la conception de solutions logicielles pour la gestion et le suivi des patients. Elle souhaite à présent estimer leur état émotionnel pour le corréler à leurs réponses aux questionnaires protocolisés. Cela permettra aux professionnels de santé de connaître également à distance la santé mentale de leurs patients et prévenir d'éventuels risques de rechute, essentiel pour les patients souffrant d'une pathologie chronique ou mentale.
Dans ce contexte, l'objectif de la thèse CIFRE est de développer un système de reconnaissance automatique des émotions, à partir des signaux issus des modalités visuelle, vocale et textuelle. Ce travail de recherche comporte ses propres défis, notamment avec la fusion de données hétérogènes et à haute dimension, ainsi que la gestion d'informations contradictoires.
D'autres projets de Jeolis Solutions bénéficieront aussi du développement d'un tel système, comme le suivi de la qualité de vie au travail et le coaching personnalisé de l'activité physique.
Pfeiffer Vacuum France est la filiale du groupe international, l’un des leaders sur les marchés du vide : pompes à vide, détecteurs de fuite, pompes turbo moléculaires, systèmes de contrôle de l’étanchéité. Implantée à ANNECY (74000), Pfeiffer Vacuum compte aujourd’hui environ 1000 collaborateurs qui travaillent à la conception, à la fabrication et à la commercialisation de pompes à vide, détecteurs de fuite, pompes turbo moléculaires, systèmes de contrôle de l’étanchéité…
Pfeiffer Vacuum est partenaire du projet IT2 et est chargée de développer la technologie PTR-ToF-MS pour l'identification et la surveillance de la contamination aéroportée, liée aux procédés en salle blanche et dans les environnements FOUP. L’objectif est de développer un nouveau logiciel d'analyse de traitement des données pour permettre une identification facile des composés détectés inconnus (aujourd'hui, l'identification ne peut être effectuée que si l'étalonnage des molécules a été effectué auparavant) qui peuvent être présents dans l'environnement FOUP ou dans la salle blanche. Cette identification s’appuiera sur des études expérimentales dans ces environnements. A noter que l’analyseur, génère de grosses quantités de données: spectres (autour de 3Go/jour en continu), aujourd’hui, toutes les informations ne sont pas traitées et tous les composés ne sont pas identifiés.
C’est dans ce contexte que s’inscrit la collaboration de Pfeiffer Vacuum avec le CNRS-LIMOS. Le CNRS-LIMOS sert de soutien à Pfeiffer sur le stockage et l’analyse de données pour l’identification et la surveillance de la contamination aéroportée, liée aux procédés en salle blanche.
Un des travaux effectués au sein de l'équipe est l'étude et l'état de l’art sur la gestion et le stockage de flux de données (Data Stream) pour l’entreprise Pfeiffer. Le système de stockage existant (MariaDB) est comparé avec le nouveau système de séries temporelles (InfluxDB) pour quantifier le gain en termes de performances et espace de stockage.