Offres d’emploi

 N’hésitez pas à déposer vos offres d’emploi en apprentissage automatique (machine learning) en cliquant ici.

Intitulé: Thèse @ Orange : État du dialogue dans les conversations longues
Type d’offre d’emploi: Offre de thèse
Détails de l’offre: Candidater : https://orange.jobs/jobs/offer.do?joid=101323&lang=FR

Thèse – Suivi de l’état du dialogue dans un contexte dialogique long et en alignement avec les bases de connaissances – F/H

Votre rôle est d’effectuer un travail de thèse sur le sujet de recherche : Suivi de l’état du dialogue dans un contexte dialogique long et en alignement avec les bases de connaissances.

La compréhension du langage naturel est un composant fondamental des systèmes de dialogue automatiques [1,2]. Deux types de compréhension de dialogue sont identifiés: la compréhension hors contexte (un seul énoncé) et dans le contexte dialogique (plusieurs énoncés). Plusieurs solutions industrielles rendent les dialogues plus naturels grâce à la brique de compréhension hors contexte ou avec très peu de contexte (SIRI, Amazon Alexa, Cortana, Orange Djingo, RASA etc.). Les dialogues pour l’assistance technique Orange sont très complexes : ils ont en moyenne 163 tours de parole (énoncés), 2230 tokens (l’unité minimale ou morceaux de mots) en moyenne.

La compréhension du langage naturel dans un contexte dialogique long est toujours un axe de recherche ouvert [3] car il s’agit de concevoir des architectures d’apprentissage profond complexes, performantes et optimales.

La compréhension hors contexte est généralement traitée comme la projection de l’énoncé de l’utilisateur vers un modèle sémantique, au travers par exemple d’une classification de son intention et de l’extraction des valeurs des slots associés [4]. Cette représentation, contextualisée dans l’historique du dialogue, correspond à l’état de l’utilisateur tel que perçu par le système et s’appelle « Dialogue State Tracking (DST) » en anglais ou suivi de l’état du dialogue. Les approches probabilistes appellent cette brique la trace de l’état de croyance, « Belief State Tracking » ou simplement « Belief Tracking » (BT). Un challenge, (« Dialogue State Tracking » (DST) challenge) a été lancé en 2012 pour susciter le développement de nouveaux modèles de BT pour un système de dialogue vocal, prenant en compte le bruit de la reconnaissance de la parole. Depuis, des approches ont été proposées pour favoriser le transfert entre domaines pour les dialogues textuels (chatbots) et ont évolué en tirant parti des méthodes d’apprentissage automatique des Support Vector Machines [5] au Deep Learning [3,6].

Les verrous à résoudre sont :

  • traiter des conversations longues
  • traiter l’alignement avec les bases de connaissance
  • favoriser le transfert de domaine pour les applications multi-domaine
  • détecter des sujets hors domaine et traiter des nouveaux domaines

Les conversations longues restent un problème ouvert car ces approches nécessitent beaucoup de mémoire et sont gourmandes en données. On s’intéresse à l’étude de l’apprentissage sans exemples, zero-shot learning pour pouvoir développer rapidement des systèmes de dialogue sur de nouveaux domaines.

L’étude du suivi de l’état du dialogue pour les contextes longs s’inscrit naturellement dans les efforts d’investissement qu’Orange met en oeuvre dans le domaine de l’Intelligence Artificielle.

[1] Williams, Jason D et Steve Young (2007). « Partially observable Markov decision processes for spoken dialog systems ». In: Computer Speech & Language 21.2.

[2] Sarikaya, Ruhi, Geoffrey E Hinton et Anoop Deoras (2014). « Application of deep belief networks for natural language understanding ». In: IEEE/ACM.

[3] Heck, Michael et al. (juil. 2020). « TripPy: A Triple Copy Strategy for Value Independent Neural Dialog State Tracking ». SigDIAL, p. 35-44.

[4] Rojas-Barahona, Lina M. et al. (déc. 2016). « Exploiting Sentence and Context Representations in Deep Neural Models for Spoken Language Understanding ». CoLING.

[5] Henderson, Matthew, Blaise Thomson et Jason Williams (2014). « The second dialog state tracking challenge ». SIGDIAL. 263. [6] Budzianowski, Paweł et al. (2018). « MultiWOZ – A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented D
Date limite de candidature: 2021-07-22
Mail de contact: linamaria.rojasbarahona@orange.com

benoit.favre@lis-lab.fr

Intitulé: CIFRE Thesis : Anomaly detection for large-scale and heterogenous data of production lines
Type d’offre d’emploi: Offre de thèse
Détails de l’offre: La détection d’anomalies est une branche de l’apprentissage artificiel qui vise à identifier des évènements anormaux et aberrants. Bien qu’elle connaisse de nombreuses applications, elle est encore sous-employée dans l’industrie, alors qu’elle peut fournir un outil essentiel pour le suivi et l’amélioration des lignes de production. Dans ce contexte, l’objectif principal de cette thèse est de développer une méthodologie de détection d’anomalies pour les données de grande dimension mesurées en grande quantité à des fréquences variables et possédant en outre une structure hiérarchique ; de telles données – de plus en plus fréquentes dans l’industrie – constituent un défi encore ouvert. En effet, les outils d’apprentissage doivent non seulement permettre de détecter les paramètres de fabrication anormaux et aberrants avec la plus grande fiabilité mais aussi fournir une interprétation de la prévision qui puisse être utile à améliorer le processus de fabrication.
La thèse explorera différentes voies comme la profondeur de données et la classification une classe. Elle sera réalisée dans le cadre d’une collaboration étroite entre l’entreprise Valeo (site de production l’Isle d’Abeau) et Télécom Paris (Institut Polytechnique de Paris). Les méthodes développées seront appliquées à des bases de données issues d’un ensemble de ligne de production de dernière génération.

Encadrants :
Pavlo Mozharovskyi – LTCI, Télécom Paris, Institut Polytechnique de Paris
Florence d’Alché-Buc – LTCI, Télécom Paris, Institut Polytechnique de Paris

Qualifications attendues :
– Master en statistique / science de données / Machine Learning / intelligence artificiel / Diplôme d’ingénieur avec spécialisation dans ces domaines.
– Très bon niveau dans au moins un des langages de programmation de Machine Learning : R / Python, C / C++, ou similaire.

Lieu :
– Télécom Paris (Campus de Institut Polytechnique de Paris, 25 km de Paris), 19 place Marguerite Perey, F-91120 Palaiseau.
– Valeo, site L’Isle d’Abeau.

Deadline :
– Jusqu’au recrutement, mais pas plus tard que le 31 août 2021.

Pour candidater :
Envoyer les documents suivants sur
pavlo.mozharovskyi@telecom-paris.fr et florence.dalche@telecom-paris.fr :
– lettre de motivation;
– curriculum vitae;
– copie(s) de diplôme(s);
– nom(s)/email(s) d’en moins un référant.

Date limite de candidature: Until the position is filled
Mail de contact: pavlo.mozharovskyi@telecom-paris.fr florence.dalche@telecom-paris.fr
Intitulé: Engineering position on improving and extending Probabilistic Regression trees
Type d’offre d’emploi: Offre de poste dans l’académique
Détails de l’offre: Machine learning methods have been successful in various domains, such as marketing with customer behaviour prediction, health with patient diagnosis and industry with the optimisation of industrial processes. In many cases, one needs to make some prediction from parameters that are heterogeneous, as they can be quantitative or qualitative, ordinal or non-ordinal, real or Boolean, and are uncertain in the sense that their values usually originate from noisy measurement procedures. In practice, it is important to combine all these heterogeneous parameters and to take into account their uncertainty to improve the predictions made.To address these issues, we have recently introduced [1] a new model called Probabilistic Regression (PR) trees that extend standard regression trees with the possibility to adapt to the smoothness of the prediction function while preserving interpretability and being robust to noise. This project is intended to further develop this model and make the current research prototypes more robust. In particular, the successful candidate will have to address the following points:
*Evaluate the quality of the prediction made by PR trees on several real and challenging datasets as well as the impact of uncertainty on the results;
*Design, implement and test new machine learning/data analysis methods to e.g. assess the advan- tages/disadvantages of the quantile version of PR trees and determine the importance of each parameter;
*Make the current research prototypes more usable and robust.

Context: This project fits within the Grenoble Computer Science Lab (called LIG, http://www.liglab.fr/en) and the Interdisciplinary Institute in Artificial Intelligence MIAI@Grenoble Alpes (https://miai.univ-grenoble-alpes.fr/). MIAI@Grenoble Alpes is one of the four AI Institutes created by the French government to accelerate R\&D, teaching and innovation in AI in France. It is also based on a collaboration with Marianne Clausel in IECL (Nancy) and with two industrial partners, namely Total and Serimax.

To apply: Interested candidates should send a complete CV with a list of publications and two reference letters to Emilie Devijver (emilie.devijver@univ-grenoble-alpes.fr) and Eric Gaussier (eric.gaussier@univ-grenoble-alpes.fr). Candidates should have excellent software engineering skills. They should also have experience in machine learning and modelling, an ability to work effectively with a multidisciplinary team of computer scientists and mathematicians, and excellent oral and written communication skills.

Starting date and duration: The postdoc is intended for 18 months, starting as soon as possible and no later than June 2021.

Location: The work should take place on the University Campus in Grenoble, France.

[1] S. Alkhoury et al. Smooth and Consistent Probabilistic Regression Trees. NeurIPS 2020.
Date limite de candidature: Until the position is filled
Mail de contact: Emilie.devijver@univ-grenoble-alpes.fr ; Eric.gaussier@univ-grenoble-alpes.fr