Data Science et Big data - Thierry Artières
Transcription
Data Science et Big data - Thierry Artières
Apprentissage Automatique, Big Data et Data Science Thierry Artières T. Artières - LIF / AMU - Ecole Centrale Marseille Le machine learning : un paradigme de programmation Quel algorithme? T. Artières - LIF / AMU - Ecole Centrale Marseille L’Apprentissage Automatique: un paradigme de programmation Quel algorithme? [Farabet et al., IEEE PAMI, 2012] T. Artières - LIF / AMU - Ecole Centrale Marseille L’Apprentissage Automatique: un paradigme de programmation Quel algorithme? Epilepsie / Pas d’épilepsie T. Artières - LIF / AMU - Ecole Centrale Marseille • Le cas Jeopardy : Jeu télévisé – On nous donne une réponse, on doit trouver la question • Exemple de réponse : Stendhal Question à trouver : Qui a écrit le Rouge et le Noir ? • IBM DeepQA program (QA = Question Answering) – A gagné à Jeopardy (2011) – Peut être étendu à d’autres domaines • Domaine médical, juridique etc L’Apprentissage Automatique Adapté pour tout type de tâches de décision, de prédiction – Pour lesquelles on ne connait pas d’algorithme – Pour lesquelles on ne veut pas passer par une étape de formalisation • Champs d’applications • Réflexion : Intelligence Artificielle et jeux • Interprétation textuelle : Recherche d’information, résumé automatique, traduction automatique, analyse de sentiment, analyse de réputation • Robotique et systèmes autonomes • Taches perceptives : images, vidéos, parole, musique, gestes • Recommandation et personnalisation • Inférence sur des données relationnelles (sociales) et graphes, web T. Artières - LIF / AMU - Ecole Centrale advertising… Marseille Contexte de la société de l’information Les Vs La data-isation Et puis? T. Artières - LIF / AMU - Ecole Centrale Marseille Contexte de la société de l’information Les Vs L’or noir n’est qu’un produit brut… La data-isation Et puis? T. Artières - LIF / AMU - Ecole Centrale Marseille Contexte de la société de l’information Les Vs L’or noir n’est qu’un produit brut… La data-isation Et puis? Bienvenue dans la data science ! T. Artières - LIF / AMU - Ecole Centrale Marseille L’Apprentissage Automatique et la science des données Informatique Programmation Apprentissage Automatique Complexité Bases de données T. Artières - LIF / AMU - Ecole Centrale Marseille Fondamental Mathématiques Statistiques L’Apprentissage Automatique et la science des données Informatique Fondamental Programmation Complexité Bases de données Mathématiques Statistiques Data science Hacking Ingénierie des données Calcul GPU et // Web T. Artières - LIF / AMU - Ecole Centrale Marseille Applicatif Expertise de domaine L’Apprentissage Automatique et la science des données Informatique Fondamental Programmation Complexité Bases de données Mathématiques Statistiques Data science Hacking Raffiner l’or noir Ingénierie des données Calcul GPU et // Web T. Artières - LIF / AMU - Ecole Centrale Marseille Applicatif Expertise de domaine Kaggle • Site de rencontre entre entreprises et datascientists • Gros succès en termes de participation • Hétérogénéité des participants • Rendu possible par l’apparition de nombreux toolkits de ML gratuits (Weka, Scikit-learn) et payants • Matthieu S. (UPMC 2013) 127th /219,547 T. Artières - LIF / AMU - Ecole Centrale Marseille Ce que le big data change (en AA) Nombreux problèmes « tous les jours » Nouvelles tâches à inventer Changement profond dans la manière de résoudre une tâche • N=All • Qualité variable et amoindrie des données T. Artières - LIF / AMU - Ecole Centrale Marseille Ce que le big data change Approche traditionnelle Approche « Big Data » Problème clairement identifié Besoins multiples Sélection limitée de données représentatives Collection la plus large de données Examen rendu aisé par la taille limitée Utilisation de méthodes statistiques Estimation d’un modèle T. Artières - LIF / AMU - Ecole Centrale Marseille L’exemple des réseaux de neurones • 1980-1990 : Vague des RNs – Irrigue tous les domaines de la Reconnaissance Des Formes • 2005-Aujourd’hui : Renouveau / Apprentissage profond – Algorithmes (modérément) nouveaux – Usage massif de données d’entrainement Avancées majeures sur divers problèmes réels durs (Vision, Parole, Texte) T. Artières - LIF / AMU - Ecole Centrale Marseille L’exemple de la Traduction Automatique • 1990 – IBM fait une avancée majeure • La traduction vue comme un TRES gros problème statistique – Espace |Phrases en Anglais| -> |Phrases en Français| • Ressources importantes (transcriptions parlement canadien Fr/En) mais limitées : Millions de documents • 2000 – Google • Énorme corpus – Milliards de documents – diverses qualités plus ou moins alignés • Cela fonctionne beaucoup mieux T. Artières - LIF / AMU - Ecole Centrale Marseille