Libellé du cours : | #Start&Go Data Science |
---|---|
Département d'enseignement : | / |
Responsable d'enseignement : | Monsieur PASCAL YIM |
Langue d'enseignement : | Français |
Ects potentiels : | 4 |
Grille des résultats : | Grade de V à R |
Code et libellé (hp) : | G1_S5_SG_DSC - #Start&Go Data Science |
Equipe pédagogique
Enseignants : Monsieur PASCAL YIM / Madame VERONIQUE LE COURTOIS / Monsieur ALEXANDRE MEGE REVIL / Monsieur DAVID BOULINGUEZ / Monsieur PHILIPPE QUAEGEBEUR / Monsieur PHILIPPE VANHEEGHE / Monsieur Sire de Marc EBODE ONANA / Monsieur SLIM HAMMADI
Intervenants extérieurs (entreprise, recherche, enseignement secondaire) : divers enseignants vacataires
Résumé
L’objectif principal de ce #Start&Go est de générer des informations utiles à partir d’un ensemble de données brutes. Les étudiants seront ainsi confrontés à des données en grand nombre issues de secteurs variés (catalyse, économie, transports…) et de nature diverses (numériques, lexicales, etc.). Sans connaissances préalables du secteur dont sont issues les données, ils devront en extraire des informations pertinentes pour leur « client ». Ce #Start&Go doit également être l’occasion pour les étudiants de porter un regard éthique sur l’usage des informations.
Objectifs pédagogiques
Les objectifs pédagogiques ci-dessous sont communs aux 5 variantes de #Start&Go et peuvent être complétés par des objectifs spécifiques. À la fin de l’activité, l’élève sera capable de : - Pratiquer une recherche bibliographique - Comprendre et résumer des documents de référence - Produire des documents de qualité - Utiliser des outils et appliquer une méthodologie de résolution de problème dont il n’a pas forcément les prérequis - Concrétiser ses idées par un démonstrateur fonctionnel (pouvant être un modèle) - Acquérir, notamment en autonomie, des connaissances sur un domaine nouveau - Rendre compte des connaissances acquises - Présenter et défendre son travail de façon professionnelle À la fin de l’activité, l’élève sera sensibilisé à/aux : - Contraintes économiques, sociétales et environnementales associées à la problématique - La complexité et la nécessité de modéliser les systèmes - La nécessité de valider expérimentalement un modèle - Enjeux et notions d’open source et d’open hardware - L’étude et la production de documentation en anglais - L’importance d’un bon cahier des charges - La transversalité des projets réels - La gestion du temps - La nécessité de se situer en termes de connaissance/compétences, d’exprimer ses besoins de formation - L’intérêt d’aider son équipe à améliorer son niveau de connaissance À l’issue du cours, l’élève sera capable de : · Visualiser un ensemble de données complexes · Comprendre les éléments de base associés à la nature des données traitées · Analyser et préparer un ensemble de données afin de les rendre exploitables · Appliquer des méthodes de machine learning à un ensemble de données · Restituer l’information extraite des données · S’interroger sur l’usage des outils actuels de traitement de l’information Contribution du cours au référentiel de compétences ; à l’issue du cours, l’étudiant aura progressé dans : · Capacité à collecter et analyser de l'information avec logique et méthode · Capacité à mobiliser une culture scientifique/technique (transdisciplinarité et/ou spécialisation) · Capacité à comprendre et formuler le problème (hypothèses, ordres de grandeur, etc.) · Capacité à reconnaître les éléments spécifiques d'un problème · Capacité à identifier les interactions entre éléments · Capacité à converger vers une solution acceptable (suivi hypothèses, ordres de grandeur…) · Capacité à approfondir rapidement un domaine · Capacité à développer des méthodes de travail, à organiser
Objectifs de développement durable
Modalités de contrôle de connaissance
Contrôle Continu
Commentaires: Ok
Ressources en ligne
Une introduction simple à R : <https://www.fun-mooc.fr/c4x/UPSUD/42001S02/asset/labs.html> Memo R : <http://perso.unifr.ch/florence.yerly/Script/IntroR-handout.pdf> Un exemple sur les données du Titanic (notamment Random Forests) : <https://www.kaggle.com/mrisdal/titanic/exploring-survival-on-the-titanic> Analyse en Composantes Principales : <http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/acp_avec_r.pdf> Utilisation de Jupyter avec R : <http://earlglynn.github.io/kc-r-users-jupyter/Interactive-Jupyter-Notebooks-in-R.pdf> Cours vidéos : <https://bigdatauniversity.com/courses/data-science-hands-open-source-tools/> Jeux de données (datasets) par catégories : <https://github.com/caesar0301/awesome-public-datasets> Concours Kaggle : <https://www.kaggle.com/datasets> IBM : <https://my.datascientistworkbench.com/login?next=https%3A%2F%2Fmy.datascientistworkbench.com%2Ffind_data> Base Isidore : <http://www.rechercheisidore.fr/>
Pédagogie
· Travail par groupes de 4 élèves · Participation possible à un « challenge » international de type Kaggle · Approche « pragmatique », avec apport des éléments fondamentaux indispensables à la compréhension · Apport de plusieurs disciplines pour la compréhension de jeux de données de nature différente
Séquencement / modalités d'apprentissage
Nombre d'heures en CM (Cours Magistraux) : | 0 |
---|---|
Nombre d'heures en TD (Travaux Dirigés) : | 0 |
Nombre d'heures en TP (Travaux Pratiques) : | 0 |
Nombre d'heures en Séminaire : | 0 |
Nombre d'heures en Demi-séminaire : | 0 |
Nombre d'heures élèves en TEA (Travail En Autonomie) : | 0 |
Nombre d'heures élèves en TNE (Travail Non Encadré) : | 0 |
Nombre d'heures en CB (Contrôle Bloqué) : | 0 |
Nombre d'heures élèves en PER (Travail PERsonnel) : | 0 |
Nombre d'heures en Heures Projets : | 0 |