Table des matières
L'assemblée ARAMIS-2019 a eu lieu le jeudi 23 mai 2019 sur le campus de la Doua dans l’amphithéâtre Lederer du bâtiment ICBMS.
Le thème retenu cette année est : La reproductibilité en pratique : méthodes et outils
Pour sa 11ème journée, ARAMIS a souhaité explorer la reproductibilité sous toutes ses formes et les questions associées.
- Comment assurer la protection, la qualité et la traçabilité des données ?
- Comment stocker, protéger et exploiter ces données ?
- Quel code : comment l'écrire, le stocker et garantir son exécution dans le temps ?
- Est-ce que l'approche via des conteneur répond à cette problématique ?
Webcast
Cette journée a été vidéo-diffusée en direct par la cellule Webcast du CC-IN2P3, l'ensemble des vidéo sont disponibles en VOD sur https://webcast.in2p3.fr/container/journee-aramis-2019
Questionnaire de satisfaction
Merci de renseigner le questionnaire de satisfaction pour nous faire vos retours et suggestions :
Programme
Matin | 8h30-9h00 | Accueil | |
---|---|---|---|
9h00-9h15 | Présentation du réseau Aramis Vidéo | Vincent Hurtevent - Université de Lyon | |
9h15-10h00 | Keynote : Les enjeux et défis de la recherche reproductible Présentation Vidéo | Konrad Hinsen Chercheur CNRS au Centre de Biophysique Moléculaire, Orléans |
|
10h00-10h30 | SIDUS : c'est un “grand pas” pour la déduplication. Un unique “petit pas” pour la reproductibilité ? Au delà de son aspect “pratique” (“on n'installe plus les machines, on les démarre !”), SIDUS apporte une reproductibilité totale du système d'exploitation, dans le temps (sur une même machine à des instants différents) ou dans l'espace (sur des machines déployées au même instant). A travers quelques exemples du Centre Blaise Pascal, nous verrons que, lorsque des variabilités (notamment temporelles) apparaissent sur des installations sous un même SIDUS, les origines sont à rechercher ailleurs : matériel, BIOS, conditions climatiques… Nous concluerons que, si des solutions à base de conteneurs présentent la racine d'un système comme le graal de la reproductibilité, il n'en est rien : SIDUS vous prouvera le contraire ! Présentation Vidéo | E. Quemener - ENS Lyon | |
10h30-10h45 | Pause | ||
10h45-11h30 | La reproductibilité au service de la Biologie computationnelle Les outils de reproductibilité choisis ont tous des équivalents fonctionnels (docker/singularity, snakemake/nextflow, jupyter/Rmarkdown, …) Une étude récente publiée dans Nature a montré que près de 70% des expériences en Biologie ne sont pas reproductibles. Il est donc indispensable de mettre en place des bonnes pratiques afin de garantir l’intégrité des données et la reproductibilité des résultats d’analyse. Concernant les données, les principes FAIR-data sont de plus en plus utilisés. Ces mêmes principes peut être détournés au service des analyses pour garantir des résultats identiques à partir d’un même jeu de données et au cours du temps..L’objectif de cette présentation est de proposer un panel de fonctionnalités permettant de rendre reproductible une analyse complète de bioinformatique. L’exemple présenté a pour but de sélectionner des gènes qui ne se comportent pas de la même façon entre deux conditions expérimentales. Les fonctionnalités présentées ne sont pas dépendantes de cet exemple. En effet, elles peuvent être appliquées à n'importe quelle autre question biologique.Brièvement, nous récupérons les données depuis les bases de données publiques (ENA/SRA), nous réalisons une analyse reproductible avec un système de workflow (snakemake) dans un environnement virtuel (docker) dont l'ensemble du code, versionné (git), est disponible en open source (Github et dockerhub). La visualisation des résultats est dynamique (shiny app) et un rapport (Rmarkdown) en pdf ou html est disponible. Il regroupe les résultats de l’analyse et détaille l’ensemble des paramètres choisis par l'utilisateur. Présentation Vidéo | Thomas Denecker Claire Toffano-Nioche I2BC, Gif-Sur-Yvette |
|
11h30-12h00 | Panorama des solutions de diffusion et d’installation des codes logiciels dans un contexte HPC largement multi-utilisateurs Présentation Vidéo | Pierre-Antoine Bouttier et Violaine Louvet - UMS GRICAD | |
Midi | 12h00-14h00 | Pause repas | |
Après-midi | 14h00 - 14h07 | Lightning talk : Pipelines nextflow Présentation Vidéo | Jeremy Ganofsky - ENS Lyon |
14h08 - 14h15 | Lightning talk : Portail web pour soumettre, formater et partager des jeux de données dans R Présentation Vidéo | Stéphane Dray - Directeur de recherche CNRS au LBBE | |
14h15 - 15h00 | Présentation du MOOC Recherche Reproductible Utilisation d'un serveur Gitlab pour réaliser tous les exercices du MOOC, d'un espace personnel Jupyter par apprenant (Jupyterhub) avec un système de gestion de version simplifié. Présentation Vidéo | Laurence Farhi Benoit Rospars INRIA LEARNING LAB Grenoble |
|
15h00 - 15h30 | Au-delà des conteneurs : environnements logiciels reproductibles avec GNU Guix La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel à l’identique mais permettent difficilement d’aller au-delà et d’expérimenter. Cet exposé parlera de comment GNU Guix entend concilier reproductibilité et expérimentation pour les environnements logiciels et de son positionnement par rapport aux « conteneurs » et aux outils de gestion de paquets. Présentation Vidéo | L. Courtes - INRIA Bordeaux | |
15h30 - 15h45 | Pause | ||
15h45 - 16h30 | Execo a library to manage unix processes on thousands of remote hosts It is well designed for: - prototyping experiments on distributed systems - automatize admin tasks - create reproducible experiments Présentation Vidéo | Laurent Pouilloux - EC Lyon | |
16h30 - 17h00 | Bistro: a library to build large-scale workflows in computational biology (OCaml) Computational pipelines for analyzing high-throughput genomics datasets typically consist of tens to hundreds of shell commands, generating thousands of files and running for days or weeks. While becoming rather complex pieces of software, they are most of the time still programmed using rudimentary tools like shell scripts, which offer very little help to develop large and reusable programs. In addition to being error-prone, implementing computational pipelines using shell scripts leaves lots of tedious aspects to the programmer, diverting her/his attention from data analysis considerations. In this work, I propose to leverage a modern, statically typed programming language to implement as a simple library a comfortable environment to develop bioinformatics pipelines. This library is named bistro and is written in the OCaml language. Among other features, it provides dependency tracking, parallel execution, resume-on-failure, automatic naming of intermediate files, easy deployment of pipelines using Docker or Singularity for enhanced reproducibility. Thanks to the compiler type checker, errors on file formats or typos in command arguments are detected at compile-time, that is even before running the pipeline. I'll show various benefits of embedding a pipeline development framework in a generalist language. Among other things, it becomes very easy to integrate a pipeline into a web server, or write extensible libraries of highly configurable pipelines. Présentation Vidéo | Philippe Veber - LBBE, UMR 5558 Lyon | |
17h00 - 17h30 | La plateforme web “Virtual Imaging Platform” pour une science ouverte et reproductible. Présentation Vidéo | Sorina Pop Frédéric Cervenansky - CREATIS |
Accès Wifi
Les réseau Eduroam et Eduspot sont disponibles sur le site et vous pouvez demander via la fiche d'inscription la création d'un accès wifi.