L'assemblée ARAMIS-2019 a eu lieu le jeudi 23 mai 2019 sur le campus de la Doua dans l’amphithéâtre Lederer du bâtiment ICBMS.

Le thème retenu cette année est : La reproductibilité en pratique : méthodes et outils

Pour sa 11ème journée, ARAMIS a souhaité explorer la reproductibilité sous toutes ses formes et les questions associées.

  • Comment assurer la protection, la qualité et la traçabilité des données ?
  • Comment stocker, protéger et exploiter ces données ?
  • Quel code : comment l'écrire, le stocker et garantir son exécution dans le temps ?
  • Est-ce que l'approche via des conteneur répond à cette problématique ?

Webcast

Cette journée a été vidéo-diffusée en direct par la cellule Webcast du CC-IN2P3, l'ensemble des vidéo sont disponibles en VOD sur https://webcast.in2p3.fr/container/journee-aramis-2019

Questionnaire de satisfaction

Merci de renseigner le questionnaire de satisfaction pour nous faire vos retours et suggestions :

https://limsur.math.cnrs.fr/index.php/957728/lang/fr

Programme

Matin 8h30-9h00 Accueil
9h00-9h15 Présentation du réseau Aramis Vidéo Vincent Hurtevent - Université de Lyon
9h15-10h00 Keynote : Les enjeux et défis de la recherche reproductible
Présentation Vidéo
Konrad Hinsen
Chercheur CNRS au Centre de Biophysique Moléculaire, Orléans
10h00-10h30 SIDUS : c'est un “grand pas” pour la déduplication. Un unique “petit pas” pour la reproductibilité ?
Au delà de son aspect “pratique” (“on n'installe plus les machines, on les démarre !”), SIDUS apporte une reproductibilité totale du système d'exploitation, dans le temps (sur une même machine à des instants différents) ou dans l'espace (sur des machines déployées au même instant). A travers quelques exemples du Centre Blaise Pascal, nous verrons que, lorsque des variabilités (notamment temporelles) apparaissent sur des installations sous un même SIDUS, les origines sont à rechercher ailleurs : matériel, BIOS, conditions climatiques… Nous concluerons que, si des solutions à base de conteneurs présentent la racine d'un système comme le graal de la reproductibilité, il n'en est rien : SIDUS vous prouvera le contraire !
Présentation Vidéo
E. Quemener - ENS Lyon
10h30-10h45 Pause
10h45-11h30 La reproductibilité au service de la Biologie computationnelle
Les outils de reproductibilité choisis ont tous des équivalents fonctionnels (docker/singularity, snakemake/nextflow, jupyter/Rmarkdown, …)
Une étude récente publiée dans Nature a montré que près de 70% des expériences en Biologie ne sont pas reproductibles. Il est donc indispensable de mettre en place des bonnes pratiques afin de garantir l’intégrité des données et la reproductibilité des résultats d’analyse. Concernant les données, les principes FAIR-data sont de plus en plus utilisés. Ces mêmes principes peut être détournés au service des analyses pour garantir des résultats identiques à partir d’un même jeu de données et au cours du temps..L’objectif de cette présentation est de proposer un panel de fonctionnalités permettant de rendre reproductible une analyse complète de bioinformatique. L’exemple présenté a pour but de sélectionner des gènes qui ne se comportent pas de la même façon entre deux conditions expérimentales. Les fonctionnalités présentées ne sont pas dépendantes de cet exemple. En effet, elles peuvent être appliquées à n'importe quelle autre question biologique.Brièvement, nous récupérons les données depuis les bases de données publiques (ENA/SRA), nous réalisons une analyse reproductible avec un système de workflow (snakemake) dans un environnement virtuel (docker) dont l'ensemble du code, versionné (git), est disponible en open source (Github et dockerhub). La visualisation des résultats est dynamique (shiny app) et un rapport (Rmarkdown) en pdf ou html est disponible. Il regroupe les résultats de l’analyse et détaille l’ensemble des paramètres choisis par l'utilisateur.
Présentation Vidéo
Thomas Denecker
Claire Toffano-Nioche
I2BC, Gif-Sur-Yvette
11h30-12h00 Panorama des solutions de diffusion et d’installation des codes logiciels dans un contexte HPC largement multi-utilisateurs
Présentation Vidéo
Pierre-Antoine Bouttier et Violaine Louvet - UMS GRICAD
Midi 12h00-14h00 Pause repas
Après-midi 14h00 - 14h07 Lightning talk : Pipelines nextflow
Présentation Vidéo
Jeremy Ganofsky - ENS Lyon
14h08 - 14h15 Lightning talk : Portail web pour soumettre, formater et partager des jeux de données dans R
Présentation Vidéo
Stéphane Dray - Directeur de recherche CNRS au LBBE
14h15 - 15h00 Présentation du MOOC Recherche Reproductible
Utilisation d'un serveur Gitlab pour réaliser tous les exercices du MOOC, d'un espace personnel Jupyter par apprenant (Jupyterhub) avec un système de gestion de version simplifié.
Présentation Vidéo
Laurence Farhi
Benoit Rospars
INRIA LEARNING LAB Grenoble
15h00 - 15h30 Au-delà des conteneurs : environnements logiciels reproductibles avec GNU Guix
La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel à l’identique mais permettent difficilement d’aller au-delà et d’expérimenter. Cet exposé parlera de comment GNU Guix entend concilier reproductibilité et expérimentation pour les environnements logiciels et de son positionnement par rapport aux « conteneurs » et aux outils de gestion de paquets.
Présentation Vidéo
L. Courtes - INRIA Bordeaux
15h30 - 15h45 Pause
15h45 - 16h30 Execo a library to manage unix processes on thousands of remote hosts
It is well designed for:
- prototyping experiments on distributed systems
- automatize admin tasks
- create reproducible experiments Présentation Vidéo
Laurent Pouilloux - EC Lyon
16h30 - 17h00 Bistro: a library to build large-scale workflows in computational biology (OCaml)
Computational pipelines for analyzing high-throughput genomics datasets typically consist of tens to hundreds of shell commands, generating thousands of files and running for days or weeks. While becoming rather complex pieces of software, they are most of the time still programmed using rudimentary tools like shell scripts, which offer very little help to develop large and reusable programs. In addition to being error-prone, implementing computational pipelines using shell scripts leaves lots of tedious aspects to the programmer, diverting her/his attention from data analysis considerations. In this work, I propose to leverage a modern, statically typed programming language to implement as a simple library a comfortable environment to develop bioinformatics pipelines. This library is named bistro and is written in the OCaml language. Among other features, it provides dependency tracking, parallel execution, resume-on-failure, automatic naming of intermediate files, easy deployment of pipelines using Docker or Singularity for enhanced reproducibility. Thanks to the compiler type checker, errors on file formats or typos in command arguments are detected at compile-time, that is even before running the pipeline. I'll show various benefits of embedding a pipeline development framework in a generalist language. Among other things, it becomes very easy to integrate a pipeline into a web server, or write extensible libraries of highly configurable pipelines.
Présentation Vidéo
Philippe Veber - LBBE, UMR 5558 Lyon
17h00 - 17h30 La plateforme web “Virtual Imaging Platform” pour une science ouverte et reproductible.
Présentation Vidéo
Sorina Pop
Frédéric Cervenansky - CREATIS

Accès Wifi

Les réseau Eduroam et Eduspot sont disponibles sur le site et vous pouvez demander via la fiche d'inscription la création d'un accès wifi.

pleniaires/pleniere23mai2019.txt · Dernière modification : 2019/06/27 08:08 de denis.pugnere
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0