Table des matières

Webcast
Questionnaire de satisfaction
Programme
Accès Wifi

L'assemblée ARAMIS-2019 a eu lieu le jeudi 23 mai 2019 sur le campus de la Doua dans l’amphithéâtre Lederer du bâtiment ICBMS.

Le thème retenu cette année est : La reproductibilité en pratique : méthodes et outils

Pour sa 11ème journée, ARAMIS a souhaité explorer la reproductibilité sous toutes ses formes et les questions associées.

Comment assurer la protection, la qualité et la traçabilité des données ?
Comment stocker, protéger et exploiter ces données ?
Quel code : comment l'écrire, le stocker et garantir son exécution dans le temps ?
Est-ce que l'approche via des conteneur répond à cette problématique ?

Webcast

Cette journée a été vidéo-diffusée en direct par la cellule Webcast du CC-IN2P3, l'ensemble des vidéo sont disponibles en VOD sur https://webcast.in2p3.fr/container/journee-aramis-2019

Questionnaire de satisfaction

Merci de renseigner le questionnaire de satisfaction pour nous faire vos retours et suggestions :

https://limsur.math.cnrs.fr/index.php/957728/lang/fr

Programme

Matin	8h30-9h00	Accueil
	9h00-9h15	Présentation du réseau Aramis Vidéo	Vincent Hurtevent - Université de Lyon
	9h15-10h00	Keynote : Les enjeux et défis de la recherche reproductible Présentation Vidéo	Konrad Hinsen Chercheur CNRS au Centre de Biophysique Moléculaire, Orléans
	10h00-10h30	SIDUS : c'est un “grand pas” pour la déduplication. Un unique “petit pas” pour la reproductibilité ? Au delà de son aspect “pratique” (“on n'installe plus les machines, on les démarre !”), SIDUS apporte une reproductibilité totale du système d'exploitation, dans le temps (sur une même machine à des instants différents) ou dans l'espace (sur des machines déployées au même instant). A travers quelques exemples du Centre Blaise Pascal, nous verrons que, lorsque des variabilités (notamment temporelles) apparaissent sur des installations sous un même SIDUS, les origines sont à rechercher ailleurs : matériel, BIOS, conditions climatiques… Nous concluerons que, si des solutions à base de conteneurs présentent la racine d'un système comme le graal de la reproductibilité, il n'en est rien : SIDUS vous prouvera le contraire ! Présentation Vidéo	E. Quemener - ENS Lyon
	10h30-10h45	Pause
	10h45-11h30	La reproductibilité au service de la Biologie computationnelle Les outils de reproductibilité choisis ont tous des équivalents fonctionnels (docker/singularity, snakemake/nextflow, jupyter/Rmarkdown, …) Une étude récente publiée dans Nature a montré que près de 70% des expériences en Biologie ne sont pas reproductibles. Il est donc indispensable de mettre en place des bonnes pratiques afin de garantir l’intégrité des données et la reproductibilité des résultats d’analyse. Concernant les données, les principes FAIR-data sont de plus en plus utilisés. Ces mêmes principes peut être détournés au service des analyses pour garantir des résultats identiques à partir d’un même jeu de données et au cours du temps..L’objectif de cette présentation est de proposer un panel de fonctionnalités permettant de rendre reproductible une analyse complète de bioinformatique. L’exemple présenté a pour but de sélectionner des gènes qui ne se comportent pas de la même façon entre deux conditions expérimentales. Les fonctionnalités présentées ne sont pas dépendantes de cet exemple. En effet, elles peuvent être appliquées à n'importe quelle autre question biologique.Brièvement, nous récupérons les données depuis les bases de données publiques (ENA/SRA), nous réalisons une analyse reproductible avec un système de workflow (snakemake) dans un environnement virtuel (docker) dont l'ensemble du code, versionné (git), est disponible en open source (Github et dockerhub). La visualisation des résultats est dynamique (shiny app) et un rapport (Rmarkdown) en pdf ou html est disponible. Il regroupe les résultats de l’analyse et détaille l’ensemble des paramètres choisis par l'utilisateur. Présentation Vidéo	Thomas Denecker Claire Toffano-Nioche I2BC, Gif-Sur-Yvette
	11h30-12h00	Panorama des solutions de diffusion et d’installation des codes logiciels dans un contexte HPC largement multi-utilisateurs Présentation Vidéo	Pierre-Antoine Bouttier et Violaine Louvet - UMS GRICAD
Midi	12h00-14h00	Pause repas
Après-midi	14h00 - 14h07	Lightning talk : Pipelines nextflow Présentation Vidéo	Jeremy Ganofsky - ENS Lyon
	14h08 - 14h15	Lightning talk : Portail web pour soumettre, formater et partager des jeux de données dans R Présentation Vidéo	Stéphane Dray - Directeur de recherche CNRS au LBBE
	14h15 - 15h00	Présentation du MOOC Recherche Reproductible Utilisation d'un serveur Gitlab pour réaliser tous les exercices du MOOC, d'un espace personnel Jupyter par apprenant (Jupyterhub) avec un système de gestion de version simplifié. Présentation Vidéo	Laurence Farhi Benoit Rospars INRIA LEARNING LAB Grenoble
	15h00 - 15h30	Au-delà des conteneurs : environnements logiciels reproductibles avec GNU Guix La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel à l’identique mais permettent difficilement d’aller au-delà et d’expérimenter. Cet exposé parlera de comment GNU Guix entend concilier reproductibilité et expérimentation pour les environnements logiciels et de son positionnement par rapport aux « conteneurs » et aux outils de gestion de paquets. Présentation Vidéo	L. Courtes - INRIA Bordeaux
	15h30 - 15h45	Pause
	15h45 - 16h30	Execo a library to manage unix processes on thousands of remote hosts It is well designed for: - prototyping experiments on distributed systems - automatize admin tasks - create reproducible experiments Présentation Vidéo	Laurent Pouilloux - EC Lyon
	16h30 - 17h00	Bistro: a library to build large-scale workflows in computational biology (OCaml) Computational pipelines for analyzing high-throughput genomics datasets typically consist of tens to hundreds of shell commands, generating thousands of files and running for days or weeks. While becoming rather complex pieces of software, they are most of the time still programmed using rudimentary tools like shell scripts, which offer very little help to develop large and reusable programs. In addition to being error-prone, implementing computational pipelines using shell scripts leaves lots of tedious aspects to the programmer, diverting her/his attention from data analysis considerations. In this work, I propose to leverage a modern, statically typed programming language to implement as a simple library a comfortable environment to develop bioinformatics pipelines. This library is named bistro and is written in the OCaml language. Among other features, it provides dependency tracking, parallel execution, resume-on-failure, automatic naming of intermediate files, easy deployment of pipelines using Docker or Singularity for enhanced reproducibility. Thanks to the compiler type checker, errors on file formats or typos in command arguments are detected at compile-time, that is even before running the pipeline. I'll show various benefits of embedding a pipeline development framework in a generalist language. Among other things, it becomes very easy to integrate a pipeline into a web server, or write extensible libraries of highly configurable pipelines. Présentation Vidéo	Philippe Veber - LBBE, UMR 5558 Lyon
	17h00 - 17h30	La plateforme web “Virtual Imaging Platform” pour une science ouverte et reproductible. Présentation Vidéo	Sorina Pop Frédéric Cervenansky - CREATIS

Accès Wifi

Les réseau Eduroam et Eduspot sont disponibles sur le site et vous pouvez demander via la fiche d'inscription la création d'un accès wifi.