Journée thématique - Intégration et Visualisation de données | PEPI Ingénierie Bio Informatique et Statistique pour les données haut-débit (IBIS)

Dans le cadre de la mise en place du pôle Intégration et Visualisation de données au sein du PEPI IBIS, une journée thématique aura lieu à l'Institut des Systèmes Complexes à Paris le jeudi 27 septembre 2018.

Objectifs

Les objectifs de cette journée sont :

d'échanger autour des activités d'intégration et de visualisation de données sous la forme de présentations, de mini-tutoriaux ou de retours d'expérience,
de recueillir les envies d'animation ou de formation qui pourraient être organisées et pris en charge dans le cadre du PEPI.

Compte-rendu de la journée

Voici un compte-rendu de cette journée.

Inscription

L'inscription est gratuite mais obligatoire pour des raisons d'organisation. Merci de vous inscrire via le formulaire mis à disposition.

Localisation

Institut des Systèmes Complexes Paris Île-de-France
113 rue Nationale
75013, Paris
France

Stations de métro : Nationale, Place d'Italie, Olympiades, Tolbiac.

Programme

10h - 10h20 : accueil / présentation de la journée
10h20 - 11h : Solr and Elasticsearch: 2 search engines for 2 use cases... and beyond! - Raphaël Flores
11h - 11h25 : Retour d'expériences sur l'utilisation du framework Django et de MongoDB dans le cas de l'application web thaliaDB - Delphine Steinbach
11h25 - 11h55 : pause café
11h55 - 12h35 : Intégration de données de capteurs dans le Linked Open Data - Stephan Bernard
12h35 - 13h : Intégration et interrogation biologiques de données avec Askomics - Fabrice Legeai
13h - 14h : pause déjeuner
14h - 14h40 : Shiny : développement d'applications brillantes pour la recherche, l'enseignement et les plateformes - Amine Ghozlane
14h40 - 15h : Retour d'expériences sur Shiny (easy16S) - Cédric Midoux
15h - 15h20 - pause café
15h20 - 16h20 : table ronde autour de Shiny
16h20 - 16h30 : conclusion / perspectives

Financement

Nous remercions l'unité Ingenum qui finance cette journée.

Contact

Pour toute question, vous pouvez contacter Sandra Dérozier et Cyprien Guérin.

Résumés des présentations des invités

Stephan Bernard - Intégration de données de capteurs dans le Linked Open Data (IRSTEA Clermont-Ferrand)

Au travers des diverses expériences d'intégration qui ont été menées à l'IRSTEA de Clermont-Ferrand, les nombreux éléments que comporte cette démarche seront abordés, tant techniques que conceptuels, les difficultés rencontrées et comment elles ont été surmontées.

Amine Ghozlane - Shiny : développement d'applications brillantes pour la recherche, l'enseignement et les plateformes (Institut Pasteur)

Depuis sa création en 2012, le développement d'applications Shiny présente un intérêt grandissant dans le domaine académique et privé. Nous ferons au cours de cette présentation une revue des cas pratiques d'utilisation de Shiny, de ses avantages et de ses limitations.

Raphaël Flores - Solr and Elasticsearch: 2 search engines for 2 use cases... and beyond! (INRA Versailles)

Solr and Elasticsearch are 2 famous search engines used for years @URGI. Each one has its killer features and its limits. We'll see why we chose historically these tools, for what purposes, and what are the next steps considered for our future developments.

Titres des présentations soumises

Cédric Midoux - Retour sur Shiny : Easy16S (IRSTEA Anthony - INRA Jouy-en-Josas)

Retour d’expériences, perspectives et difficultés lors du développement d’une application Shiny permettant l’exploration et la visualisation de données métagénomique à destination des biologistes. Avantages et limites des différentes possibilités d’hébergement : installation local, Shiny Server Open Source, Shiny Server Pro, shinyapps.io.

Delphine Steinbach - Retour d'expérience sur l'utilisation du framework Django, de mongodb dans le cas d'application web de thaliaDb (INRA Moulon)

Présentation des objectifs scientifiques de thaliadb
De son interface utilisateur et d'administration
De son architecture technique framework et bases de données
Dans un contexte de gestion haut débit de génotypage en provenance de technologies différentes.

Fabrice Legeai - Intégration et interrogation biologiques de données avec Askomics (INRA Rennes)

Les sciences de la vie sont face à une explosion du nombre de sources de données disponibles et de la taille de ces sources. La difficulté dans l’analyse de ces données est qu’elles sont non seulement volumineuses, mais qu’elles présentent des niveaux de complexité multiples : les données sont interdépendantes, multi-échelles, incomplètes. Une approche clé pour combiner des sources de données complémentaires repose sur le Web Sémantique et le Web de Données. Cela a notamment conduit à l’essor des données liées (LOD, Linked Open Data). Aujourd’hui, de plus en plus de bases de référence s’intègrent dans cette approche et sont disponibles au format RDF dans des entrepôts de données (triplestores).

Mais le « ticket d’entrée » pour rentrer dans le monde du Web Sémantique est trop élevé à la fois au niveau de la création des données liées et de la création par l’utilisateur final des requêtes permettant de les analyser.

Le logiciel AskOmics a pour objectif de rendre possible l’exploitation efficace de ces bases RDF. Il répond à trois difficultés : élaboration automatique des schémas de relations entre les données (construction d’une abstraction), aide à la construction itérative de requêtes s’appuyant sur l’abstraction précédente, utilisation des sources de connaissances du LOD en facilitant l’interopérabilité des entrepôts de données distants. Concrètement, AskOmics crée automatiquement un entrepôt de données local à partir des données produites dans le laboratoire (sous format tabulé ou sous d’autres formats standards de la biologie), extrait automatiquement une abstraction des données, et interroge cet entrepôt grâce à un outil graphique de création de requêtes qui s’appuie sur le parcours du graphe représentant l’abstraction des liens entre les données.