# Réunion PhyloAlps #1 *20/02/2017* ## Participants * Frédéric Boyer * Eric Coissac * Roland Douzet * Anthony Hombiat * Sébastien Lavergne * Christophe Perrier ## Considérations générales * BD **séquences ADN des plantes de l'arc Alpin** * Base de données pour la réduction du génome : * **Genome skimming** * RADseq : sélection aléatoire d'un sous ensemble du génome (reproductible) * Capture d'exon : cible spécifiquement les protéines * BD ouverte à tous les organismes experts du domaine * Répertorie les plantes angiospermes et vasculaires > Au-delà du problème technique, problème politique : les instituts sont crispés sur leur données : il faut les valoriser via la BD, externaliser la responsabilité et rendre les jeux de données des différentes institutions modulaires pour pouvoir les gérer indépendamment. ## Données disponibles dans BD existantes * **Herbier PhyloAlps** (en cours de réalisation), QR code (référence espèce et séquence) * **Herbier du [CBNA]** : conservatoire Botanique Nationaux (CBN Alpin à Briançon et CBN Méditerranéen) * **[GBIF]** : Global Biodiversity Information Facility (occurrences, observations, /!\ couverture) * **[Androsace]** : traits biologiques de référence pour les plantes Alpines (voir avec Julien pour la disponibilité des données) * **[IFB]** : Institut Français pour la Bioinformatique * **[FRB]** : Fondation pour la Recherche en Biodiversité * **[BOLD]** : pas le génome complet (marqueurs taxonomiques, 2 gènes matK et rbcL) * **[INSD]** : International Nucleotide Sequence Database Collaboration : * **NCBI [GenBank]** : National Center for Biotechnology Information * **[EMBL]** : European Molecular Biology Laboratory * **[DDBJ]** : DNA DB of Japan European Molecular Biology Lab * **[UniProtKB]** (Swiss-Prot) utilise [EMBL] * **[Phylota]** : browser pour les plantes * **FloraAlpina** (version électronique ?) * **[Tela Botanica]** : association de botanique de référence pour la botanique numérique * **[Plant list]** (cf. [Kew project] : séquençage d'exons) ## Interface de restitution * Recherche génomique type sur la BD : * Synonymie sur le référentiel taxonomique * Entonnoir : Taxon > librairie > échantillon * Pour chaque collection : * Description * Emprise fonctionnelle * Emprise géographique * Une page par taxon ? par biome ? * TaxId * Binôme genre-espèce et auteur (cf. Carl Von Linné) * Photos et scans d'herbier (serveurs d'images ? modèle d'herbier numériques existants ?) * Séquences d'ADN * Aires de répartition * Plotlist * Traits biologiques * Génome skimming * Accès part d'herbier * Silicathèque (conservation supérieure de l'ADN grâce à une sécheresse maximum) * Localisation GPS (souplesse, pas obligatoire) * Taxon coverage * Lien vers GBIF France * Critères remarquables * Chaque échantillon est rattaché à * une collection primaire * 0 ou plusieur(s) collection(s) secondaire(s) ## Qualité des données * 2 types de données : * Données pérennes (séquence, scan) -> entrées une fois pour toutes * Données périssables (échantillons physiques) -> méthodes et outils pour la mise à jour * Que faire des calculs longs qui s'exécutent alors que les données en entrée changent ? * Modération, pas de modification directe de la BD * Utilisateur identifié en tant que référent et garant : * Qui ? * Quel labo ? * Référentiel mondial des noms d'auteur * Utilisateur responsabilisé, rattaché à une collection * batchs de soumission * Modèle de qualité de la donnée multi-critères * Confiance en l'auteur * Avis subjectif de l'auteur * Complétude des caractéristiques générales * Complétude des caractéristiques génomiques * Avis des utilisateurs * Système d'annotations : cf. features table EMBL/GenBank doc (système de preuves "evidences") * Issue tracking system (cf. Alain Viari, DR INRIA, bioinformaticien Herbs) * Processus de validation de la données en plusieurs étapes * Vérification syntactique et sémantique (automatique) * Identification des outliers (semi-automatique) * Elaboration de méthodes pour l'exploitation conjointe de référentiels taxonomiques hétérogènes : * [NCBI] * [Plant List] * Suivi de versions * Modifications en continu ? * Nouvelle mouture tous les X mois ? [CBNA]:http://www.cbn-alpin-biblio.fr/ [GBIF]:http://www.gbif.org/ [Androsace]:http://androsace.ujf-grenoble.fr/ [IFB]:https://www.france-bioinformatique.fr/ [FRB]:http://www.fondationbiodiversite.fr/fr/ [BOLD]:http://www.boldsystems.org/ [INSD]:https://www.ncbi.nlm.nih.gov/genbank/collab/ [NCBI]:https://www.ncbi.nlm.nih.gov/ [GenBank]:https://www.ncbi.nlm.nih.gov/genbank/ [EMBL]:http://embl.org/ [DDBJ]:http://www.ddbj.nig.ac.jp/ [UniProtKB]:https://www.ebi.ac.uk/uniprot [Phylota]:http://phylota.net/ [Plant list]:http://www.theplantlist.org/ [Kew project]:http://www.kew.org/ [Tela Botanica]:http://www.tela-botanica.org/