Bio-informatique / Bio-statistique

Bio-informatique

L’équipe de bioinformatique est composée de 3 bioinformaticiens. Elle assure :

  • La gestion et l’analyse des données issues des séquenceurs à haut-débit des projets du laboratoire, dont les études “exome entier” (WES) ou « génome entier » (WGS) sur le diabète de type 2 et l’obésité
  • La gestion et l’analyse des données issues des séquenceurs à haut-débit lors de prestations de service LIGAN-PM (WES, WGS, RNA-seq, miRNA-seq, Met-seq, ChIP-seq, Capture-C, Hi-C, Single-cell, CNV detection from Exome…)
  • La sélection et la validation, ou le développement, puis l’intégration, d’outils logiciels pour l’acquisition, l’analyse et l’aide à l’interprétation des résultats
  • Le développement de pipelines d’analyses et leur maintien par l’utilisation des méthodes les plus récentes (Nextflow, Slurm, Docker, …)
  • L’intégration de nouvelles plateformes de séquençage à haut débit
  • La maintenance d’une base de données intégrative (GOOD) et de bases de données de résultats génétiques
  • La gestion et l’extension des bases de données cliniques
  • La gestion des ressources informatiques (serveurs, espaces de stockage, bases de données, logiciels)
  • La mise à niveau des capacités informatiques en termes de puissance de calcul et de stockage de données (calcul GPU, …)

Nos principaux projets de développements futurs sont :

  • Le développement d’une interface en ligne pour la mise à disposition des résultats génétiques

 

Biostatistique

Qui sommes nous?

Le groupe bio-statistique est actuellement composé de 3 biostatisticiens:

 

Notre expertise :

  • Analyses statistiques, sur mesure, et implication dès l’élaboration du design des études, au sein de vastes projets de recherche, collaboration ou prestation,
  • Implémentation de chaine de traitement automatisée (développée par Mickaël Canouil, Lijiao Ning et Mathilde Boissel : https://github.com/mboissel/analysis-scripts-templates),
  • Réalisation d’imputation des génotypes avec le Sanger Imputation Service,
  • Analyse (simple) d’omique : Etude d’association pan-génomique, epigénomique et transcriptomique. (GWAS, EWAS, TWAS),
  • Analyse multi-omique : eQTL, mQTL, meQTL, eQTM, mixOmics,
  • Analyse de variants rares, gène-centrique, avec des méthodes tels que MiST, SKAT, Burden test,
  • Investigation de type apprentissage automatique (“Machine learning”) avec des méthodes telles que les k-means, clustering, classification, K-fold validation…,
  • Analyse en cellule unique (Single-cell) (Single cell RNA-seq / Single cell ATAC-seq), clustering (via UMAP ou PCA) et d’analyses différentielles,
  • Utilisation de scores génétiques : (Genome-wide) Polygenic risk scores listés sur GWAS Catalog,
  • Analyses de Randomisation Mendélienne,
  • Analyses fonctionnelles (d’enrichissement ou de sur-représentation) sur un panel de gènes donné ou selon une voie métabolique d’intérêt (“Gene-set enrichment analyses” et “Over-representation analyses”), grâce aux bases de données spécifique aux voies biologiques (GO, Reactome, KEGG),
  • Visualisation des résultats (heatmap, QQplot, Volcano plot, Manhattan plot, …) grâce au R package {ggplot2},
  • Utilisation de données issues de la UK BioBank (Connaissance des Data-Field et utilisation des ICD-9 et ICD-10),
  • Curation de base de données,
  • Participation aux groupes de travail et Consortia (international).

 

Nos compétences techniques :

  • R (avancé),
  • Reproductibilité, via la conteneurisation (Docker), la gestion de version de scripts (Git), et au R package {renv} gérant les versions des outils. Page Github : https://github.com/umr1283.
  • Développement d’application web via le R package {Shiny},
  • Développement de package R (CARoT, rain, dmapaq, dgapaq),
  • Automatisation des rapports via le R package {Rmarkdown} ou Quarto,
  • Participation aux écritures d’article scientifique (+ détail pour les parties méthodologiques).

 

Présentations lors d’évènements scientifiques :