Bio-informatique
L’équipe de bioinformatique est composée de 3 bioinformaticiens. Elle assure :
- La gestion et l’analyse des données issues des séquenceurs à haut-débit des projets du laboratoire, dont les études “exome entier” (WES) ou « génome entier » (WGS) sur le diabète de type 2 et l’obésité
- La gestion et l’analyse des données issues des séquenceurs à haut-débit lors de prestations de service LIGAN-PM (WES, WGS, RNA-seq, miRNA-seq, Met-seq, ChIP-seq, Capture-C, Hi-C, Single-cell, CNV detection from Exome…)
- La sélection et la validation, ou le développement, puis l’intégration, d’outils logiciels pour l’acquisition, l’analyse et l’aide à l’interprétation des résultats
- Le développement de pipelines d’analyses et leur maintien par l’utilisation des méthodes les plus récentes (Nextflow, Slurm, Docker, …)
- L’intégration de nouvelles plateformes de séquençage à haut débit
- La maintenance d’une base de données intégrative (GOOD) et de bases de données de résultats génétiques
- La gestion et l’extension des bases de données cliniques
- La gestion des ressources informatiques (serveurs, espaces de stockage, bases de données, logiciels)
- La mise à niveau des capacités informatiques en termes de puissance de calcul et de stockage de données (calcul GPU, …)
Nos principaux projets de développements futurs sont :
- Le développement d’une interface en ligne pour la mise à disposition des résultats génétiques
Biostatistique
Qui sommes nous?
Le groupe bio-statistique est actuellement composé de 3 biostatisticiens:
- Mathilde Boissel (https://github.com/mboissel, https://orcid.org/0000-0001-5719-8749),
- Shuangshuang Geng,
- Emma Henriques.
Notre expertise :
- Analyses statistiques, sur mesure, et implication dès l’élaboration du design des études, au sein de vastes projets de recherche, collaboration ou prestation,
- Implémentation de chaine de traitement automatisée (développée par Mickaël Canouil, Lijiao Ning et Mathilde Boissel : https://github.com/mboissel/analysis-scripts-templates),
- Réalisation d’imputation des génotypes avec le Sanger Imputation Service,
- Analyse (simple) d’omique : Etude d’association pan-génomique, epigénomique et transcriptomique. (GWAS, EWAS, TWAS),
- Analyse multi-omique : eQTL, mQTL, meQTL, eQTM, mixOmics,
- Analyse de variants rares, gène-centrique, avec des méthodes tels que MiST, SKAT, Burden test,
- Investigation de type apprentissage automatique (“Machine learning”) avec des méthodes telles que les k-means, clustering, classification, K-fold validation…,
- Analyse en cellule unique (Single-cell) (Single cell RNA-seq / Single cell ATAC-seq), clustering (via UMAP ou PCA) et d’analyses différentielles,
- Utilisation de scores génétiques : (Genome-wide) Polygenic risk scores listés sur GWAS Catalog,
- Analyses de Randomisation Mendélienne,
- Analyses fonctionnelles (d’enrichissement ou de sur-représentation) sur un panel de gènes donné ou selon une voie métabolique d’intérêt (“Gene-set enrichment analyses” et “Over-representation analyses”), grâce aux bases de données spécifique aux voies biologiques (GO, Reactome, KEGG),
- Visualisation des résultats (heatmap, QQplot, Volcano plot, Manhattan plot, …) grâce au R package {ggplot2},
- Utilisation de données issues de la UK BioBank (Connaissance des Data-Field et utilisation des ICD-9 et ICD-10),
- Curation de base de données,
- Participation aux groupes de travail et Consortia (international).
Nos compétences techniques :
- R (avancé),
- Reproductibilité, via la conteneurisation (Docker), la gestion de version de scripts (Git), et au R package {renv} gérant les versions des outils. Page Github : https://github.com/umr1283.
- Développement d’application web via le R package {Shiny},
- Développement de package R (CARoT, rain, dmapaq, dgapaq),
- Automatisation des rapports via le R package {Rmarkdown} ou Quarto,
- Participation aux écritures d’article scientifique (+ détail pour les parties méthodologiques).
Présentations lors d’évènements scientifiques :
- Single-Cell Workshop Feedback,
- Shiny web application framework for R,
- Retour d’expérience sur l’analyse de données de méthylation,
- Analyse de variants rares issus de données de séquençage à haut débit,
- Feedback on RNA-seq data Analyses,
- t-distributed Stochastic Neighbor Embedding (t-SNE) algorithm.