Initiation à la bioinformatique
Présentation
Cette UE aborde les principaux outils de recherche bibliographique, de manipulation des séquences biologiques et d'annotation des génomes.
Pré-requis nécessaires
Connaissances en biologie moléculaire et génétique : structure et fonction des acides nucléiques : ARN, ADN, exon, intron.
Connaissances en génétique : transmission des mutations/variants, SNP.
Notions concernant la traduction et la transcription et l’alignement de séquence.
Objectifs
Cette unité d'enseignement vise à initier les étudiants de première année de master à l’utilisation de certains outils bioinformatiques utiles à l'analyse de données génomiques. L'objectif est de leur permettre de comprendre les principes fondamentaux et les applications de chaque outil, ainsi que de les former à leur utilisation pratique (sous forme d’exercices appliqués).
Compétences visées
Analyse de données génomiques :
Être capable d'effectuer des analyses de séquences d'ADN et de protéines pour identifier des gènes, des régions fonctionnelles, des microARNs, et d'autres éléments importants du génome.
Interprétation de résultats bioinformatiques :
Savoir interpréter les résultats des différents outils bioinformatiques pour en tirer des conclusions biologiques pertinentes (probabilités, variants pathologiques…).
Autonomie dans l'utilisation d'outils bioinformatiques :
Développer l'autonomie nécessaire pour effectuer des analyses génomiques à l'aide d'outils bioinformatiques, en sachant choisir l'outil approprié pour chaque type d'analyse.
Descriptif
Cours 1 : Introduction
- Naissance de la bioinformatique : des protéines au séquençage (aspects historiques et techniques).
- Utilisation de la bioinformatique : chercher et comprendre, comparer, modéliser et intégrer.
- Les types de bases de données et quelques exemples.
Cours 2 et 3 : Introduction aux outils bioinformatiques des protéines
Cours 2 : Identifier et caractériser une protéine (utilisation d’Uniprot)
Notions introductives et descriptives
- Aspect historique et importance de la base de données (nombre de séquences, mise à jour…)
- Structure d’Uniprot :
-> Proteins Uniprot Knowledgebase : séquences protéiques divisées en deux catégories : Swiss-Prot, TrEMBL
-> Species Proteomes protéines ou séquences issues des différents protéomes
-> Protein Clusters UniRef séquences triées en fonction de l’homologie
-> Sequence Archiv Uniparc
- Navigation dans Uniprot : description des fonctions de base (nom de la protéine, référence, localisation…)
- Description des recherches simples et avancées (famille de protéines, fonction biologique…)
Notions pratiques
- Exercices pratiques : recherche sur Uniprot à partir d’un nom, d’une séquence, d’un domaine, d’une famille de protéines…
Fonction et variation au sein d’une protéine : variants, modifications post-traductionnelles…
Cours 3 : Autres bases de données pour rechercher des données protéiques (utilisation d’Interpro)
Notions introductives et descriptives
- Aspect historique et importance de la base de données pour l’analyse fonctionnelle des protéines.
- Principaux contributeurs
-> Descriptions et différences entre les différentes plateformes.
- Structure d’Interpro
-> domaines, familles de protéines, motifs et annotations fonctionnelles.
- Navigation dans Interpro : recherche par nom, domaines et motifs
Différences entre les différents contributeurs et annotations des motifs
Notions pratiques
- Exercices pratiques : recherche sur Interpro à partir d’un nom, d’une famille ou d’un motif…
Etablissement de lien phylogénique à partir des différents domaines.
Croisement des deux bases de données protéiques (uniprot et interpro) pour obtenir un maximum d’information sur une séquence.
Cours 4 et 5 : Introduction aux outils bioinformatiques des gènes
Cours 4 : Prédire une séquence génique (utilisation de GenScan et Augustus)
Rappels
- Rappels biologiques : définition d’un gène (structure et fonction), motifs nécessaires à la prédiction…
- Difficultés liées à la prédiction des gènes (épissage alternatif, exons, introns, séquences régulatrices…)
Notions introductives
- Types de prédiction : basées sur des séquences conservées, basées sur une homologie de séquence avec des gènes connus, prédiction ab initio.
- Description de deux outils de prédiction GenScan et Augustus.
-> Fonctionnement et comparaison
Notions pratiques
- Exercices pratiques : comparaison des deux outils de prédiction : évaluation des prédictions (couverture, faux positifs et négatifs).
Cours 5 : Localiser une séquence génique dans un génome (utilisation de genome Browser)
Notions introductives
- Définition d’un genome Browser (visualisation et annotation des génomes)
- Description de la présentation des données (visualisation et annotation)
- Présentation de UCSC Genome Browser
Etude focalisée sur le génome humain
Présentation des régions régulatrices, des variants, données issues de ChIPseq, RNA-seq…
Notions pratiques
- Exercices pratiques : comparaison des résultats obtenus par les outils de prédictions et ceux de génome browser.
Recherche de variants et profils d’expression génique.
Cours 6 : Introduction aux outils bioinformatiques des ARN
Cours 6 : Prédire la fonction d’une séquence d’ARN non codante (utilisation de miRbase et RNA Central)
Rappels
- Rappels biologiques : ARN non codants, types d’ARN non codants
Nomenclature
- Variabilité des ARN non codants
- Fonction des miRNA et mécanismes d’action
Notions introductives
- Présentation de miRBase
Séquence d’un miRNA, cibles…
Type de recherche (par nom, par espèce)
- Présentation de Présentation RNA Central
Base de données pour l’annotation de RNA non codants
Type de recherche (par type, par nom, par espèce)
Exploration des résultats
-> Comparaison et utilisation (cibles et données).
Notions pratiques
- Exercices pratiques : Questions permettant l’utilisation des bases de deux bases de données appliquées à un miRNA et un ARNr
Cours 7 : Bioinformatique et Génome mitochondrial
Cours 7 : Découverte de bases de données consacrées au génome mitochondrial et aux pathologies associées (mitoMap, mtDB, OMIM)
Rappels
- Rappels biologiques : génome mitochondrial, composition et caractéristiques, héritage et fonction.
- Comparaison avec le génome nucléaire (régions non codantes, structure)
- Pathologies (mutations (types), physiopathologies, notion d’hétéroplasmie)
Notions introductives
- Présentation de MitoMap (position et mutations associées)
- Présentation de mtDB (variants)
- Présentation de OMIM (pas focalisés sur les pathologies mitochondriales)
Présentation de l’interface et des recherches sur cette base
Notions pratiques
- Exercices pratiques : Recherche d’une pathologie, des gènes associés et du tableau clinique.
Cours 8 : Analyse de papiers scientifiques retraçant des grandes études/découvertes bioinformatiques.
Lecture et Analyse d’article
Petits exercices de révisions
TD1 : Alignement de séquence et Arbre phylogénique
Rappels
Alignement de séquence
- Global vs local
- Algorithme d’alignement
- Score d’alignement (notion de gap et pénalités)
Arbre phylogénique
- Lien arbres phylogéniques et alignements de séquence
Notions pratiques
- Exercices pratiques : construction d’un arbre avec Mega, comparaison d’alignements de séquences protéiques, ARN et ADN.
TD2 : Design d’amorces et Prosite
Rappels
PCR
- Amorces
- Caractéristiques des amorces
Prosite
- Présentation de Prosite
Notions pratiques
- Exercices pratiques : Designer des amorces pour un gène donné et comparer ces amorces avec des outils en ligne.
Utilisation de Prosite pour traduire une séquence nucléique en protéine.