Initiation à la bioinformatique

Présentation

Cette UE aborde les principaux outils de recherche bibliographique, de manipulation des séquences biologiques et d'annotation des génomes.

Pré-requis nécessaires

Connaissances en biologie moléculaire et génétique : structure et fonction des acides nucléiques : ARN, ADN, exon, intron.
Connaissances en génétique : transmission des mutations/variants, SNP.
Notions concernant la traduction et la transcription et l’alignement de séquence.

Objectifs

Cette unité d'enseignement vise à initier les étudiants de première année de master à l’utilisation de certains outils bioinformatiques utiles à l'analyse de données génomiques. L'objectif est de leur permettre de comprendre les principes fondamentaux et les applications de chaque outil, ainsi que de les former à leur utilisation pratique (sous forme d’exercices appliqués).

Compétences visées

Analyse de données génomiques :
Être capable d'effectuer des analyses de séquences d'ADN et de protéines pour identifier des gènes, des régions fonctionnelles, des microARNs, et d'autres éléments importants du génome.

Interprétation de résultats bioinformatiques :
Savoir interpréter les résultats des différents outils bioinformatiques pour en tirer des conclusions biologiques pertinentes (probabilités, variants pathologiques…).

Autonomie dans l'utilisation d'outils bioinformatiques :
Développer l'autonomie nécessaire pour effectuer des analyses génomiques à l'aide d'outils bioinformatiques, en sachant choisir l'outil approprié pour chaque type d'analyse.

Descriptif

Cours 1 : Introduction

  • Naissance de la bioinformatique : des protéines au séquençage (aspects historiques et techniques).
  • Utilisation de la bioinformatique : chercher et comprendre, comparer, modéliser et intégrer.
  • Les types de bases de données et quelques exemples.

Cours 2 et 3 : Introduction aux outils bioinformatiques des protéines

Cours 2 : Identifier et caractériser une protéine (utilisation d’Uniprot)

Notions introductives et descriptives

  • Aspect historique et importance de la base de données (nombre de séquences, mise à jour…)
  • Structure d’Uniprot :

-> Proteins Uniprot Knowledgebase : séquences protéiques divisées en deux catégories : Swiss-Prot, TrEMBL 

-> Species Proteomes protéines ou séquences issues des différents protéomes

-> Protein Clusters UniRef séquences triées en fonction de l’homologie

-> Sequence Archiv Uniparc

  • Navigation dans Uniprot : description des fonctions de base (nom de la protéine, référence, localisation…)
  • Description des recherches simples et avancées (famille de protéines, fonction biologique…)

 Notions pratiques

  • Exercices pratiques : recherche sur Uniprot à partir d’un nom, d’une séquence, d’un domaine, d’une famille de protéines…
    Fonction et variation au sein d’une protéine : variants, modifications post-traductionnelles…

 Cours 3 : Autres bases de données pour rechercher des données protéiques (utilisation d’Interpro)

Notions introductives et descriptives

  • Aspect historique et importance de la base de données pour l’analyse fonctionnelle des protéines.
  • Principaux contributeurs

-> Descriptions et différences entre les différentes plateformes.

  • Structure d’Interpro

-> domaines, familles de protéines, motifs et annotations fonctionnelles.

  • Navigation dans Interpro : recherche par nom, domaines et motifs

Différences entre les différents contributeurs et annotations des motifs

 Notions pratiques

  • Exercices pratiques : recherche sur Interpro à partir d’un nom, d’une famille ou d’un motif…
    Etablissement de lien phylogénique à partir des différents domaines.

Croisement des deux bases de données protéiques (uniprot et interpro) pour obtenir un maximum d’information sur une séquence.

 

Cours 4 et 5 : Introduction aux outils bioinformatiques des gènes

Cours 4 : Prédire une séquence génique (utilisation de GenScan et Augustus)

Rappels

  • Rappels biologiques : définition d’un gène (structure et fonction), motifs nécessaires à la prédiction…
  • Difficultés liées à la prédiction des gènes (épissage alternatif, exons, introns, séquences régulatrices…)

Notions introductives

  • Types de prédiction : basées sur des séquences conservées, basées sur une homologie de séquence avec des gènes connus, prédiction ab initio.
  • Description de deux outils de prédiction GenScan et Augustus.

-> Fonctionnement et comparaison

Notions pratiques

  • Exercices pratiques : comparaison des deux outils de prédiction : évaluation des prédictions (couverture, faux positifs et négatifs).

Cours 5 : Localiser une séquence génique dans un génome (utilisation de genome Browser)

Notions introductives

  • Définition d’un genome Browser (visualisation et annotation des génomes)
  • Description de la présentation des données (visualisation et annotation)
  • Présentation de UCSC Genome Browser

Etude focalisée sur le génome humain

Présentation des régions régulatrices, des variants, données issues de ChIPseq, RNA-seq…

Notions pratiques

  • Exercices pratiques : comparaison des résultats obtenus par les outils de prédictions et ceux de génome browser.
    Recherche de variants et profils d’expression génique.

Cours 6 : Introduction aux outils bioinformatiques des ARN

Cours 6 : Prédire la fonction d’une séquence d’ARN non codante (utilisation de miRbase et RNA Central)

Rappels

  • Rappels biologiques : ARN non codants, types d’ARN non codants

Nomenclature

  • Variabilité des ARN non codants
  • Fonction des miRNA et mécanismes d’action

Notions introductives

  • Présentation de miRBase

Séquence d’un miRNA, cibles…

Type de recherche (par nom, par espèce)

  • Présentation de Présentation RNA Central

Base de données pour l’annotation de RNA non codants
Type de recherche (par type, par nom, par espèce)

Exploration des résultats

-> Comparaison et utilisation (cibles et données).

Notions pratiques

  • Exercices pratiques : Questions permettant l’utilisation des bases de deux bases de données appliquées à un miRNA et un ARNr

Cours 7 : Bioinformatique et Génome mitochondrial

Cours 7 : Découverte de bases de données consacrées au génome mitochondrial et aux pathologies associées (mitoMap, mtDB, OMIM)

Rappels

  • Rappels biologiques : génome mitochondrial, composition et caractéristiques, héritage et fonction.
  • Comparaison avec le génome nucléaire (régions non codantes, structure)
  • Pathologies (mutations (types), physiopathologies, notion d’hétéroplasmie)

Notions introductives

  • Présentation de MitoMap (position et mutations associées)
  • Présentation de mtDB (variants)
  • Présentation de OMIM (pas focalisés sur les pathologies mitochondriales)

Présentation de l’interface et des recherches sur cette base

Notions pratiques

  • Exercices pratiques : Recherche d’une pathologie, des gènes associés et du tableau clinique. 

Cours 8 : Analyse de papiers scientifiques retraçant des grandes études/découvertes bioinformatiques.

Lecture et Analyse d’article

Petits exercices de révisions

 

TD1 : Alignement de séquence et Arbre phylogénique

Rappels

Alignement de séquence

  • Global vs local
  • Algorithme d’alignement
  • Score d’alignement (notion de gap et pénalités)

Arbre phylogénique

  • Lien arbres phylogéniques et alignements de séquence

Notions pratiques

  • Exercices pratiques : construction d’un arbre avec Mega, comparaison d’alignements de séquences protéiques, ARN et ADN.

 

TD2 : Design d’amorces et Prosite

Rappels

PCR

  • Amorces
  • Caractéristiques des amorces

Prosite

  • Présentation de Prosite

Notions pratiques

  • Exercices pratiques : Designer des amorces pour un gène donné et comparer ces amorces avec des outils en ligne.

Utilisation de Prosite pour traduire une séquence nucléique en protéine.