33 0 2MB
Module de Bioinformatique appliquée à l’analyse des séquences GB3 2012-2013 Karine Robbe-Sermesant Romain Gautier
Objectifs du module Bioinformatique appliquée à l’analyse des séquences • Comprendre et apprendre à utiliser les informations et les outils disponibles sur internet pour des applications en biotechnologies
Principales Bases de données en Biologie
Outils disponibles pour l’analyse des séquences
Objectifs du module Bioinformatique appliquée à l’analyse des séquences • Avoir du recul sur le contenu d’une base de données de biologie • Connaître et pouvoir utiliser un certains nombre d’outils bioinformatiques • Savoir rechercher l’outil et/ou la base de données le/la mieux approprié(s) pour répondre à un certain nombre de questions biologiques
Points du module • Principales Base de données en Biologie Nucléiques, Protéiques, Gene Ontology (GO), domaines protéiques…..
• • • • • •
Alignement de séquences 2 à 2 (global, local) Recherche de similitude de séquences (Blast) Outils de recherche globaux (SRS) Alignement multiple (ClustalW) Navigateurs de génomes (EnsEmbl, UCSC) Prédiction de structure protéique (2D, 3D)
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
A.Introduction à la bioinformatique • La bio-informatique est un champ de recherche multi-disciplinaire :
Informatique
Mathématiques
Biologie Médecine Physique
Chimie/ Biochime
A. Introduction à la bioinformatique • La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l’informatique et des mathématiques pour répondre à une question biologique. – Stockage et recherche d’informations (base de données de séquences, d’annotations, outils globaux de recherche…) – Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes…) – Analyses omiques (génome, transcriptome, protéome…) – Modélisations d’interactions géniques – Modélisations moléculaires (Structure des protéines, des ARN) – Modélisations physiologiques (cellules, organes, organismes, populations…) – Analyse en imagerie médicale et microscopique – …
A. Introduction à la bioinformatique • La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l’informatique et des mathématiques pour répondre à une question biologique. – Stockage et recherche d’informations (base de données de séquences, d’annotations, outils globaux de recherche…) – Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes…) – Analyses omiques (génome, transcriptome, protéome…) – Modélisations d’interactions géniques – Modélisations moléculaires (Structure des protéines, des ARN) – Modélisations physiologiques (cellules, organes, organismes, populations…) – Analyse en imagerie médicale et microscopique – …
A. Introduction à la bioinformatique • Paradoxe : • La biologie porte une part de variabilité. Elle peut ne pas être totalement prévisible et totalement reproductible et est souvent dynamique • Les Mathématiques et l’Informatique qui sont des sciences exactes comportent des concepts et des théories précises La bioinformatique nécessite souvent de décomplexifier des problèmes biologiques (modèles)
A. Introduction à la bioinformatique • Apport de l’informatique Stockage et organisation des données Automatisation de tâches manuelles
Permet de stocker par exemple les séquences des protéines et d’y associer différentes annotations : positions des domaines, des sites actifs, d’un propeptide, spécificité d’expression, rôle fonctionnel, associations à des pathologies….
Certaines tâches simples ne peuvent pas être réalisées à la main pour de nombreuses séquences (manque de temps, d’intérêt et risque d’erreurs) et sont donc automatisées (traduction, recherche de sites d’enzymes de restriction…)
Un algorithme est une suite finie et non-ambiguë d’instructions permettant de donner la réponse à un problème.
Algorithme
Cas particulier : les heuristiques Puisque toutes les combinaisons ne peuvent être essayées dans un temps raisonnable, certains choix stratégiques doivent être faits (cf Blast)
A. Introduction à la bioinformatique • Apport des mathématiques
Statistiques
Permet d’évaluer des résultats entre eux en proposant des calculs de scores et de probabilités (p-value) => Aide l’interprétation
Modélisation
Permet de faire des prédictions à partir d’une mise en équation d’un système et des données biologiques
A. Introduction à la bioinformatique • Quelques théories et concepts en Biologie : • La théorie de l'évolution énoncée par Darwin (1859), complétée par Kimura avec la théorie neutraliste de l'évolution (1983). • Les lois de Mendel (en 1866 ). => Première théorie biologique à partir d'une analyse statistique. • La mise en évidence des chromosomes comme support cellulaire de l'hérédité et de l'information génétique (Morgan, 1913). • La découverte de la structure en double hélice de l'ADN (Watson et Crick, 1953), puis du mécanisme de la régulation génétique impliqué dans le dogme central de la biologie moléculaire (1965). Des dérogations au dogme ont finalement été trouvées notamment par Temin et Baltimore (1970)
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
B. La séquence biologique pour les informaticiens •
Enoncer que l'information génétique de tout organisme vivant est contenue dans une séquence fut un concept révolutionnaire. La séquence devient un élément essentiel en biologie grâce à la biologie moléculaire (enzyme de restriction, PCR, vecteur de clonage, évolution des techniques de séquençage)
⇒ La séquence devient un objet élémentaire et formel qui manquait à la biologie pour se constituer une branche théorique • C'est une chaîne de caractères basée sur un alphabet simple et fixe. – ADN : 4 nucléotides ATCG – ARN : 4 nucléotides AUCG – Protéines : 20 acides aminés
•
La séquence est manipulable par des algorithmes ! ⇒ Récupération et manipulation de certains éléments ou groupes d’éléments dans la chaine de caractère
B. La séquence biologique pour les informaticiens Le code génétique : une règle de traduction !
B. La séquence biologique pour les informaticiens • D’où viennent les séquences ? – Clonage d’une séquence d’ADNc dans un laboratoire ⇒ Obligation de publier la séquence pour pouvoir publier l’article scientifique correspondant - Avant : publication de la séquence dans une des figures de l’article - De nos jours : Soumission à une base de données
– Séquençage d’un banque d’Expressed Sequence Tag (EST) Permettait de quantifier l’expression des transcrits dans différents tissus en clonant des fragments de cDNA (De nous jours, technique remplacée par les biopuces et le séquençage nouvelle génération)
– Grand projets et consortium - Séquençage de génomes entiers - Séquençage massif d’ADNc
Historique des technologies d’analyse qualitative et quantitative des séquences
1975 1977 Séquençage -Sanger -Gilbert Southern Blot
1990
1995 puces à ADN (microarray)
Séquençage par mesure de la fluorescence
1999 2000
2006
2011
Evolution puces à ADN
Séquençage par Electrophorèse capillaire
Next « Next-next Generation generation Séquencing Sequencing » (NGS)
Séquençage Haut débit !!! (High Throughput Sequencing HTS)
B. La séquence biologique pour les informaticiens • Les séquences les plus fréquentes : ARN
ADN
Génome Complet Linéaire ou Circulaire
Fragment génomique
ADNc (entier ou partiel)
Protéine
EST
Contient 0 à n gènes ADN recombinant
Protéine
Fragment
Protéine recombinante
B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: – – –
Présence de séquences plasmidiques Existence de séquences mutés Transcrits issus des gènes fusionnés avec un tag
Exemples de tag utilisés pour la purification ou la détection :
B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: Exemple de construction pour un gène de fusion avec un tag en C-terminal CDS du gène d’intérêt Linker( + Site de Protéase)
TAG
Promoteur
Plasmide Gène de résistance à un antibiotique
ARNm de fusion
5’
3’
Protéine de fusion N-term
C-term
B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: Exemple de séquence nucléotidique contenant la séquence codante d’un gène de fusion (ici fusion GST en Ct-terminal)
ATG Promoter T7
STOP ARF1
GST
STOP *
CDS du tag
CDS du gène d’intérêt Linker Vecteur (plasmide)
• Tags : •
(avec ou sans site protéase)
Vecteur (plasmide)
GST(Glutathion-S transferase), GFP (Green fluorescent protein), (his)*6, FLAG…
La position du Tag peut être en N-terminal ou en C-terminal de la protéine d’intérêt (sur le schéma: coté C-terminal)
B. La séquence biologique pour les informaticiens Rappel de biologie : tous les ARN ne codent pas pour des protéines !! Certains ARN sont dit « non-codants » ARN
ARN non codant
ARN codant
ARNm
ARNr
ARNt
ARN nc long
(>250 nt)
Petits ARN
B. La séquence biologique pour les informaticiens Rappel de biologie : convention Brin sens = Brin codant
5' 3'
3' 5' Transcription
Brin sens= brin codant 5'
3' ARN 5'
3'
3' 5'
Brin matrice = brin antisens = brin non-codant
B. La séquence biologique pour les informaticiens Rappel de Biologie : maturation des ARNm des eucaryotes => Epissage
(Berg, Biochemistry)
B. La séquence biologique pour les informaticiens • Représentation graphique du gène eucaryote:
Amont
Aval
Exons
5’UTR
Promoteur
3’UTR
Introns
*
ATG Région codante (CDS = coding sequence)
Premier exon
codon stop TGA, TAA, TAG Dernier exon
B. La séquence biologique pour les informaticiens • Différences par rapport à une séquence de référence (polymorphisme ou mutation) Substitution
SNP
CNV
Insertion/Délétion
B. La séquence biologique pour les informaticiens • Effet d’une mutation sur la séquence nucléotidique selon sa localisation Exons 5’UTR
Promoteur
3’UTR
Introns
ATG
* Effet sur la séquence de la protéine traduite ?
Régulation ?
Protéine tronquée
-Mutation faux-sens (Substitution d’acide aminé) -Mutation synonyme (même acide aminé) -Mutation non-sens (introduction d’un codon STOP) -Insertion(s) -Délétion(s) -Défaut d’épissage (jonction intron/exon)
Régulation ?
Exon Protéine plus longue
B. La séquence biologique pour les informaticiens • Insertion/délétion d’1, 2 ou nucléotides groupés dans la région codante 1 nucléotide
2 nucléotides
Décalage de phase (= Frameshift)
3 nucléotides
Pas de Décalage de phase
1 insertion/délétion
Pas de Décalage de phase
1 insertion/délétion + 1 substitution
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : > Description MASEQUENCE
Le format fasta est un format de séquence nucléotidique couramment utilisé dans les outils bioinformatiques
B. La séquence biologique pour les informaticiens
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ Création de l’inverse complémentaire (reverse complementary) outil RevSeq
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Codon 1 Codon 2 Codon3 Codon4 Codon5
Phase 1+ :
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Phase +3 Phase +2 Phase +1
Phase -1 Phase -2 Phase -3
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation) : Transeq
B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Phase +1 Phase +2 Phase +3 Phase -1 Phase -2 Phase -3
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : a) les bases de données en biologie • Historique : Un besoin de stockage ! Dans les années 80 : – Le nombre de séquences publiées augmente considérablement grâce aux avancées technologiques et un accès facile pour la communauté des biologistes doit être proposé. – Les échanges de données informatiques commencent être facilités par le développement de réseaux informatiques – Un consensus apparaît : il faut disposer de centres de références dans lesquels toutes les séquences connues seront déposées. Des serveurs "mondiaux" naissent : 1988 : NCBI aux USA / Base de données Genbank 1986 : DDBJ au Japon / Base de données DDBJ 1980 : EBI en Europe / Base de données EMBL 1986 : SIB en Suisse / Base de données SwissProt
Séquences nucléiques Séquences protéiques
C. Bases de données : a) les bases de données en biologie
1995 Haemophilus influenzae 1,8. 106 pb 1700 gènes 1997 Saccharomyces cerevisiae 1,3. 107 pb 6 400 gènes 1999 Caenorhabditis elegans 9,7. 107 pb 19 000 gènes 2000 Drosophila melanogaster 1,37. 108 pb 13 000 gènes 2001 (2004) Homme 3,4. 109 pb 25000 gènes
(Gregory, 2005)
39
C. Bases de données : a) les bases de données en biologie •
Organisation des données : • Notion d’identifiant unique Un identifiant permet de retrouver un élément dans un base de données de façon non ambiguë
• Fichiers Textes Les informations peuvent être présentées dans une fiche (= un fichier texte) avec une fiche pour chaque élément de la base. Cette fiche peut être présentée ensuite sous format html avec des hyperliens, des illustrations….
• Base de données relationnelles Souvent, les bases de données en biologie utilisent des outils informatiques de stockage de l’information = Système de gestion de Base de données relationnelles (SGBD) • Organisation des informations sous forme de tables ayant des liens entre elles • Efficacité de stockage et de recherche d’informations croisées (« requêtes »)
• Références Croisées • Liens entre les différentes bases de données pour permettre aux biologistes de trouver un maximum d’informations
C. Bases de données : a) les bases de données en biologie PubMed
PMID PubMed IDentifiant
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : b) Séquences nucléiques • NCBI / Genbank (USA) – Format Genbank des fiches – Il existe des subdivisions spécifiques :
Genbank
• Expressed Sequence Tag (dbEST) • Genome Survey Sequence (GSS)
• EMBL (Europe) – Format EMBL des fiches – ENA : EMBL nucleotide Archive
ENA : EMBL nucleotide Archive
• DDBJ (Japan) • Genbank comme EMBL et DDBJ sont des bases de donnes de soumission et contiennent donc de nombreuses redondances. => Des bases de données comme RefSeq (NCBI) ont été créée pour regrouper les séquences similaires de transcrits et limiter la redondance.
C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h !
Genbank
ENA : EMBL nucleotide Archive
C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h !
Genbank
ENA : EMBL nucleotide Archive
En une journée, la séquence soumise par le chercheur français à l’EMBL va se retrouver dans les 3 banques de données avec un reformatage spécifique à chaque banque.
C. Bases de données : b) Séquences nucléiques • Soumission d’une séquence et suite : • Le chercheur est l’auteur de la séquence, il soumet : • La séquence nucléotidique Attention, cette séquence peut contenir des erreurs de séquences : - erreur de séquençage - erreur de manipulation informatique (envoie de l’inverse complémentaire, séquence de vecteurs de clonage …) • Les informations supplémentaires = des annotations Organisme, position des gènes si ADN génomique, du CDS si ARNm….. Elle peut aussi contenir des erreurs d’annotations souvent dues au manque de connaissances biologiques à la date de soumission
• Chaque banque réorganise l’information (identifiant, format spécifique) Mise à jour
• Les annotations vont évoluer avec les nouvelles connaissances en biologie => Beaucoup d’annotations sont automatiques ! • Des liens vers d’autres bases de données seront rajoutées Références croisées (= Cross-References)
C. Bases de données : b) Séquences nucléiques
C. Bases de données : b) Séquences nucléiques
Projets de Métagénomique
C. Bases de données : b) Séquences nucléiques Format EMBL
Références Identifiants permettant de faire un lien vers d’autres banques de données
C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte)
P53 humain
PMID PubMed IDentifiant
C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte)
Position du CDS
Identifiants permettant de faire un lien vers d’autres banques de données
C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte) Lien vers Uniprot Traduction du CDS
Séquence nucléique
C. Bases de données : b) Séquences nucléiques
Fiche au format Genbank (ici version html)
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : UniProtKB http://www.uniprot.org UniProt Knowledgebase: Collaboration entre EBI, SIB et PIR Décrire dans une fiche unique les produits derivés d’un gène dans une espèce donnée. -
UniProtKB/Swiss-Prot Non-redondante, annotation manuelle.
- UniProtKB/TrEMBL Traduction automatique de la base de données EMBL selon les annotation de CDS Redondante, annotation automatique !
C. Bases de données : c) UniProtKB
• TrEMBL Ensemble des séquences protéiques conceptuelles obtenues par traduction automatique des séquences codante contenues dans EMBL, avec des annotations non vérifiées, mais avec l’objectif d’obtenir une couverture maximale
C. Bases de données : c) UniProtKB
• Les annotations :
Nom de la protéine, Nom du gène Fonction Activité enzymatique Composition en domaines Localisation cellulaire Spécificité d’expression (tissus, stade de développement…) Implication dans des pathologies Effet des mutations Interactions moléculaires Liens vers d’autres base de données = Références croisées (EMBL, SMART,GO, PDB,OMIM….)
C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL Release 2011_12 of 14-Dec-2011 of UniProtKB/TrEMBL contains 18510272 sequence entries
Total number of species represented in this release of UniProtKB/TrEMBL: 406001
C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/SwissProt Release 2011_12 of 14-Dec-11 of UniProtKB/Swiss-Prot contains 533657 sequence entries
C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL
!
C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot
!
C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot
C. Bases de données : c) UniprotKB
C. Bases de données : c) UniprotKB
REVIEWED ! ACC ID
1 seul organisme par fiche
C. Bases de données : c) UniprotKB
C. Bases de données : c) UniprotKB
1 seul organisme par fiche
C. Bases de données : UniprotKB
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : d) Domaines protéiques • Les domaines sont les pièces légos de l’évolution • Différentes base de données de domaines : – Répertorie les différents domaines protéiques – Annote les protéines avec ses domaines – Egalement : analyse de motifs, de familles protéiques, de sites de phosphorylations…
INTERPRO
C. Bases de données : d) Domaines protéiques Exemple : base de données SMART IGF1R_HUMAN
Furin-like Repeats Domain Faible complexité
Fibronectine Type 3 Domain
Tyrosine kinase Domain Transmembrane domain
C. Bases de données : d) Domaines protéiques IGF1R_HUMAN
EGFR_HUMAN
FYN_HUMAN
FGFR1_HUMAN
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : e) Gene Ontology • Notion d’ontologie : •
Une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations d'un domaine de connaissances.
•
L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts.
=> Un recensement des concepts sous la forme d'un vocabulaire contrôlé. ⇒ Liaison de ces concepts par des relations qui modélisent notre connaissance. Exemple Gene Ontology (is_a , part_of_a)
C. Bases de données : e) Gene Ontology • Exemple : Meuble is_a
is_a
Meuble de rangement
Siege is_a
is_a
is_a
Chaise
fauteuil
Part_of_a
Part_of_a
Dossier
Tabouret
is_a
Placard
C. Bases de données : e) Gene Ontology Impossible d'afficher l'image. Votre ordinateur manque peut-être de mémoire pour ouv rir l'image ou l'image est endommagée. Redémarrez l'ordinateur, puis ouv rez à nouv eau le fichier. Si le x rouge est toujours affiché, v ous dev rez peut-être supprimer l'image av ant de la réinsérer.
•
Exemple d’outil d’annotation : la « Gene Ontology »
– Gene Ontology (GO) – Gene Ontology Annotation (GOA) • •
http://geneontology.org/ http://www.ebi.ac.uk/ego
Utilisation d’un vocabulaire controlé Lien entre les termes sous forme de graphes – Directed Acyclic Graph (DAG)
• 3 composants dans GO : – Cellular component Endosome, Mitochondrion, Apoptosome, Centriole… – Biological process Notch signaling pathway, G1 phase, Serotonin biosynthesis… – Molecular function Inositol 3-kinase activity, clathrin binding…
http://www.ebi.ac.uk/ego
http://www.ebi.ac.uk/ego
! Automatique
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB
C. Bases de données : f) Structures protéiques
•
Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, essentiellement, et acides nucléiques.
•
Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN.
• •
“ As of 18 January 2012 the PDB contains 78628 entries and EMDB contains 1242 entries » Identifiant de la structure: code 4 lettres/chiffres
C. Bases de données : f) Structures protéiques
PDBe
(PDB in Europe)
Cours1 Introduction à la bioinformatique et aux bases de données en Biologie Conclusion : Bioinformatique mais… Interprétation biologique ! •
De nombreuses informations sont mises à la disposition de le communauté scientifique en biologie par le mise en place de bases de données spécifiques.
•
Il existe des références croisées entre les différentes bases de données.
•
Les banques de données biologiques sont très souvent le point de départ pour réaliser une analyse, il est cependant essentiel de garder à l’esprit que des erreurs (manuelles ou automatiques) sont parfois présentes…