Bioinfo Bases Donnees [PDF]

Module de Bioinformatique appliquée à l’analyse des séquences GB3 2012-2013 Karine Robbe-Sermesant Romain Gautier Obje

71 0 2MB

Report DMCA / Copyright

DOWNLOAD PDF FILE

Author / Uploaded
Hichem BestMix

0 0 0
Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden

Datei wird geladen, bitte warten...

Zitiervorschau

Module de Bioinformatique appliquée à l’analyse des séquences GB3 2012-2013 Karine Robbe-Sermesant Romain Gautier

Objectifs du module Bioinformatique appliquée à l’analyse des séquences • Comprendre et apprendre à utiliser les informations et les outils disponibles sur internet pour des applications en biotechnologies

Principales Bases de données en Biologie

Outils disponibles pour l’analyse des séquences

Objectifs du module Bioinformatique appliquée à l’analyse des séquences • Avoir du recul sur le contenu d’une base de données de biologie • Connaître et pouvoir utiliser un certains nombre d’outils bioinformatiques • Savoir rechercher l’outil et/ou la base de données le/la mieux approprié(s) pour répondre à un certain nombre de questions biologiques

Points du module • Principales Base de données en Biologie Nucléiques, Protéiques, Gene Ontology (GO), domaines protéiques…..

• • • • • •

Alignement de séquences 2 à 2 (global, local) Recherche de similitude de séquences (Blast) Outils de recherche globaux (SRS) Alignement multiple (ClustalW) Navigateurs de génomes (EnsEmbl, UCSC) Prédiction de structure protéique (2D, 3D)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

A.Introduction à la bioinformatique • La bio-informatique est un champ de recherche multi-disciplinaire :

Informatique

Mathématiques

Biologie Médecine Physique

Chimie/ Biochime

A. Introduction à la bioinformatique • La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l’informatique et des mathématiques pour répondre à une question biologique. – Stockage et recherche d’informations (base de données de séquences, d’annotations, outils globaux de recherche…) – Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes…) – Analyses omiques (génome, transcriptome, protéome…) – Modélisations d’interactions géniques – Modélisations moléculaires (Structure des protéines, des ARN) – Modélisations physiologiques (cellules, organes, organismes, populations…) – Analyse en imagerie médicale et microscopique – …

A. Introduction à la bioinformatique • La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l’informatique et des mathématiques pour répondre à une question biologique. – Stockage et recherche d’informations (base de données de séquences, d’annotations, outils globaux de recherche…) – Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes…) – Analyses omiques (génome, transcriptome, protéome…) – Modélisations d’interactions géniques – Modélisations moléculaires (Structure des protéines, des ARN) – Modélisations physiologiques (cellules, organes, organismes, populations…) – Analyse en imagerie médicale et microscopique – …

A. Introduction à la bioinformatique • Paradoxe : • La biologie porte une part de variabilité. Elle peut ne pas être totalement prévisible et totalement reproductible et est souvent dynamique • Les Mathématiques et l’Informatique qui sont des sciences exactes comportent des concepts et des théories précises La bioinformatique nécessite souvent de décomplexifier des problèmes biologiques (modèles)

A. Introduction à la bioinformatique • Apport de l’informatique Stockage et organisation des données Automatisation de tâches manuelles

Permet de stocker par exemple les séquences des protéines et d’y associer différentes annotations : positions des domaines, des sites actifs, d’un propeptide, spécificité d’expression, rôle fonctionnel, associations à des pathologies….

Certaines tâches simples ne peuvent pas être réalisées à la main pour de nombreuses séquences (manque de temps, d’intérêt et risque d’erreurs) et sont donc automatisées (traduction, recherche de sites d’enzymes de restriction…)

Un algorithme est une suite finie et non-ambiguë d’instructions permettant de donner la réponse à un problème.

Algorithme

Cas particulier : les heuristiques Puisque toutes les combinaisons ne peuvent être essayées dans un temps raisonnable, certains choix stratégiques doivent être faits (cf Blast)

A. Introduction à la bioinformatique • Apport des mathématiques

Statistiques

Permet d’évaluer des résultats entre eux en proposant des calculs de scores et de probabilités (p-value) => Aide l’interprétation

Modélisation

Permet de faire des prédictions à partir d’une mise en équation d’un système et des données biologiques

A. Introduction à la bioinformatique • Quelques théories et concepts en Biologie : • La théorie de l'évolution énoncée par Darwin (1859), complétée par Kimura avec la théorie neutraliste de l'évolution (1983). • Les lois de Mendel (en 1866 ). => Première théorie biologique à partir d'une analyse statistique. • La mise en évidence des chromosomes comme support cellulaire de l'hérédité et de l'information génétique (Morgan, 1913). • La découverte de la structure en double hélice de l'ADN (Watson et Crick, 1953), puis du mécanisme de la régulation génétique impliqué dans le dogme central de la biologie moléculaire (1965). Des dérogations au dogme ont finalement été trouvées notamment par Temin et Baltimore (1970)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

B. La séquence biologique pour les informaticiens •

Enoncer que l'information génétique de tout organisme vivant est contenue dans une séquence fut un concept révolutionnaire. La séquence devient un élément essentiel en biologie grâce à la biologie moléculaire (enzyme de restriction, PCR, vecteur de clonage, évolution des techniques de séquençage)

⇒ La séquence devient un objet élémentaire et formel qui manquait à la biologie pour se constituer une branche théorique • C'est une chaîne de caractères basée sur un alphabet simple et fixe. – ADN : 4 nucléotides ATCG – ARN : 4 nucléotides AUCG – Protéines : 20 acides aminés

•

La séquence est manipulable par des algorithmes ! ⇒ Récupération et manipulation de certains éléments ou groupes d’éléments dans la chaine de caractère

B. La séquence biologique pour les informaticiens Le code génétique : une règle de traduction !

B. La séquence biologique pour les informaticiens • D’où viennent les séquences ? – Clonage d’une séquence d’ADNc dans un laboratoire ⇒ Obligation de publier la séquence pour pouvoir publier l’article scientifique correspondant - Avant : publication de la séquence dans une des figures de l’article - De nos jours : Soumission à une base de données

– Séquençage d’un banque d’Expressed Sequence Tag (EST) Permettait de quantifier l’expression des transcrits dans différents tissus en clonant des fragments de cDNA (De nous jours, technique remplacée par les biopuces et le séquençage nouvelle génération)

– Grand projets et consortium - Séquençage de génomes entiers - Séquençage massif d’ADNc

Historique des technologies d’analyse qualitative et quantitative des séquences

1975 1977 Séquençage -Sanger -Gilbert Southern Blot

1990

1995 puces à ADN (microarray)

Séquençage par mesure de la fluorescence

1999 2000

2006

2011

Evolution puces à ADN

Séquençage par Electrophorèse capillaire

Next « Next-next Generation generation Séquencing Sequencing » (NGS)

Séquençage Haut débit !!! (High Throughput Sequencing HTS)

B. La séquence biologique pour les informaticiens • Les séquences les plus fréquentes : ARN

ADN

Génome Complet Linéaire ou Circulaire

Fragment génomique

ADNc (entier ou partiel)

Protéine

EST

Contient 0 à n gènes ADN recombinant

Protéine

Fragment

Protéine recombinante

B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: – – –

Présence de séquences plasmidiques Existence de séquences mutés Transcrits issus des gènes fusionnés avec un tag

Exemples de tag utilisés pour la purification ou la détection :

B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: Exemple de construction pour un gène de fusion avec un tag en C-terminal CDS du gène d’intérêt Linker( + Site de Protéase)

TAG

Promoteur

Plasmide Gène de résistance à un antibiotique

ARNm de fusion

5’

3’

Protéine de fusion N-term

C-term

B. La séquence biologique pour les informaticiens • Les séquences issues de l’ADN recombinant: Exemple de séquence nucléotidique contenant la séquence codante d’un gène de fusion (ici fusion GST en Ct-terminal)

ATG Promoter T7

STOP ARF1

GST

STOP *

CDS du tag

CDS du gène d’intérêt Linker Vecteur (plasmide)

• Tags : •

(avec ou sans site protéase)

Vecteur (plasmide)

GST(Glutathion-S transferase), GFP (Green fluorescent protein), (his)*6, FLAG…

La position du Tag peut être en N-terminal ou en C-terminal de la protéine d’intérêt (sur le schéma: coté C-terminal)

B. La séquence biologique pour les informaticiens Rappel de biologie : tous les ARN ne codent pas pour des protéines !! Certains ARN sont dit « non-codants » ARN

ARN non codant

ARN codant

ARNm

ARNr

ARNt

ARN nc long

(>250 nt)

Petits ARN

B. La séquence biologique pour les informaticiens Rappel de biologie : convention Brin sens = Brin codant

5' 3'

3' 5' Transcription

Brin sens= brin codant 5'

3' ARN 5'

3'

3' 5'

Brin matrice = brin antisens = brin non-codant

B. La séquence biologique pour les informaticiens Rappel de Biologie : maturation des ARNm des eucaryotes => Epissage

(Berg, Biochemistry)

B. La séquence biologique pour les informaticiens • Représentation graphique du gène eucaryote:

Amont

Aval

Exons

5’UTR

Promoteur

3’UTR

Introns

*

ATG Région codante (CDS = coding sequence)

Premier exon

codon stop TGA, TAA, TAG Dernier exon

B. La séquence biologique pour les informaticiens • Différences par rapport à une séquence de référence (polymorphisme ou mutation) Substitution

SNP

CNV

Insertion/Délétion

B. La séquence biologique pour les informaticiens • Effet d’une mutation sur la séquence nucléotidique selon sa localisation Exons 5’UTR

Promoteur

3’UTR

Introns

ATG

* Effet sur la séquence de la protéine traduite ?

Régulation ?

Protéine tronquée

-Mutation faux-sens (Substitution d’acide aminé) -Mutation synonyme (même acide aminé) -Mutation non-sens (introduction d’un codon STOP) -Insertion(s) -Délétion(s) -Défaut d’épissage (jonction intron/exon)

Régulation ?

Exon Protéine plus longue

B. La séquence biologique pour les informaticiens • Insertion/délétion d’1, 2 ou nucléotides groupés dans la région codante 1 nucléotide

2 nucléotides

Décalage de phase (= Frameshift)

3 nucléotides

Pas de Décalage de phase

1 insertion/délétion

Pas de Décalage de phase

1 insertion/délétion + 1 substitution

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : > Description MASEQUENCE

Le format fasta est un format de séquence nucléotidique couramment utilisé dans les outils bioinformatiques

B. La séquence biologique pour les informaticiens

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ Création de l’inverse complémentaire (reverse complementary) outil RevSeq

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)

Codon 1 Codon 2 Codon3 Codon4 Codon5

Phase 1+ :

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)

Phase +3 Phase +2 Phase +1

Phase -1 Phase -2 Phase -3

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation) : Transeq

B. La séquence biologique pour les informaticiens • Exemples d’analyse bioinformatique d’une séquence : ⇒ traduction dans les 6 phases de lecture (= 6-frames translation)

Phase +1 Phase +2 Phase +3 Phase -1 Phase -2 Phase -3

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : a) les bases de données en biologie • Historique : Un besoin de stockage ! Dans les années 80 : – Le nombre de séquences publiées augmente considérablement grâce aux avancées technologiques et un accès facile pour la communauté des biologistes doit être proposé. – Les échanges de données informatiques commencent être facilités par le développement de réseaux informatiques – Un consensus apparaît : il faut disposer de centres de références dans lesquels toutes les séquences connues seront déposées. Des serveurs "mondiaux" naissent : 1988 : NCBI aux USA / Base de données Genbank 1986 : DDBJ au Japon / Base de données DDBJ 1980 : EBI en Europe / Base de données EMBL 1986 : SIB en Suisse / Base de données SwissProt

Séquences nucléiques Séquences protéiques

C. Bases de données : a) les bases de données en biologie

1995 Haemophilus influenzae 1,8. 106 pb 1700 gènes 1997 Saccharomyces cerevisiae 1,3. 107 pb 6 400 gènes 1999 Caenorhabditis elegans 9,7. 107 pb 19 000 gènes 2000 Drosophila melanogaster 1,37. 108 pb 13 000 gènes 2001 (2004) Homme 3,4. 109 pb 25000 gènes

(Gregory, 2005)

39

C. Bases de données : a) les bases de données en biologie •

Organisation des données : • Notion d’identifiant unique Un identifiant permet de retrouver un élément dans un base de données de façon non ambiguë

• Fichiers Textes Les informations peuvent être présentées dans une fiche (= un fichier texte) avec une fiche pour chaque élément de la base. Cette fiche peut être présentée ensuite sous format html avec des hyperliens, des illustrations….

• Base de données relationnelles Souvent, les bases de données en biologie utilisent des outils informatiques de stockage de l’information = Système de gestion de Base de données relationnelles (SGBD) • Organisation des informations sous forme de tables ayant des liens entre elles • Efficacité de stockage et de recherche d’informations croisées (« requêtes »)

• Références Croisées • Liens entre les différentes bases de données pour permettre aux biologistes de trouver un maximum d’informations

C. Bases de données : a) les bases de données en biologie PubMed

PMID PubMed IDentifiant

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : b) Séquences nucléiques • NCBI / Genbank (USA) – Format Genbank des fiches – Il existe des subdivisions spécifiques :

Genbank

• Expressed Sequence Tag (dbEST) • Genome Survey Sequence (GSS)

• EMBL (Europe) – Format EMBL des fiches – ENA : EMBL nucleotide Archive

ENA : EMBL nucleotide Archive

• DDBJ (Japan) • Genbank comme EMBL et DDBJ sont des bases de donnes de soumission et contiennent donc de nombreuses redondances. => Des bases de données comme RefSeq (NCBI) ont été créée pour regrouper les séquences similaires de transcrits et limiter la redondance.

C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h !

Genbank

ENA : EMBL nucleotide Archive

C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h !

Genbank

ENA : EMBL nucleotide Archive

En une journée, la séquence soumise par le chercheur français à l’EMBL va se retrouver dans les 3 banques de données avec un reformatage spécifique à chaque banque.

C. Bases de données : b) Séquences nucléiques • Soumission d’une séquence et suite : • Le chercheur est l’auteur de la séquence, il soumet : • La séquence nucléotidique Attention, cette séquence peut contenir des erreurs de séquences : - erreur de séquençage - erreur de manipulation informatique (envoie de l’inverse complémentaire, séquence de vecteurs de clonage …) • Les informations supplémentaires = des annotations Organisme, position des gènes si ADN génomique, du CDS si ARNm….. Elle peut aussi contenir des erreurs d’annotations souvent dues au manque de connaissances biologiques à la date de soumission

• Chaque banque réorganise l’information (identifiant, format spécifique) Mise à jour

• Les annotations vont évoluer avec les nouvelles connaissances en biologie => Beaucoup d’annotations sont automatiques ! • Des liens vers d’autres bases de données seront rajoutées Références croisées (= Cross-References)

C. Bases de données : b) Séquences nucléiques

C. Bases de données : b) Séquences nucléiques

Projets de Métagénomique

C. Bases de données : b) Séquences nucléiques Format EMBL

Références Identifiants permettant de faire un lien vers d’autres banques de données

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte)

P53 humain

PMID PubMed IDentifiant

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte)

Position du CDS

Identifiants permettant de faire un lien vers d’autres banques de données

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte) Lien vers Uniprot Traduction du CDS

Séquence nucléique

C. Bases de données : b) Séquences nucléiques

Fiche au format Genbank (ici version html)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : UniProtKB http://www.uniprot.org UniProt Knowledgebase: Collaboration entre EBI, SIB et PIR Décrire dans une fiche unique les produits derivés d’un gène dans une espèce donnée. -

UniProtKB/Swiss-Prot Non-redondante, annotation manuelle.

- UniProtKB/TrEMBL Traduction automatique de la base de données EMBL selon les annotation de CDS Redondante, annotation automatique !

C. Bases de données : c) UniProtKB

• TrEMBL Ensemble des séquences protéiques conceptuelles obtenues par traduction automatique des séquences codante contenues dans EMBL, avec des annotations non vérifiées, mais avec l’objectif d’obtenir une couverture maximale

C. Bases de données : c) UniProtKB

• Les annotations :

Nom de la protéine, Nom du gène Fonction Activité enzymatique Composition en domaines Localisation cellulaire Spécificité d’expression (tissus, stade de développement…) Implication dans des pathologies Effet des mutations Interactions moléculaires Liens vers d’autres base de données = Références croisées (EMBL, SMART,GO, PDB,OMIM….)

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL Release 2011_12 of 14-Dec-2011 of UniProtKB/TrEMBL contains 18510272 sequence entries

Total number of species represented in this release of UniProtKB/TrEMBL: 406001

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/SwissProt Release 2011_12 of 14-Dec-11 of UniProtKB/Swiss-Prot contains 533657 sequence entries

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL

!

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot

!

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot

C. Bases de données : c) UniprotKB

C. Bases de données : c) UniprotKB

REVIEWED ! ACC ID

1 seul organisme par fiche

C. Bases de données : c) UniprotKB

C. Bases de données : c) UniprotKB

1 seul organisme par fiche

C. Bases de données : UniprotKB

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : d) Domaines protéiques • Les domaines sont les pièces légos de l’évolution • Différentes base de données de domaines : – Répertorie les différents domaines protéiques – Annote les protéines avec ses domaines – Egalement : analyse de motifs, de familles protéiques, de sites de phosphorylations…

INTERPRO

C. Bases de données : d) Domaines protéiques Exemple : base de données SMART IGF1R_HUMAN

Furin-like Repeats Domain Faible complexité

Fibronectine Type 3 Domain

Tyrosine kinase Domain Transmembrane domain

C. Bases de données : d) Domaines protéiques IGF1R_HUMAN

EGFR_HUMAN

FYN_HUMAN

FGFR1_HUMAN

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : e) Gene Ontology • Notion d’ontologie : •

Une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations d'un domaine de connaissances.

•

L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts.

=> Un recensement des concepts sous la forme d'un vocabulaire contrôlé. ⇒ Liaison de ces concepts par des relations qui modélisent notre connaissance. Exemple Gene Ontology (is_a , part_of_a)

C. Bases de données : e) Gene Ontology • Exemple : Meuble is_a

is_a

Meuble de rangement

Siege is_a

is_a

is_a

Chaise

fauteuil

Part_of_a

Part_of_a

Dossier

Tabouret

is_a

Placard

C. Bases de données : e) Gene Ontology Impossible d'afficher l'image. Votre ordinateur manque peut-être de mémoire pour ouv rir l'image ou l'image est endommagée. Redémarrez l'ordinateur, puis ouv rez à nouv eau le fichier. Si le x rouge est toujours affiché, v ous dev rez peut-être supprimer l'image av ant de la réinsérer.

•

Exemple d’outil d’annotation : la « Gene Ontology »

– Gene Ontology (GO) – Gene Ontology Annotation (GOA) • •

http://geneontology.org/ http://www.ebi.ac.uk/ego

Utilisation d’un vocabulaire controlé Lien entre les termes sous forme de graphes – Directed Acyclic Graph (DAG)

• 3 composants dans GO : – Cellular component Endosome, Mitochondrion, Apoptosome, Centriole… – Biological process Notch signaling pathway, G1 phase, Serotonin biosynthesis… – Molecular function Inositol 3-kinase activity, clathrin binding…

http://www.ebi.ac.uk/ego

http://www.ebi.ac.uk/ego

! Automatique

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d’organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d’ontologies : Gene Ontology (GO) f. Bases de données de structures : PDB

C. Bases de données : f) Structures protéiques

•

Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, essentiellement, et acides nucléiques.

•

Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN.

• •

“ As of 18 January 2012 the PDB contains 78628 entries and EMDB contains 1242 entries » Identifiant de la structure: code 4 lettres/chiffres

C. Bases de données : f) Structures protéiques

PDBe

(PDB in Europe)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie Conclusion : Bioinformatique mais… Interprétation biologique ! •

De nombreuses informations sont mises à la disposition de le communauté scientifique en biologie par le mise en place de bases de données spécifiques.

•

Il existe des références croisées entre les différentes bases de données.

•

Les banques de données biologiques sont très souvent le point de départ pour réaliser une analyse, il est cependant essentiel de garder à l’esprit que des erreurs (manuelles ou automatiques) sont parfois présentes…