Localisation des zones de contacts candidates entre les chaînes latérales d'une protéine par un apprentissage supervisé.

M.H. Mucchielli-Giorgi et Serge Hazout
Equipe de Bioinformatique Moléculaire, INSERM U155, Université Paris 7,case 7113, 2, place Jussieu, 75251 Paris cedex 05.

 La recherche des déterminants du repliement passe par la détermination des contacts entre chaînes latérales appartenant à deux structures secondaires puisque ceux-ci jouent un rôle important dans la cohésion de la structure [1-4]. Le but de cette étude est donc de prédire les principaux points de contacts entre les chaînes latérales d’une protéine, à partir de la connaissance des structures primaires et secondaires et de l’accessibilité des acides aminés au solvant car la structure d’une protéine semble conditionnée de façon majeure par l’interaction des résidus internes qui se regroupent pour former un noyau hydrophobe.

 Nous avons tenté d’apprendre puis de prédire la localisation des zones de contacts putatives entre les chaînes latérales au sein d’une protéine et plus précisément entre deux structures secondaires données supposées connues (contacts entre deux hélices ?, deux feuillets ?, ...etc.). Comme nous pensons qu’un grand nombre de contacts entre chaînes latérales sont en partie favorisés par leur environnement, la stratégie est basée sur l’apprentissage par un réseau de « templates » où les environnements des deux résidus (fenêtres de 9 acides aminés) entrant en contact sont entrés et appris, le réseau cherchant au mieux à discriminer les contacts des non-contacts. C’est donc une méthode supervisée qui donne pour chaque doublet d’acides aminés sa probabilité d’être en contact. Nous avons ensuite filtré les cartes de contacts en particulier en fonction de l’accessibilité au solvant et des structures secondaires, afin de prédire un ensemble de zones candidates.

 Ce travail présente l’originalité d’être un premier maillon vers la prédiction directe de la structure tridimensionnelle à partir des structures primaires et secondaires. En effet, les cartes de contacts indiquent les interactions possibles entre les acides aminés d’une protéine de structure 3D inconnue et limitent donc le nombre de possibilités dans la construction de la structure protéique. Ayant une connaissance des principaux points de contacts  entre les chaînes latérales, il sera alors possible de construire un ensemble de modèles structuraux contraints par les zones putatives de contacts, l’objectif final étant d’approcher la vraie structure de la protéine [5].

1. Thomas D.J., Casari G., Sander C. (1996). The prediction of protein contacts from multiple sequence alignments. Prot. Eng. 11, 941-8.
2. Lund et al. (1997). Protein distance constraints predicted by neural network and probability density function . Prot. Eng. 11,1241-1248.
3. Olmea O. and Valencia A. (1997). Improving contact predictions by the combination of correlated mutations and other sources of frequency information. Fold. Des. 2, 25-32.
4. Selbig J. and Argos P. (1998). Relationships between protein sequence and structure patterns based on residue contacts proteins. Proteins, 31, 172-185.
5. Vandruscolo M., Kussel and Domany E. (1997). Recovery of protein structure from contact maps. Fold. Des. 2, 295-305.
 




Accueil