Primary links

By anne-marie.dubois - Posted on 27 mai 2020

Version imprimable

L’outil BLAST (Basic Alignement Search Tool) du National Center for Biotechnology Information (NCBI) est utilisé pour comparer deux séquences d’ADN ou d’ARN. Lorsqu’on recherche une séquence d’ADN dans cette énorme base de données, il est possible de savoir à quel organisme le matériel génétique appartient.

 

L’outil BLAST permet de chercher si une suite précise de nucléotides se retrouve dans la séquence choisie. Cela nous permet ainsi de vérifier le niveau de ressemblance entre deux matériels génétiques. En utilisant l’outil BLAST, on peut vérifier si le VIH est bel et bien relié au SRAS-CoV-2. 

 

 

Comment fonctionne l'outil BLAST ?

 

 

1 Tout d’abord, la séquence du SRAS-CoV-2 peut être trouvée (et copiée) ici :

https://www.ncbi.nlm.nih.gov/nuccore/MT344963.1?report=fasta

 

 

 

2 En allant sur le site https://blast.ncbi.nlm.nih.gov/Blast.cgi nous arrivons sur cette interface. Il faut choisir l’option « Nucleotide BLAST », qui nous permet de comparer deux séquences de nucléotides (ci-dessous entouré en rouge).

 

 

 

 

3 Sur la nouvelle page, il faut « coller » la séquence du virus SRAS-CoV-2 dans la case prévue à cet effet. Pour voir la ressemblance à d’autres séquences, notamment d’autres coronavirus, mais pas le SRAS-CoV-2, on peut « exclure » ce dernier dans la case prévue à cet effet (ci-dessous entouré en rouge).

 

 

 

 

4 Pour lancer la requête, il faut cliquer sur « BLAST » (ci-dessous entouré en rouge). On peut aussi changer la commande par défaut de « séquences très similaires » (highly similar sequences) à « séquences quelque peu similaires » (somewhat similar sequences) (ci-dessous entouré en vert).

 

 

À quoi ressemblerait un résultat BLAST pour deux séquences ayant un lien biologique ? Commençons par comparer le matériel génétique du SRAS-CoV-2 avec celui de tous les autres coronavirus. Lorsqu’on lance une recherche dans BLAST avec la séquence du SRAS-CoV-2 comme expliqué ci-dessus, les meilleurs résultats correspondent à d’autres coronavirus. Notez bien que la séquence ressemblant le plus au virus responsable de la COVID-19 correspond au coronavirus chez les chauves-souris que l’on suppose être la source de la pandémie actuelle (à voir ci-dessous souligné en rouge).

 

 

Comment interpréter ces résultats ? Regardons d’abord les E-Value (expected-value) correspondant au nombre d’alignements parfaits qu’on s’attend à obtenir par hasard (entouré ci-dessus en vert). Avec seulement quatre nucléotides possibles dans la séquence d’ARN, il est possible que par coïncidence, les mêmes suites de nucléotides se retrouvent dans les deux virus sans toutefois signifier qu’ils sont de la même origine. Plus que le E-Value est petit, plus que les séquences ont un lien biologique entre elles. Ici, nos E-Value sont de 0, soit la plus petite valeur possible. Les séquences ont donc un lien biologique entre elles.

 

 

 

5 Il est possible d’analyser plus en détail les comparaisons de séquence en cliquant sur alignement (entouré ci-dessous en rouge).

 

 

Une autre valeur à regarder est le bit score, soit la taille requise d’une base de données de séquences dans laquelle la recherche pourrait être trouvée par un simple hasard. Plus grande est la valeur du bit score, plus de chance que la similarité entre nos séquences ne soit pas par coïncidence. Si on regarde le premier alignement avec la séquence du coronavirus chez les chauves-souris, le bit score ici est de plus de 48 678 (encerclé ci-dessous en rouge). La séquence query représente celle que nous avons recherchée, soit le SRAS-CoV2, alors que la séquence « Sbjct » (sujet) est celle du coronavirus chez la chauve-souris. Sur l’image ci-dessous, on peut observer que les deux séquences s’alignent très bien, avec quelques différences encerclées en vert.

 

 

 

 

6 Maintenant que nous savons à quoi nous attendre pour un résultat positif, nous pouvons comparer les séquences d’ARN du coronavirus SRAS-CoV-2 avec toutes les séquences d’ARN du VIH pour vérifier leur ressemblance. En retournant sur l’interface de départ, nous allons de nouveau utiliser la séquence du SRAS-CoV-2 dans nos recherches, mais nous allons limiter cette fois nos comparaisons avec toutes les séquences correspondant au VIH (HIV en anglais) dans la case prévue en cet effet (voir en rouge ci-dessous).

 

 

Voici les résultats obtenus :

 

 

Dans nos résultats ici, les E-Value sont plus grandes que 1, ce qui suggère que les séquences similaires ont été obtenues par hasard (encerclé en rouge ci-dessus). Avec quelle valeur de E-value est-ce que je peux déduire que deux séquences sont biologiquement liées ? Il n’y a pas vraiment de valeur limite, mais comme point de référence, NCBI utilise une valeur d’E-value plus petite que 0,000001. Lorsqu’on vérifie les alignements séparément comme on l’avait fait auparavant, on remarque que les valeurs de bit score sont petites (encerclé en rouge ci-dessous). Nous sommes donc bien loin de la ressemblance qu’avait le SRAS-CoV-2 avec d’autres coronavirus.

 

 

 

 

7 Avant de tirer des conclusions de cette comparaison, il est important d’effectuer un contrôle négatif, soit de comparer l’ARN du SRAS-CoV-2 avec celui de quelque chose dont on sait qu’il n’y a pas de lien direct. Nous allons comparer l’ARN du SRAS-CoV-2 avec celui d’une grenouille (voir case encerclée en rouge ci-dessous). L’hypothèse est qu’on ne devrait pas obtenir de similarités entre ces séquences, ou du moins pas autant qu’avec le VIH.

 

 

 

Les valeurs d’E-Value obtenues ici sont beaucoup plus petites que celles obtenues lors de la comparaison avec le VIH (ci-dessus encerclées en rouge). Si l’on regarde les alignements, le bit score de 48,2 pour le premier alignement est plus grand que la valeur obtenue lors de la comparaison avec le VIH.