Informations

La fraction du génome conservée au cours de l'évolution par sélection purificatrice est inférieure à 10 % ?


J'apprécierais de l'aide pour comprendre le sens, la logique et, en particulier, comment interpréter la phrase :

La fraction du génome conservée au cours de l'évolution par sélection purificatrice est inférieure à 10 %

Je pourrais poser de nombreuses questions concernant la biologie (y compris ce qui arrive au reste du génome et la sélection positive) et la logique formelle de cette affirmation, mais peut-être que je pourrais imposer, et laisser cela à quiconque répondra gentiment.

Cette remarque est tirée du résumé de Grauer & al. "Sur l'immortalité des téléviseurs : "fonction" dans le génome humain selon l'évangile sans évolution d'ENCODE"

Et le résumé lui-même :

Une série récente de publications du Consortium ENCyclopedia Of DNA Elements (ENCODE), en particulier l'article signé par tous les membres du Consortium, a avancé l'idée que plus de 80% du génome humain est fonctionnel. Cette affirmation va à l'encontre des estimations actuelles selon lesquelles la fraction du génome qui est conservé au cours de l'évolution grâce à la sélection purificatrice est inférieur à 10 %. Ainsi, selon le Consortium ENCODE, une fonction biologique peut être maintenue indéfiniment sans sélection, ce qui implique qu'au moins 80 - 10 = 70% du génome est parfaitement invulnérable aux mutations délétères, soit parce qu'aucune mutation ne peut jamais se produire dans ces " " ou parce qu'aucune mutation dans ces régions ne peut jamais être délétère. Cette conclusion absurde a été atteinte par divers moyens, principalement en employant la définition rarement utilisée du « rôle causal » de la fonction biologique, puis en l'appliquant de manière incohérente à différentes propriétés biochimiques, en commettant une erreur logique connue sous le nom d'« affirmer le conséquent », en omettant d'apprécier la différence cruciale entre « l'ADN indésirable » et « l'ADN des déchets », en utilisant des méthodes analytiques qui produisent des erreurs biaisées et gonflent les estimations de fonctionnalité, en privilégiant la sensibilité statistique à la spécificité et en mettant l'accent sur la signification statistique plutôt que sur l'ampleur de l'effet. Ici, nous détaillons les nombreuses transgressions logiques et méthodologiques impliquées dans l'attribution de fonctionnalités à presque tous les nucléotides du génome humain. Les résultats d'ENCODE ont été prédits par l'un de ses auteurs comme nécessitant la réécriture des manuels. Nous sommes d'accord, de nombreux manuels traitant du marketing, du battage médiatique et des relations publiques devront peut-être être réécrits.

Merci


Je vais essayer d'aborder la terminologie

  • Conservé : Cela reste identique (ou du moins très similaire) d'une espèce à l'autre.

  • Sélection purifiante : Est l'une des forces possibles qui conduisent à la conservation de séquences importantes d'ADN, en éliminant les allèles délétères.

Ainsi, l'expression signifie simplement que la proportion du génome qui est très similaire en séquence avec le génome d'autres espèces (c'est-à-dire conservé au cours de l'évolution) est inférieure à 10 %.

C'est la réponse à votre question. Ensuite, je veux juste ajouter que je partage le point de vue de David sur le résumé.


Recherche improbable

Le projet ENCODE (son objectif déclaré est « d'identifier tous les éléments fonctionnels de la séquence du génome humain ») a suscité de nombreuses critiques. Dan Graur, membre du Luxuriant Former Hair Club for Scientists (LFHCfS), et ses collègues ont apporté de chaleureuses contributions à cette rivière de critiques :

“Sur l'immortalité des téléviseurs : ‘fonctionne dans le génome humain selon l'évangile sans évolution d'ENCODE,” Dan Graur, Yichen Zheng, Nicholas Price, Ricardo BR Azevedo, Rebecca A. Zufall et Eran Elhaik, Biologie et évolution du génome, vol. 5, non. 3, 2013, p. 578-590. Les auteurs écrivent :

Une série récente de publications du Consortium ENCyclopedia Of DNA Elements (ENCODE), en particulier l'article signé par tous les membres du Consortium, a avancé l'idée que plus de 80 % du génome humain est fonctionnel. Cette affirmation va à l'encontre des estimations actuelles selon lesquelles la fraction du génome conservée au cours de l'évolution par sélection purificatrice est inférieure à 10 %. Ainsi, selon le Consortium ENCODE, une fonction biologique peut être maintenue indéfiniment sans sélection….

« Je serais très fier d'avoir siégé au comité qui a conçu le génome d'E. coli. Il n'y a cependant aucune chance que j'admette siéger à un comité qui a conçu le génome humain. Même un comité universitaire ne pourrait pas gâcher quelque chose d'aussi grave. —David Penny (communication personnelle) …

« Le test à l'oignon est une simple vérification de la réalité pour quiconque pense pouvoir attribuer une fonction à chaque nucléotide du génome humain. Quelles que soient les fonctions que vous proposez, posez-vous cette question : pourquoi un oignon a-t-il besoin d'un génome environ cinq fois plus grand que le nôtre ? -T. Ryan Gregory (communication personnelle) …

L'alternative absurde, qui a malheureusement été adoptée par ENCODE, est de supposer qu'aucune mutation délétère ne peut jamais se produire dans les régions qu'ils ont considérées comme fonctionnelles. Une telle hypothèse revient à affirmer qu'un téléviseur laissé allumé et sans surveillance sera toujours en état de fonctionner après un million d'années, car aucun événement naturel, tel que la rouille, l'érosion, l'électricité statique et les tremblements de terre ne peut l'affecter. La justification alambiquée de la décision de rejeter la conservation et la contrainte évolutives en tant qu'arbitres de la fonctionnalité avancée par un auteur principal d'ENCODE (Stamatoyannopoulos 2012) est sans fondement et égoïste.

Partagez ceci :

posté par Marc Abrahams au Samedi 6 décembre 2014 à 9h59 sous Arts et sciences, Actualités de la recherche.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Résultats

Abondance et diversité

La plupart des éléments récupérés sont fragmentés et tronqués, et les insertions imbriquées sont courantes, en particulier parmi les éléments péricentromériques appartenant à la Athila superfamille, bien que les séquences de centromères de base elles-mêmes n'étaient pas disponibles. En effet, la taille du A. thaliana Le génome a été récemment estimé à environ 157 Mpb (environ 20 % plus grand que l'estimation publiée avec la séquence du génome), et la taille supplémentaire semble être due à l'ADN répétitif hétérochromatique (non séquencé) dans les centromères, les télomères et les régions organisatrices nucléolaires [ 24]. Le tableau 1 montre l'abondance relative de chaque superfamille et le nombre d'éléments complets et solo-LTR identifiés dans le génome. Athila est la superfamille la plus abondante, suivie de la Copia-Comme, gitan-like, et TRIM (rétrotransposons à répétition terminale en miniature). Le rapport entre les solos-LTR et les éléments complets est d'environ 2:1. En plus de la formation solo-LTR, la suppression et la fragmentation de l'ADN de rétrotransposon dans A. thaliana se produisent également par d'autres mécanismes : 36 % de l'ADN dans le Athila, 38 % dans le gitan-comme, 32% dans le Copia-like, et 21% dans les superfamilles TRIM correspondent à des insertions dégradées qui ne sont ni des éléments « complets » ni des solo-LTR.

Répartition par âge

Pour obtenir la distribution d'âge à l'échelle du génome de chaque superfamille (sauf TRIM), 564 paires de LTR intra-élément ont été alignées (par paires) et leur divergence de séquence estimée. De nombreux éléments TRIM complets ont des LTR très divergents, et je soupçonne qu'une recombinaison importante entre les LTR inter-éléments s'est produite. Dans les arbres de jointure voisine de séquences LTR (d'éléments complets et solos) des familles TRIM Katydid-At1 et Katydid-At2, la plupart des paires LTR intra-élément ne se sont pas groupées. En revanche, lorsque des arbres ont été construits pour les représentants des Athila (athila2), gitan-Comme (atlantys2), et Copia-Comme (méta1, atcopia49, atcopia78) superfamilles, les paires LTR intra-élément toujours regroupées (données non présentées), fournissant la preuve de l'absence de recombinaison inter-élément dans ces «familles».

Les superfamilles diffèrent significativement par leur âge moyen d'insertion. Athila les insertions sont nettement plus anciennes que les gitan-like (test de la somme des rangs de Wilcoxon, p < 0,0005), gitan-comme plus vieux que Copia-Comme (p < 0,0001). Les répartitions par âge sont résumées à la figure 1.

Distributions par âge des superfamilles LTR-rétrotransposons. Athila les insertions sont en moyenne significativement plus anciennes, et Copia-comme les plus jeunes, que ceux des autres superfamilles. Il y a 34 Copia-comme, quatre Athila, et trois gitan-comme des insertions avec des LTR intra-élément identiques. La largeur des cases horizontales au-dessus des histogrammes indique les 50 % du milieu des valeurs d'âge dans chaque superfamille, la bande rouge indique des limites de confiance à 95 % sur la médiane et la bande verte la valeur médiane.

Copiales insertions semblables sont plus jeunes que les espèces hôtes

En utilisant le taux de 1,5 × 10 -8 substitutions par site et par an [25], 97 % des 215 ont terminé Copia-les éléments similaires ont moins de 3 millions d'années (Myr), 90 % plus jeunes que 2 Myr, et seulement deux insertions estimées avoir plus de 4 Myr. Cela montre que les insertions complètes des Copia-comme des familles dans le A. thaliana génome sont plus jeunes que l'espèce elle-même, dont le moment de divergence avec ses plus proches parents, tels que A. lyrata a été estimée (avec le même taux d'évolution) entre 5,1 et 5,4 Myr [25]. La situation est moins claire pour Athila (et le gitan-like TEs), car 7 % des 219 paires de LTR intra-élément ont été estimées à plus de 5 Myr (3 % des gitan-Comme). De plus, le Athila et gitan-les superfamilles similaires ont un excès d'insertions dégradées par rapport à Copia-like (tableau 1). Les éléments complets représentent environ 50% de la quantité totale d'ADN dans Athila et gitan-like, indiquant que la majorité des insertions restantes dans le génome ont été dégradées ou sont devenues des solo-LTR. Certaines d'entre elles sont susceptibles d'être plus anciennes que les insertions complètes. Il a été démontré que la perte d'ADN (à partir des LTR-RT) se produit dans A. thaliana [26], et les insertions les plus anciennes peuvent avoir été dégradées au-delà de la détection. D'un autre côté, il existe des preuves que les sites synonymes dans Arabidopsis n'évoluent pas de manière totalement neutre [27]. Si tel était le cas pour la chalcone synthase (Chs) et l'alcool déshydrogénase (Adh) loci, leurs sites synonymes évolueraient plus lentement que les fossiles LTR-RT, et la méthode de datation décrite ci-dessus surestimerait systématiquement les âges de leurs événements d'insertion.

Athila et gitan-les éléments similaires étaient plus actifs dans le passé

La répartition par âge des complets Copia-les éléments similaires semblent montrer une poussée d'activité récente (Figure 1), mais j'apporte la preuve (ci-dessous) que l'excès d'éléments très jeunes est le résultat de l'élimination rapide (par rapport aux insertions de Metaviridae) de ces éléments du génome. En revanche, les distributions par âge des Athila et gitanles insertions similaires ont des pics entre 1 et 2 Myr (Figure 1). De plus, alors qu'il y a 34 Copia-like insertions avec leurs LTR intra-élément identiques dans la séquence, seulement quatre de ces Athila et trois de ces gitan-comme des insertions sont présentes. Ces résultats indiquent que les niveaux d'activité de transposition de Athila et gitanLes éléments similaires ont décliné depuis leur pic entre 1 et 2 Myr.

Distribution physique

La distribution chromosomique des rétrotransposons (et autres ET) dans A. thaliana est connu pour être non aléatoire et dominé par une forte concentration d'éléments dans les régions péricentromériques hétérochromatiques [14]. Cependant, cette étude a révélé des différences significatives dans les emplacements chromosomiques des superfamilles LTR-RT. J'ai analysé la distribution des éléments complets et des solo-LTR dans chaque superfamille le long de tous les bras chromosomiques combinés, par rapport à la position des centromères (c'est-à-dire la distribution des distances entre chaque insertion et le centromère, divisée par la longueur du bras respectif), avec des résultats résumés dans la figure 2.

Regroupement péricentromérique différentiel d'éléments complets et de solo-LTR le long des 10 bras chromosomiques combinés. L'axe vertical mesure la distance au centromère, divisée par la longueur du bras chromosomique dans lequel un élément donné est inséré : la valeur de 0,0 correspond à la position des centromères et 1,0 aux télomères. Les hauteurs des cases indiquent l'intervalle interquartile et les largeurs sont proportionnelles à la taille de l'échantillon. Les bandes rouges représentent des limites de confiance à 95 % sur la médiane et la bande verte marque la valeur médiane de chaque échantillon. Les coordonnées des centres approximatifs des centromères sur les séquences chromosomiques ont été fixées à 14,70 Mbp pour le chromosome I (longueur totale 30,14 Mbp), à 3,70 Mbp pour II (19,85 Mbp), à 13,70 Mbp pour III (23,76 Mbp), à 3,10 Mbp pour IV (17,79 Mbp), et à 11,80 Mbp pour V (26,99 Mbp).

Athila les éléments sont presque exclusivement insérés dans les régions péricentromériques, et les autres superfamilles dans des régions significativement et progressivement moins proximales des bras chromosomiques (tests de somme des rangs de Wilcoxon : Athila plus proche que le gitan-Comme, p < 0,0001 gitan-comme plus proximal que Copia-Comme, p < 0,0001 terminé Copia-comme des éléments plus proximaux que des éléments TRIM complets, p < 0.05 il n'y a pas de différence entre Copia-like et TRIM solo-LTR). De plus, à l'exception de TRIM, au sein de chaque superfamille, les solo-LTR sont significativement plus distaux que les éléments complets (tests de somme des rangs de Wilcoxon, p < 0,001), suggérant que la formation de solo-LTR est plus susceptible de se produire dans les régions distales. La distribution des éléments TRIM complets par rapport au centromère n'est pas significativement différente de l'aléatoire (test d'adéquation, χ 2 = 4,22, df = 3, p > 0,2), bien que la taille de l'échantillon soit petite, tandis que leurs LTR solo sont significativement regroupés (test d'adéquation, χ 2 = 10,70, df = 3, p < 0,02).

Accumulation dans les régions proximales par des mécanismes évolutifs distincts : purifier les biais de sélection et d'insertion

Les résultats ci-dessus indiquent que plus une superfamille est ancienne, plus ses éléments sont concentrés dans les régions proximales. Cela suggère que les insertions dans les régions proximales (hétérochromatiques) sont plus susceptibles de persister pendant de plus longues périodes. Cette interprétation suppose que le taux de mutation neutre est le même pour les portions distale (euchromatique) et proximale (hétérochromatique) du génome. Une variation intra-génomique du taux de mutation par réplication a été rapportée entre les deux chromosomes sexuels d'une plante à fleurs [28] (bien que la différence ne puisse pas être expliquée par leur degré différent de méthylation de l'ADN, une caractéristique souvent associée à l'hétérochromatine). Étant donné que la méthode de datation utilisée ici est basée sur une divergence de séquence neutre (entre les LTR intra-élément), un taux de mutation plus élevé de l'hétérochromatine dans A. thaliana affecterait les comparaisons d'âge entre différents groupes d'éléments, car ils montrent différents degrés de regroupement dans l'hétérochromatine péricentromérique. Cependant, des estimations plus anciennes de l'âge des éléments hétérochromatiques sont cohérentes avec l'hypothèse selon laquelle l'hétérochromatine est un «refuge» où les insertions TE persistent pendant de plus longues périodes. Ici, je montre que les mécanismes qui ont conduit à l'accumulation de LTR-RT dans les régions proximales sont distincts pour différents groupes : éléments de la plus jeune superfamille (Copia-like) s'insèrent au hasard dans le génome (par rapport à l'emplacement de l'hétérochromatine péricentromérique), mais il y a une sélection négative (sur le génome hôte) contre leurs insertions dans les éléments euchromatiniens des superfamilles plus anciennes (Athila, gitan-like) s'insèrent préférentiellement dans les régions péricentromériques. Ces mécanismes distincts deviennent apparents lorsque les données temporelles et spatiales sont combinées (Figure 3), et la distribution chromosomique des éléments jeunes par rapport à la distribution des éléments plus âgés (au sein de chaque superfamille).

Relation entre l'âge et les distributions physiques des éléments complets. Les insertions dans les bras courts des chromosomes II et IV ont été exclues pour plus de clarté. Ces bras contiennent une vaste hétérochromatine loin des centromères, dans les régions organisatrices nucléolaires qui juxtaposent leurs télomères et dans un bouton [14]. De plus, leur courte longueur implique que l'hétérochromatine péricentromérique, qui s'étend sur environ 1-1,5 Mbp dans chaque bras [68], correspond à une fraction sensiblement plus élevée de leur longueur totale que dans les huit autres bras.

Pour compléter Copia-comme des éléments, il existe une corrélation négative hautement significative entre la distance relative du centromère et l'âge des insertions (corrélation de rang de Spearman, = -0,39, p < 0,0001). De plus, la distribution le long des bras chromosomiques de 34 Copia-les insertions de type sans divergence entre leurs LTR intra-éléments ne sont pas significativement différentes de celles aléatoires (test de qualité d'ajustement, χ 2 = 3,12, df = 3, p > 0.3). C'est la preuve que Copia-des éléments similaires s'intègrent de manière aléatoire par rapport à l'emplacement des centromères, mais ont tendance à être éliminés des régions distales et à s'accumuler passivement dans les régions proximales.

Le temps moyen de fixation (t) pour un allèle neutre est donnée par t = 4N e, où N eest la taille effective de la population. Pour A. thaliana t peut être estimée en utilisant une moyenne des estimations de la diversité nucléotidique (??) pour 8 différents A. thaliana gènes, ?? = 9 × 10 -3 [29], et le taux de substitution synonyme par site et par génération, ?? = 1.5 × 10 -8 [25]. t = 2??/??, donnant une estimation de t 1,2 Myr. Cette valeur pour t est cohérent avec une estimation indépendante qui a placé le temps écoulé depuis la divergence entre A. thaliana et A. lyrata entre 3,45t et 5.6t [30]. Étant donné que 75 % de tous ont terminé CopiaLes insertions similaires sont inférieures à 1,2 Myr, la plupart d'entre elles sont susceptibles d'être polymorphes. Conjugués à la corrélation négative hautement significative entre l'âge et la distance des régions péricentromériques, ces résultats indiquent que la CopiaLes insertions semblables à celles-ci sont moins susceptibles de se fixer dans les parties euchromatiques distales des bras chromosomiques que dans l'hétérochromatine péricentromérique.

En revanche, il n'y a pas de corrélation entre l'âge et la distance relative des centromères pour Athila éléments (corrélation de rang de Spearman, = 0,01, p = 0,9), car les insertions jeunes et vieilles ne se trouvent que dans les régions proximales (Figure 3), compartimentées dans l'hétérochromatine péricentromérique. Cela suggère fortement que les éléments de la superfamille ont évolué pour cibler préférentiellement l'hétérochromatine péricentromérique, et leur distribution génomique, contrairement à celle de Copia-comme des éléments, n'est pas le résultat d'une accumulation passive en son sein. Seulement si Athila les insertions étaient beaucoup plus délétères que Copia- semblables, de sorte qu'elles seraient très rapidement éliminées par sélection purificatrice, pourrait-il y avoir accumulation passive.

gitan-les insertions similaires affichent un modèle similaire à Athila. Même s'il existe pour les éléments complets une corrélation négative significative entre la distance relative aux centromères et l'âge, cela est dû à un excès d'insertions récentes près du télomère du bras court du chromosome II (données non présentées). Si le bras est exclu de l'analyse, il n'y a pas de corrélation significative (corrélation de rang de Spearman, = -0,09, p > 0.3). Ceci suggère que pour le gitan-comme aussi il y a un biais d'insertion vers les régions proximales. Ce biais n'est pas aussi fort que pour Athila, comme complet gitanles insertions similaires ne se trouvent pas exclusivement autour des centromères, et elles se regroupent (dans une bien moindre mesure) dans au moins une autre région hétérochromatique (le télomère du bras court du chromosome II). Inclus dans le gitan-comme 'superfamille' est un clade d'éléments, connu sous le nom Tat, qui est un groupe frère de Athila à l'exclusion du reste gitan-comme des éléments [31]. L'âge et la répartition physique des Tat ne diffère pas de ceux des autres gitan-éléments similaires (tests de somme de rang Wilcoxon, p > 0.4) Tat montrent un biais d'insertion vers les régions péricentromériques, mais encore une fois à un degré moindre que Athila.

Demi-vie complète Copia-comme des insertions

Étant donné que Copia-les éléments similaires ont été actifs jusqu'à récemment mais ont tendance à être éliminés par la sélection purificatrice, leur répartition par âge (figure 1, en bas) reflète le processus d'origine et de perte d'éléments complets, lorsqu'ils sont moyennés sur des échelles de temps évolutives (et sur toutes les lignées de Pseudoviridae) . Si l'on suppose qu'il s'agit d'un processus en régime permanent, il peut être modélisé par la fonction de survie : N(K) = N oe -unK , où N(K) est le nombre d'éléments observés avec divergence LTR intra-élément K, et N oet une sont des constantes à ajuster. Le taux d'élimination peut alors être estimé par régression linéaire des données transformées en log (la demi-vie des insertions est donnée par ln2/une). La figure 4 montre l'ajustement pour tous les Copia-comme des insertions (R 2 = 0,94), et pour les insertions complètes en dehors des régions proximales (c'est-à-dire avec une distance relative des centromères >0.2 R 2 = 0,95). Compléter Copia-les éléments similaires sont éliminés du génome avec une demi-vie de 648 000 ans (SE = 48 000 ans). Les insertions exclusivement en dehors des régions proximales (hétérochromatiques) sont perdues plus rapidement, avec une demi-vie de 472 000 ans (SE = 46 000 ans).

Perte de complet Copia-comme des éléments. La demi-vie complète Copia-les éléments similaires dans l'ensemble du génome (comptes transformés en log marqués par des cercles bleus, ligne de régression bleue) sont estimés à environ 650 000 ± 50 000 ans. Les insertions complètes en dehors des régions proximales (carrés rouges, droite de régression rouge) sont perdues plus rapidement, avec une demi-vie estimée à environ 470 000 ± 50 000 ans.


Résultats

Modèles de polymorphisme à l'échelle du génome dans les régions de croisement

Le tableau 1 présente des résumés des modèles de polymorphisme pour les loci autosomiques (A) et liés à l'X (X) situés dans les régions génomiques où se produit le croisement (régions C). Pour faciliter la présentation, nous ferons référence à la diversité nucléotidique, π, calculé en utilisant les sites 0-fold, les sites quadruples et les sites SI (positions 8� à partir de l'extrémité 5′ des introns courts �𠂛p) comme π0, π4 et πSI, respectivement, une convention de notation similaire sera utilisée pour d'autres statistiques. Pour A et X, et dans les deux échantillons rwandais (RG) et français (FR), π0, celui de Tajima 0 (Tajima 1989) et MAF0 sont significativement plus petites que les estimations correspondantes obtenues à partir des sites 4-fold et SI (Ppermutationπ.001 dans tous les cas), conformément au fait bien connu que la plupart des mutations non synonymes sont délétères (Pal et al., 2006 Eyre-Walker et Keightley, 2007), et sont donc maintenus à de faibles fréquences dans la population par sélection purificatrice (Kimura, 1983). Des études antérieures ont suggéré que les sites SI peuvent évoluer de manière neutre (Halligan et Keightley, 2006 Parsch et al., 2010). Dans notre jeu de données, πSI semble être un peu plus petit que π4, ce qui peut être dû à la procédure stricte de filtrage des données que nous avons utilisée (voir Matériels et méthodes), ou à la teneur en GC plus élevée sur les sites 4 fois supérieure à celle des sites introniques, ce qui devrait à son tour entraîner une augmentation du taux de mutation dans 4- sites de pliage (Singh et al., 2005 Keightley et al., 2009). Il n'y a cependant aucune différence statistiquement perceptible en ce qui concerne le MAF ou le taux de Tajima. entre les sites 4 fois et SI ( Tableau 1 PpermutationϠ.1 pour A et X).

Tableau 1

ChrPlacerAu sein de la population une Entre les populations b
  Pop. c πLe D de TajimaCRGF UF W
UNE0 foisRG0.0012𢄠.83970.12220.15160.1709
  FR0.0010𢄠.2586   
 4 foisRG0.0154𢄠.10690.16530.16840.1743
  FR0.01190.1116   
 SI d RG0.0145𢄠.13800.16300.16770.1766
  FR0.01130.1413   
X0 foisRG0.0012𢄡.19070.10730.16530.2924
  FR0.0005𢄠.2293   
 4 foisRG0.0166𢄠.46790.13670.19030.2879
  FR0.00680.1412   
 SI d RG0.0160𢄠.45610.13790.20330.3173
  FR0.00610.3414   

Abréviations : MAF, fréquence des allèles mineurs

L'échantillon FR a un niveau de diversité inférieur à celui de RG pour les trois types de sites (tableau 1), reflétant une perte de variation génétique induite par des goulots d'étranglement de population qui se seraient produits lorsque l'espèce a migré hors d'Afrique (Haddrill et al., 2005b Li et Stephan, 2006 Thornton et Andolfatto, 2006 Hutter et al., 2007 Duchen et al., 2013). La différence dans π0 entre les deux populations est un peu plus faible que celles observées pour π4 et πSI (par exemple, sur A, π0(FR)/π0(RG)=0,83 versus π4(FR)/π4(RG)=0,77). Ceci est probablement dû au fait que davantage de sites à 0 fois sont soumis à une forte contrainte sélective, de sorte que les variants sur ces sites se comportent de manière presque déterministe, et sont donc moins sensibles aux changements démographiques (par exemple, Zeng, 2013).

Pour inspecter les schémas globaux de différenciation génétique entre les populations RG et FR, nous avons calculé FST (abrégé ici en F voir l'équation (1) dans Materials and Methods), telle que définie par Weir et Cockerham (1984), en utilisant l'estimateur de Hudson et al. (1992). Deux approches ont été utilisées pour combiner les informations sur plusieurs SNP : moyenne non pondérée F (Équation (5)) et moyenne pondérée F (Équation (6)), qui sera appelée F U et F W , respectivement. Étant donné que la plupart des mutations non synonymes sont susceptibles d'être délétères, on s'attend à ce que les niveaux de différenciation de population sur ces sites sélectivement contraints soient inférieurs à ceux des sites moins contraints (par exemple, des sites quadruples) (Barreiro et al., 2008 Maruki et al., 2012). Étonnamment, les valeurs de , estimées à l'aide des données autosomiques ou liées à l'X, ne sont pas statistiquement différentes de celles des deux ou ( Tableau 1 PpermutationϠ.1 dans tous les cas). Il n'y a pas non plus de différence détectable entre et (PpermutationϠ.1 pour A et X). En revanche, s'est avéré significativement plus petit que les deux et (Ppermutationπ.001 pour A et X), alors que les différences entre et restent non significatifs (PpermutationϠ.1 pour A et X). Les patrons obtenus à partir F U sont donc plus compatibles avec les a priori l'attente que les sites 0 fois sont en moyenne plus contraints que les sites 4 fois et SI. Nous étudierons les causes de l'absence de différence entre et soit ou dans une section ultérieure.

Plusieurs différences entre A et X sont à noter ( Tableau 1 ). Premièrement, conformément aux rapports précédents (Caracristi et Schlotterer, 2003 Hutter et al., 2007 Charlesworth, 2012b Piscine et al., 2012 Campos et al., 2013), le rapport X:A de la diversité sur les sites supposément neutres (c'est-à-dire les sites 4 fois et SI) est d'environ 1 dans la population RG (π4(X)/π4(A)=1,08 et πSI(X)/πSI(A)=1,10), supérieur au nul attente de 3/4. Deuxièmement, la réduction de la diversité en FR est plus prononcée pour X que pour A pour les trois types de sites (par exemple, π4(FR)/π4(RG) = 0,41 et 0,77 pour X et A, respectivement), comme indiqué dans les enquêtes précédentes (Caracristi et Schlotterer, 2003 Hutter et al., 2007). Enfin, l'étendue de la différenciation de la population sur les sites 4 fois et SI, telle que mesurée par soit F U ou F W , est significativement plus élevée sur le X que sur A (Ppermutationπ.001 pour toutes les comparaisons). Ceci est probablement largement dû à la plus grande réduction de la diversité sur le X dans les populations non africaines, car les valeurs de xy, le nombre moyen de substitutions de nucléotides entre des séquences provenant de différentes sous-populations (Nei et Miller, 1990), sont comparables entre A et X dans cette étude : xy,4=1,65 et 1,64%, et xy,SI=1,51 et 1,58%. Un examen systématique des causes possibles des différences apparentes entre A et X dépasse le cadre de cette étude, le lecteur intéressé peut se référer aux études précédentes sur ce sujet (Charlesworth, 2001 Pool et Nielsen, 2007 Singh et al., 2007 Pool et Nielsen, 2008 Ioukilevitch et al., 2010 Charlesworth, 2012b Campos et al., 2013). Dans ce qui suit, les résultats obtenus à partir de A et X seront présentés séparément.

Preuves limitées pour la sélection sur le biais d'utilisation des codons affectant les modèles de différenciation des populations sur des sites dégénérés 4 fois

Pour déterminer si la sélection sur le biais d'utilisation des codons affecte les modèles de différenciation sur des sites quadruples, nous avons d'abord examiné la relation entre et Fop, car ce dernier est bien connu pour être corrélé à l'intensité de la sélection sur le biais d'utilisation des codons (examiné dans Hershberg et Petrov, 2008 Zeng et Charlesworth, 2009). Compte tenu de la grande variation de la F estimateurs et la pénurie de SNP dans les gènes individuels, nous avons regroupé les gènes dans des bacs de taille égale avec des nombres similaires de SNP sur des sites quadruples. Comme le montre la figure supplémentaire S2A, Fop et ne sont pas corrélées sur A (Kendall τ=𢄠.01, PϠ.1). Sur le X, des preuves d'une faible corrélation négative ont été obtenues (Figure supplémentaire S2B), mais elles ne sont pas statistiquement significatives (Kendall's τ=𢄠.6, P= 0,13). Lorsque a été considérée, aucune corrélation n'a été trouvée sur A ou X (Figures supplémentaires S2E et F). Pour étudier cela plus avant, pour les gènes dans chaque casier sur le X, nous avons testé si différait de statistiquement. Parmi les six cases, aucune preuve d'une différence significative n'a été trouvée pour les quatre premières cases, alors que les différences étaient marginalement significatives pour les deux dernières cases avec le Fop le plus élevé (Ppermutation= 0,04 et 0,05, respectivement). De même, nous n'avons détecté aucune corrélation entre KS et soit ou (Figure supplémentaire S2).

Dans l'ensemble, il existe des preuves limitées que la sélection sur le biais d'utilisation des codons est suffisamment forte pour modifier considérablement les modèles de différenciation génétique sur des sites quadruples. Considérant que les sites 4-fold et SI dans les régions C sont comparables en ce qui concerne à la fois le MAF et F, dans ce qui suit, nous utiliserons des modèles de différenciation de population obtenus à partir des deux types de sites comme standards neutres, et nous les désignerons comme des sites putativement neutres.

Les gènes conservés au cours de l'évolution sont soumis à une sélection purificatrice plus forte et ont réduit F sur des sites dégénérés 0 fois

Les gènes des régions C ont été divisés en bacs de taille égale (avec des nombres similaires de SNP) en fonction de leur KUNE valeurs entre D. melanogaster et D. yakuba. Nous avons inspecté les modèles de polymorphisme dans l'échantillon RG en fonction de KUNE un ensemble de résultats qualitativement identiques a été obtenu en utilisant l'échantillon FR (Figure supplémentaire S3). Sur A et X, KUNE s'est avéré être significativement positivement corrélé avec les deux π0 ( Figures 1a et b A : Kendall τ=0.989 et Pπ.001 X : Kendall τ=1 et P= 0,009) et celui de Tajima 0 ( Figures 1c et d A : Kendall τ=0.884, Pπ.001 X : Kendall τ=0.867 et P=0,024). Aucune relation statistiquement significative n'a été trouvée lors de la comparaison KUNE avec celui de Tajima 4 ( Figures 1c et d Kendall's τ=𢄠.2 et 𢄠.333, PϠ.1, pour X et A), bien qu'il existe une corrélation négative entre KUNE et π4 sur A ( Figure 1a Kendall's τ=𢄠.6, Pπ.001) (voir aussi Andolfatto, 2007 Haddrill et al., 2011). En particulier, sur A et X, π0 et celui de Tajima 0 approcher π4 et celui de Tajima 4, respectivement, comme KUNE augmente. En revanche, les valeurs de π4 et celui de Tajima 4, quel que soit le KUNE bin à partir duquel ils ont été obtenus, restent similaires aux valeurs de πSI et celui de Tajima SI. Ces résultats suggèrent que les sites 0 fois sont soumis à des contraintes plus fortes que les sites 4 fois et SI, et que les sites 0 fois dans les gènes avec de plus petits KUNE sont, en moyenne, soumis à une sélection purificatrice plus forte. Nous avons obtenu les mêmes résultats lorsque nous avons utilisé le D. simulans génome en tant que groupe externe (Figure supplémentaire S4).

Modèles de polymorphisme au sein de 17 Rwandais D. melanogaster lignes pour la séquence codante (CDS) regroupées par KUNE valeur (à D. yakuba), et pour les sites dans les régions 8�𠂛p des introns courts �𠂛p (sites SI). (une) Diversité nucléotidique (π) pour CDS-C autosomique et (b) Régions CDS-C liées à l'X (c) Tajima pour les régions CDS-C autosomiques et () Régions CDS-C liées à l'X. Les X les axes indiquent le maximum KUNE valeur dans chaque casier. Symboles : sites dégénérés 0 fois & cercles ouverts sites dégénérés 4 fois & triangles ouverts sites SI & carrés rouges ouverts.

Les figures 2a et b montrent que les gènes conservés au cours de l'évolution ont des (A : de Kendall τ=0.663, Pπ.001 X : Kendall τ=0.867, P=0,02). Encore une fois, nous avons obtenu le même résultat en utilisant D. simulans comme hors-groupe (Figure supplémentaire S5). Le modèle reste statistiquement significatif pour les autosomes lorsque a été pris en compte (Figure supplémentaire S6). La réduction de F0 pour les gènes plus petits KUNE est associé à une forte réduction du MAF0 ( Figures 2c et d ) et une augmentation de la proportion de SNP 0 fois qui sont privés à l'une des deux populations ( Figures 2e et f ), qui sont tous deux des caractéristiques de sélection contre les mutations délétères (cf. les humains Nelson et al., 2012 Fu et al., 2013), et devraient conduire à la fois F U et F W vers le bas, comme indiqué dans Matériels et méthodes (voir aussi Maruki et al., 2012 Bhatia et al., 2013 Jakobsson et al., 2013). Pour les sites quadruples sur A et X, aucune corrélation avec KUNE a été observé pour F U , F W , MAF et la proportion de SNP privés ( Figure 2 PϠ.1 dans tous les cas basé sur Kendall τ).

Schémas de différenciation entre 7 français et 17 rwandais D. melanogaster lignes pour la séquence codante (CDS) regroupées par KUNE valeur (à D. yakuba), et pour les sites SI. (une) Moyenne non pondérée FST (F U Équation (5)) pour le codage autosomique CDS-C et (b) Régions CDS-C liées à l'X (c) MAF moyen de la population pour les régions CDS-C autosomiques et () Régions CDS-C liées à l'X (e) la proportion de SNP par casier dans lequel un allèle était privé à l'un des D. melanogaster populations pour les régions CDS-C autosomiques et (F) Régions CDS-C liées à l'X. Symboles : sites dégénérés 0 fois & cercles ouverts sites dégénérés 4 fois & triangles ouverts sites SI & carrés rouges ouverts.

Les données présentées dans les figures 1 et ​ et 2 2 suggèrent que l'absence de différence entre et soit ou rapportée dans la section précédente est probablement due au fait que F W donne plus de poids aux SNP avec des niveaux attendus de polymorphisme plus élevés (par exemple, des variantes presque neutres), comme nous l'avons montré dans Matériaux et méthodes. En d'autres termes, lorsque tous les sites de facteur 0 dans les régions C ont été analysés ensemble (tableau 1), les effets de la sélection purificatrice sur une fraction substantielle des sites de facteur 0 étaient probablement masqués par ces sites de facteur 0 qui évoluent presque de manière neutre. Par conséquent, la répartition globale des semble indiscernable de ceux de et . En revanche, F U donne un poids égal à tous les SNP. Considérant que la valeur de F lorsqu'il est calculé à l'aide d'un seul SNP est contraint par MAF (voir l'équation (3) dans Matériaux et méthodes), F U devrait être plus sensible à l'action de sélection purificatrice que F W , en accord avec l'observation rapportée ci-dessus. Dans la discussion, nous explorerons davantage les implications de ces propriétés statistiques de F, qui surviennent lorsque les informations de plusieurs SNP sont combinées.

Les introns plus longs sont soumis à des contraintes sélectives plus fortes et sont moins différenciés

En accord avec les découvertes antérieures (Haddrill et al., 2005a Halligan et Keightley, 2006), les introns plus longs ont tendance à avoir une divergence plus faible (K) entre D. melanogaster et D. simulans (A : de Kendall τ=𢄠.635, Pπ.001 X : Kendall τ=𢄠.486, Pπ.001 Figures 3a et b ), probablement en raison de la présence d'éléments fonctionnels soumis à une sélection purificatrice (Bergman et Kreitman, 2001 Parsch, 2003 Andolfatto, 2005 Haddrill et al., 2005a Halligan et Keightley, 2006 Casillas et al., 2007 Roy et al., 2010). Ici, nous rapportons un soutien supplémentaire à cette hypothèse en examinant les modèles de polymorphisme au sein de la population en fonction de la longueur de l'intron. Conformément à l'action de la sélection purificatrice, les introns plus longs ont des π ( Figures 3c et d ) et des Tajima plus négatifs (Figures 3e et f) par rapport aux sites 4 fois et SI (des résultats similaires ont été observés dans l'échantillon FR, voir la figure supplémentaire S7). Fait intéressant, les modèles de divergence et de polymorphisme se stabilisent pour les introns de plus de 2000𠂛p. En utilisant l'échantillon RG, les valeurs de π et celui de Tajima obtenus à partir d'introns plus longs que 2000𠂛p sont 0,0072 et 𢄠.5476 pour A, et 0,0076 et 𢄠.9013 pour X, respectivement toutes ces valeurs sont sensiblement inférieures aux valeurs correspondantes observées sur les sites 4 fois et SI, mais sont plus élevés que ceux obtenus à partir de sites 0 fois (voir le tableau 1). De plus, le KUNE valeurs pour CDS dans les régions C entre D. melanogaster et D. simulans sont de 0,015 et 0,018 pour A et X, respectivement, qui sont significativement plus petites que les valeurs de K pour les introns longs �𠂛p sur A et X, qui sont respectivement de 0,061 et 0,074 (test de Mann–Whitney U, Pπ.001). Ces résultats impliquent que les introns longs, en particulier ceux �𠂛p, sont plus contraints que les sites 4 fois et SI, mais contiennent probablement moins de sites fortement sélectionnés que les sites 0 fois.

Modèles de divergence et de polymorphisme pour les sites introniques regroupés par longueur d'intron. (une) Divergence (K) entre D. melanogaster et D. simulans pour les introns autosomiques et (b) Introns liés à l'X (c) diversité nucléotidique (π) pour les introns autosomiques et () Introns liés à l'X (e) Tajima pour les introns autosomiques et (F) Introns liés à l'X. Les X les axes affichent la longueur maximale d'intron dans chaque casier. Notez que le nombre de SNP dans chaque bac d'intron autosomique est à peu près le même que celui dans le bac SI autosomique, il en va de même pour les données liées à l'X. Symboles : emplacements introniques longs�rcles ouverts positions 8�𠂛p sites d'introns courts �𠂛p (sites SI)�rrés rouges ouverts.

Estimations de F W , lorsqu'ils sont calculés en utilisant des sites d'introns de plus de 65𠂛p de longueur, étaient de 0,171 et 0,283 pour A et pour X, respectivement. Aucune de ces valeurs ne s'est avérée statistiquement différente des valeurs correspondantes estimées à l'aide des sites 4 fois et SI rapportés dans le tableau 1 (PpermutationϠ.1 dans tous les cas). F U pour les introns 㹥𠂛p étaient de 0,157 et 0,174 pour A et X, respectivement, qui étaient tous deux significativement plus petits que les deux et (Ppermutationπ.001 dans tous les cas). Il existe une relation négative évidente entre F U et la longueur de l'intron ( Figures 4a et b pour A et X, Kendall's τ=𢄠.356 et 𢄠.364 P=0,010 et Pπ.001, respectivement), qui reflète celui entre le MAF (ou la prévalence des SNP privés) et la longueur de l'intron (Figure supplémentaire S8), et est cohérent avec l'effet attendu de la sélection purificatrice sur la différenciation génétique entre les populations. La relation entre la différenciation et la longueur de l'intron est plus faible lorsque F W a été analysé (Figure supplémentaire S8 pour A et X, Kendall's τ=𢄠.271 et 𢄠.146, et P= 0,05 et 0,16, respectivement). Ces différences entre F W et F U peut s'expliquer par le fait que moins de sites dans les introns 㹥𠂛p devraient être fortement sélectionnés par rapport aux sites 0-fold. Comme discuté dans la section précédente, F W , qui tend à refléter des modèles de différenciation sur des sites neutres dans les données, est moins susceptible de récupérer des signatures de sélection purificatrice par rapport à F U .

Différenciation entre 7 français et 17 rwandais D. melanogaster lignes pour les sites introniques longs regroupés par longueur d'intron, et pour les sites SI. (une) Moyenne non pondérée FST (F U Équation (5)) pour les introns autosomiques et (b) Introns liés à l'X. Symboles : Sites introniques longs : cercles ouverts, Sites SI : places rouges ouverts.

Les régions avec une recombinaison réduite ont tendance à avoir F

Il est connu que les régions génomiques dépourvues de croisement (régions NC) ont des schémas de divergence et de polymorphisme très différents de ceux observés dans les régions C (Haddrill et al., 2007 Bétancourt et al., 2009 Arguello et al., 2010 Campos et al., 2012 Campos et al., 2014). Dans le tableau 2, nous présentons des statistiques récapitulatives des données NC pertinentes pour l'étude actuelle (voir Matériels et méthodes pour une liste des régions NC considérées). On peut voir que, pour les sites de 0 fois et de 4 fois, les valeurs de F dans les régions NC sont généralement plus élevés que ceux obtenus en utilisant le même type de site dans les régions C, quelle que soit la manière dont les informations provenant de plusieurs SNP ont été combinées. Plus précisément, la moyenne KUNE à D. yakuba est d'environ 0,05 pour les loci NC (Campos et al., 2012). calculées à l'aide des données NC autosomiques et liées à l'X sont respectivement de 0,1817 et 0,3012, plus élevées que les valeurs de 0,1569 et 0,1685 pour les gènes autosomiques et liés à l'X dans les régions C couvrant le même KUNE valeurs ( figures 2a et b Ppermutation=0,05 pour A et Ppermutationπ.001 pour X).

Tableau 2

ChrPlacerAu sein de la populationEntre les populations
  Pop.πLe D de TajimaCRGF UF W
UNE0 foisRG0.00036𢄠.67370.11520.18170.2302
  FR0.00032𢄠.7098   
 4 foisRG0.00129𢄠.52740.12080.19060.2281
  FR0.00122𢄠.5417   
X0 foisRG0.00056𢄠.63920.15560.30120.5673
  FR0.00023𢄠.3126   
 4 foisRG0.00327𢄠.00840.13950.23230.3485
  FR0.000900.2069   

Abréviations : FR, français MAF, fréquence allélique mineure RG, rwandais.

Les statistiques ont été obtenues de la même manière que dans le tableau 1 voir Matériels et méthodes pour plus de détails.

Il est à noter que l'élévation en F dans les régions NC est probablement causée par une réduction extrême de la diversité au sein de la population induite par des liens étroits entre un grand nombre de sites sélectionnés ( Tableau 2 Kaiser et Charlesworth, 2009 O'Fallon et al., 2010 Seger et al., 2010 Zeng et Charlesworth, 2010). Ceci est dû au fait F est une mesure relative de différenciation (voir l'équation (1)), et donc toutes choses égales par ailleurs, F devrait être élevé par des forces qui réduisent la diversité au sein de la population (c'est-à-dire πS dans l'équation (1)), que la diversification de la sélection ou la réduction du flux génétique ait affecté la région génomique à l'étude (Charlesworth, 1998 Noor et Bennett, 2009).

Pour examiner plus en détail les effets de la sélection sur les sites liés, nous inspectons la corrélation entre F sur des sites présumés neutres et des taux de recombinaison locaux dans les régions C. La figure 5 présente les résultats basés sur des loci autosomiques, où l'on peut voir que est réduite avec des recombinaisons plus fréquentes (Kendall's τ=𢄠.474, P= 0,004 le point de données obtenu à partir des régions NC n'a pas été inclus dans le calcul). Cependant, il n'y a pas de relation statistiquement significative entre le taux de recombinaison et (Figure 5b de Kendall τ=𢄠.179 et P=0,28). De faibles corrélations négatives ont également été trouvées sur le chromosome X pour les sites 4 fois et SI (Figure supplémentaire S9). Les modèles sont restés inchangés lorsque F W a été utilisé (Figure supplémentaire S10).

Différenciation entre 7 français et 17 rwandais D. melanogaster lignes pour les sites dégénérés 4 fois et les sites SI dans les régions C en fonction du taux de recombinaison locale, et pour les sites dégénérés 4 fois dans les régions NC. (une) F U pour les régions CDS autosomiques et (b) régions SI autosomiques.


Expériences ChIP-seq et analyse des données

Caractériser le profil de liaison du CTCF dans Mus musculus castaneus (CAST/EiJ) et M. spretus (SPRET/EiJ), nous avons effectué des expériences d'immunoprécipitation de la chromatine suivies d'un séquençage à haut débit (ChIP-seq) en utilisant du tissu hépatique adulte. Les bibliothèques ChIP-seq et les bibliothèques de contrôle d'entrée de trois réplicats biologiques de chaque espèce ont été préparées comme décrit dans [62]. Par la suite, les bibliothèques ont été séquencées sur un HiSeq2000 (Illumina) pour produire des fragments de séquence à extrémités appariées de 100 pb.

De plus, nous avons obtenu des données CTCF ChIP-seq publiées à partir des foies de Mus musculus domesticus (C57BL/6J), Mus caroli/EiJ, et M. pahari/EiJ [35]. Trois répliques biologiques de chaque espèce ont été utilisées.

Nous avons aligné les lectures séquencées de CAST et M. spretus aux assemblages de génome de référence CAST_EiJ_v1 et SPRET_EiJ_v1 [63], respectivement, avec BWA mem version 0.7.12 [64] rejetant les lectures avec plus de trois occurrences. Nous avons également cartographié les lectures brutes de ChIP-seq récupérées à partir de C57BL/6J, M. caroli, et M. pahari aux génomes GRCm38 (mm10), CAROLI_EIJ_v1.1 et PAHARI_EIJ_v1.1 [63, 65], respectivement, en utilisant la même méthode pour effectuer des analyses appariées dans toutes les espèces. Les pics d'enrichissement CTCF ont été appelés avec MACS 1.4.2 [66] avec un p valeur seuil de 0,001. Pour les analyses en aval, nous avons utilisé des pics identifiés dans au moins deux répétitions de chaque espèce (Fichier supplémentaire 1 : Tableau S1). Pour produire des cartes thermiques de liaison (Fichier supplémentaire 1 : Figure S1B), nous avons utilisé deeptools version 3.3.1 [67]. Nous avons d'abord soustrait la bibliothèque d'entrée appropriée de chaque bibliothèque de séquençage ChIP à l'aide de l'outil bamCompare. Ensuite, pour chaque espèce, nous avons produit des cartes thermiques correspondant au nombre de lectures de puces—lectures d'entrée dans tous les pics trouvés dans au moins deux réplicats à l'aide des outils computeMatrix et plotHeatmap.

Nous avons également effectué ChIP-seq dans le foie C57BL/6J pour identifier les régions génomiques enrichies pour la sous-unité de cohésine RAD21, en utilisant également une bibliothèque de contrôle d'entrée du foie C57BL/6J de Thybert et al. [35]. La préparation des échantillons et l'immunoprécipitation de la chromatine ont été effectuées comme décrit dans Schmidt et al. [34] en utilisant 10 µg d'anticorps RAD21 (Abcam, ab992, lot GR12688-8). L'ADN immunoprécipité et 50 ng d'ADN d'entrée ont été utilisés pour la préparation de la bibliothèque en utilisant le protocole de préparation de la bibliothèque ThruPLEX DNA-Seq (Rubicon Genomics, Royaume-Uni). La taille des fragments de la bibliothèque a été déterminée à l'aide d'un 2100 Bioanalyzer (Agilent). Les bibliothèques ont été quantifiées par qPCR (Kapa Biosystems). Les bibliothèques regroupées ont été séquencées en profondeur sur un HiSeq2500 (Illumina) conformément aux instructions du fabricant pour produire des lectures unilatérales de 50 pb. Nous avons obtenu des lectures séquencées et les avons mappées sur l'assemblage du génome de souris GRCm38 en utilisant BWA 0.6.1 [64]. Nous avons ensuite appelé les pics RAD21 en utilisant MACS2 2.1 avec les options par défaut [66].

Nous avons utilisé les limites des TAD du foie de souris publiées par Vietri Rudan et al. [15]. Nous avons considéré les limites de TAD comme les nucléotides de début et de fin de chaque TAD, tandis que dans certaines analyses (lorsqu'indiqué dans la description de la méthode suivante), nous avons utilisé une fenêtre de ± 50 kb autour d'elles pour étudier les régions limites de TAD.

Conservation des sites de liaison du CTCF dans Mus espèce

Pour étudier la conservation de la liaison CTCF à travers le Mus espèces, nous avons d'abord trouvé les alignements orthologues des pics CTCF ChIP-seq dans les génomes des autres espèces. Ces régions CTCF orthologues sur des souris ont été obtenues à l'aide d'une version étendue de l'alignement de plusieurs génomes de mammifère eutherien Endo-Pecan-Ortheus (EPO) qui comprenait également les génomes de CAST, M. spretus, M. caroli, et M. pahari [35]. Une fois les régions orthologues des sites CTCF identifiées dans tous les Mus espèces, nous avons validé la liaison du CTCF dans chaque espèce en utilisant les données ChIP-seq correspondantes. Plus précisément, nous avons considéré qu'un site CTCF était conservé s'il (a) avait un alignement orthologue à travers les espèces et (b) les alignements orthologues contenaient également un pic CTCF ChIP-seq (Fig. 1c).

Affinité de liaison et contrainte de séquence des motifs CTCF

Pour identifier les motifs de liaison CTCF, nous avons récupéré les séquences FASTA de tous les pics CTCF dans C57BL/6J, en utilisant bedtools getfasta v.2.25.0 [68], et scanné ces séquences pour le motif de liaison CTCF primaire (M1) à partir de la base de données JASPAR [ 69] en utilisant Find Individual Motif Occurrences (FIMO) de la suite MEME v.4.12.0 [70, 71] avec les paramètres par défaut. Nous avons étendu les 19 motifs M1 de longueur de base identifiés pour inclure 20 bases en amont et 20 bases en aval afin de permettre la découverte de la version étendue des motifs (M1 et M2). Enfin, nous avons calculé l'affinité de liaison de ces séquences pour le CTCF en utilisant DeepBind v.0.11 [72], comme dans Aitken et al. [55], et ont comparé la signification de la différence entre les distributions des valeurs d'affinité entre les motifs trouvés dans les pics CTCF associés à la frontière TAD et non associés à la frontière TAD à chaque niveau de conservation (Fig. 2a, b).

Pour récupérer les scores de substitution rejetée (RS) pour chaque position de chaque motif M1 de 19 bases identifié dans C57BL/6J, nous avons obtenu des scores de conservation GERP [42] pré-calculés pour chaque nucléotide de ces séquences M1 de souris d'Ensembl [73]. Le score RS d'une position génomique a été calculé comme la différence entre les substitutions observées et attendues. Nous avons ensuite calculé la moyenne du score RS par position parmi tous les motifs et comparé ces scores RS moyens des motifs M1 associés à la frontière TAD avec des motifs associés à la frontière non TAD (Fig. 2e, f).

Enrichissement ChIP-seq et couverture en lecture des pics CTCF identifiés

Les sites CTCF que nous avons identifiés dans chaque espèce étaient l'intersection des pics CTCF appelés en ≥ 2 réplicats biologiques. Nous avons calculé l'enrichissement en fragments ChIP-seq de chaque site CTCF en faisant la moyenne des scores d'enrichissement ChIP, rapportés par MACS, sur les réplicats. Nous avons ensuite comparé la signification de la différence entre les distributions de l'enrichissement moyen en ChIP entre les sites CTCF associés à la frontière TAD et non associés à la frontière TAD de chaque niveau de conservation à l'aide de Mann-Whitney. U essais (Fig. 2c, d).

Nous avons utilisé bedtools multicov v.2.25.0 pour calculer le nombre d'alignements de lecture dans les régions de pic CTCF associées à la frontière TAD et non associées à la frontière TAD, dans un total de cinq répliques C57BL/6J (Fichier supplémentaire 1 : Figure S6). Pour augmenter la robustesse de nos observations, nous avons ajouté deux réplicats supplémentaires aux trois initiaux, que nous avons traités de la même manière que les autres réplicats (voir la section « Expériences ChIP-seq et analyse des données »).

Analyse de l'utilisation des mots de motif

Nous avons scanné tous les pics CTCF de chacune des cinq espèces pour le motif de liaison CTCF primaire (M1) en utilisant FIMO de la suite MEME comme décrit ci-dessus. À partir des 19 instances de motif M1 de base identifiées dans chaque espèce, nous avons récupéré le 14-mer central le plus informatif et estimé sa fréquence d'occurrence comme le nombre d'occurrences du mot 14-mer dans les régions de liaison CTCF divisé par le nombre d'occurrences du mot mot dans l'ensemble du génome de l'espèce en utilisant la procédure de Schmidt et al. [34]. Nous avons filtré tout mot motif apparaissant moins de cinq fois dans l'ensemble du génome. Nous avons illustré la fréquence d'occurrence des mots de motif dans chaque espèce sur une carte thermique qui est triée par distance à la frontière TAD la plus proche (Fichier supplémentaire 1 : Figure S7).

Association de sites de liaison CTCF avec des classes d'éléments transposables

Nous avons utilisé l'ensemble complet des sites CTCF identifiés dans toutes les espèces et les avons projetés sur le génome C57BL/6J (GRCm38), ainsi que des éléments transposables publiés dans C57BL/6J (Thybert et al. [35] https://www. ebi.ac.uk/research/flicek/publications/FOG21).Nous avons croisé le centre de chaque site de liaison CTCF avec les éléments transposables et signalé le nombre de centres de site CTCF qui se chevauchaient avec chaque classe TE. La représentation globale de chaque classe TE dans l'ensemble du génome qui est indiquée comme référence (marquée comme « arrière-plan » sur la figure 3a) a été calculée comme la longueur totale de tous les TE appartenant à chaque classe (SINE, LINE, LTR, DNA) séquences divisées par la longueur totale du génome.

Représentation des classes TE dans les régions limites du TAD

Comme pour la figure 3b, nous avons défini les régions limites des TAD comme des fenêtres génomiques de 50 kb en amont et de 50 kb en aval des limites des TAD. Pour évaluer la représentation de chaque classe TE, nous avons additionné la longueur des séquences correspondant à chaque classe TE qui se sont produites dans chaque région limite TAD et divisé cela par la longueur totale de la région limite TAD, c'est-à-dire 100 kb. Pour récupérer des régions génomiques aléatoires de longueur et de distribution similaires, nous avons mélangé les régions limites du TAD à l'aide de bedtools shuffle v2.2.5.0, en excluant d'abord le chromosome Y, les échafaudages génomiques et les extrémités chromosomiques, où les TAD ne sont pas appelés. Nous avons répété le même calcul pour la représentation de classe TE que ci-dessus pour ces limites de TAD remaniées, c'est-à-dire des régions génomiques aléatoires. Nous avons ensuite tracé la distribution de ces valeurs pour les régions limites TAD et les régions génomiques aléatoires. Pour déterminer la représentation de chaque classe TE dans le génome de fond (ligne pointillée sur la figure 3b), nous avons divisé à nouveau la longueur totale de toutes les séquences qui correspondent à chaque classe TE par la longueur totale du génome C57BL/6J (GRCm38), analogue à l'analyse de classe CTCF TE ci-dessus.

Densité des sites CTCF aux limites du TAD et amas de sites de liaison CTCF

Pour déterminer l'enrichissement des sites de liaison CTCF dans les régions limites TAD (par rapport au génome environnant), nous avons mesuré la distance de chaque site de liaison CTCF à sa limite TAD la plus proche à l'aide des bedtools les plus proches. Nous avons ensuite catégorisé les sites du CTCF en fonction de leur niveau de conservation. Pour chaque niveau de conservation de site CTCF, nous avons regroupé toutes les valeurs de distance jusqu'à ± 300 ko dans des bacs de 20 ko et tracé le nombre de sites CTCF dans chaque bac divisé par la longueur du bac, soit 20 ko (Fig. 4a). Pour caractériser davantage la densité des sites CTCF aux limites TAD, nous avons regroupé les sites CTCF à la fois en fonction de leur niveau de conservation et de leur association avec une limite TAD (par rapport à l'absence d'association avec une limite TAD), et pour chacune de ces catégories, nous avons trouvé la distance de chaque site CTCF à partir de son site CTCF le plus proche en utilisant les bedtools les plus proches (Fig. 4b).

Pour identifier les groupes de sites de liaison CTCF, nous avons utilisé l'ensemble complet des sites de liaison CTCF des cinq Mus espèces projetées sur le génome C57BL/6J (GRCm38/mm10), comme le montre la figure 1c. Nous avons identifié des instances de sites CTCF consécutifs qui étaient distants de jusqu'à 10 ko les uns des autres, à l'aide du cluster bedtools. Nous avons ensuite déterminé et comparé l'enrichissement des sites CTCF groupés et singletons aux limites du TAD en utilisant la même approche que dans la Fig. 4c).

Pour la figure 4d, e, nous avons à nouveau défini les régions limites TAD comme limite TAD ± 50 kb. Nous avons classé ces régions en fonction de la plus haut niveau de conservation de leurs sites CTCF. Par la suite, pour chaque catégorie, nous avons compté son nombre total de sites CTCF (Fig. 4d), ainsi que le nombre de ces régions limites TAD avec des sites CTCF groupés et avec uniquement des sites singleton (Fig. 4e).

Pour le fichier supplémentaire 1 : Figure S8, nous avons défini Mus-sites CTCF conservés (5 voies) avec une distance à la frontière TAD la plus proche > 80 kb en tant que frontière non-TAD associée. Nous avons calculé l'enrichissement des sites CTCF conservés à 1 voie (spécifique à l'espèce), à ​​2 voies, à 3 voies et à 4 voies dans leur voisinage de la même manière que pour les limites de TAD (Fig. 4a), mais en utilisant comme ancrer les sites CTCF à 5 voies non associés aux limites TAD eux-mêmes, au lieu des limites TAD.

Amas dans C57BL/6J et analyses de conservation des amas

Nous avons identifié des grappes de sites de liaison CTCF dans C57BL/6J (Fichier supplémentaire 1 : figure S9) de la même manière que pour la figure 4c mais en utilisant uniquement des pics CTCF appelés dans C57BL/6J. Nous avons utilisé les mêmes méthodes que pour la Fig. 4a, c pour déterminer l'enrichissement des sites CTCF de différents niveaux de conservation aux frontières TAD (Fichier supplémentaire 1 : Figure S9A), ainsi que l'enrichissement des sites CTCF groupés versus singleton (Fichier supplémentaire 1 : Figure S9B).

Pour estimer la conservation des clusters de sites CTCF (Fichier supplémentaire 1 : Figure S9D), nous avons identifié séparément toutes les régions génomiques qui correspondent aux clusters de sites CTCF dans chacune des cinq espèces. Nous avons ensuite projeté à travers des alignements de génomes entiers (voir la section « Conservation of CTCF binding sites in Mus espèces ») les régions de cluster de chaque espèce sur le génome C57BL/6J et déterminé si elles se chevauchent avec les régions de cluster orthologues des autres espèces.

Données ARN-seq

Nous avons récupéré des données publiées sur l'ARN-seq dérivé du foie à partir de six réplicats biologiques pour chacune des espèces C57BL/6J et M. m. castaneus [74], ainsi que de quatre réplicats biologiques de M. caroli [75]. Pour avoir le même nombre de réplicats dans chaque espèce, nous avons en outre généré et séquencé deux bibliothèques d'ARN-seq supplémentaires pour M. caroli suivant les méthodes décrites dans Gonçalves et al. [74] et Wong et al. [75]. En bref, l'ARN total a été extrait de deux échantillons de foie indépendants à l'aide de Qiazol (Qiagen) et de DNase traité avec le kit d'élimination d'ADN sans ADN (Ambion). L'ARNm polyadénylé a été enrichi, l'ADNc double brin directionnel a été généré, fragmenté par sonication et préparé pour le séquençage. Chacune des deux bibliothèques a été séquencée sur un Illumina GAIIx pour générer des fragments à extrémités appariées de 75 pb.

Traitement et analyse des données RNA-seq

Les séquences d'adaptateurs ont été coupées avec reaper de la suite d'outils Kraken [76]. L'ARN-seq apparié lit à partir de chaque réplicat de C57BL/6J, CAST et M. caroli ont été mappés sur les génomes des espèces correspondantes (voir la section « Expériences ChIP-seq et analyse des données ») en utilisant STAR 1.5.2 [77] avec les paramètres par défaut. Les lectures brutes mappées sur les gènes annotés ont été comptées à l'aide de htseq-count [78]. Nous avons ensuite utilisé le nombre de lectures brutes pour effectuer des analyses d'expression différentielle avec DESeq2 1.20.0 [79] avec les paramètres par défaut.

Pour déterminer les modèles d'expression génique autour des instances de sites CTCF conservés à 5 voies et les pertes de sites CTCF spécifiques à l'espèce aux limites du TAD (Fig. 7a, d, g), nous avons d'abord identifié le gène en amont et en aval le plus proche dans chaque espèce en utilisant le gène annotation de l'Ensembl version 95 [65], puis a calculé l'expression génique relative du gène aval au gène amont dans chaque espèce. Nous ne nous sommes pas intéressés à l'expression relative de la paire de gènes flanquant un site CTCF en soi, mais à savoir si ce rapport pour chaque site CTCF est cohérent entre les espèces lorsque la liaison CTCF intermédiaire les séparant change. Pour cette raison, nous n'avons utilisé que des sites CTCF flanqués de gènes orthologues 1:1 entre les trois espèces. Nous avons ensuite utilisé DESeq2 [79] pour calculer le log2(changement de facteur) entre le gène en aval et en amont - en tant que mesure de l'expression relative des gènes flanquant chaque site CTCF - dans chaque espèce et pour ensuite comparer ce log2(changement de pli) entre les espèces. Étant donné que DESeq2 n'est pas conçu pour normaliser la longueur des gènes et que notre objectif était de générer des estimations de modèles d'expression comparables entre les espèces, nous avons également exigé que tous les gènes orthologues que nous utilisions aient une longueur similaire parmi les trois espèces (0,7 < len_ratio < 1.3, où len_ratio est la longueur du gène dans l'espèce A divisée par la longueur de son gène orthologue dans l'espèce B). Enfin, nous avons comparé les valeurs calculées de log2 (changement de facteur) pour chaque paire de gènes dans C57BL/6J avec la valeur correspondante de sa paire de gènes orthologues dans CAST (Fig. 7b, e, h) et dans M. caroli (Fig. 7c, f, i).


Méthodes

Accès aux données

Identification des deMPs

L'idée générale de l'identification de la deMP est d'abord d'identifier les mutations désactivantes candidates qui perturbent un site de liaison putatif et ensuite de noter ces mutations désactivantes candidates à l'aide de CAPE, un outil que nous avons développé pour identifier la variante régulatrice causale dans les régions amplificatrices [15]. Les trois mutations possibles à une position génomique, qu'elles existent ou non en tant que SNP humains, ont été notées par CAPE. Les mutations avec des scores CAPE significatifs ont été considérées comme des mutations désactivantes. Les positions génomiques contenant au moins une mutation de désactivation ont été appelées positions de mutation de désactivation (deMPs).

Plus précisément, nous avons utilisé le k-mer des vocabulaires entraînés sur des amplificateurs ChIP-seq pour déduire les spécificités de séquence des TFBS. L'enrichi k-mers (k = 8) ont été supposés être les TFBS potentiellement fonctionnels [6] sur les amplificateurs ChIP-seq. Pour identifier les enrichis k-mers dans les amplificateurs HepG2, nous avons d'abord généré un ensemble de contrôles pour chaque séquence amplificateur. Les contrôles ont été échantillonnés au hasard dans l'ensemble du génome avec le même contenu en GC, le même contenu en répétition et la même longueur que la séquence amplificatrice correspondante. Cinq séquences de contrôle ont été extraites pour chaque amplificateur. Dans les cas où pas assez de contrôles avec nos critères stricts (ΔGC-teneur ≤ 0,005, Δrepeat-teneur 0,01) pouvaient être identifiés, nous avons créé des contrôles supplémentaires en remaniant les séquences d'amplificateurs. Pour chacun des 32 896 possibles k-mers (k = 8), nous avons utilisé le test exact de Fisher pour évaluer l'enrichissement de k-mers dans l'ensemble d'activateurs HepG2 et identifié le top 522 k-mères significativement enrichies en activateurs (p ≤ 1e−3 après la correction de Bonferroni) comme potentiellement fonctionnel k-mers et 30 647 insignifiants k-mers (p > 1e−3 sans la correction de Bonferroni) en arrière-plan k-mers.

Comme nous l'avons fait dans notre étude précédente [6], nous avons appliqué un modèle de réplicats intragénomiques modifiés (IGR) [38] pour reconnaître les mutations désactivantes candidates qui modifient un sommet k-mer à un arrière-plan k-mer une fois que nous avons identifié le haut k-mers dans l'ensemble d'entraînement positif. Les mutations désactivantes candidates ont ensuite été notées par CAPE. Pour la lignée cellulaire HepG2, seules les mutations avec des scores CAPE significatifs (score CAPE 0,57156, correspondant à un FPR 0,01) ont été considérées comme des deMs. Nous avons utilisé le changement de l'associé k-mers pour identifier la mutation désactivante candidate avant d'appliquer CAPE en raison de la limitation du score CAPE. La sortie de CAPE est la probabilité qu'une mutation soit une variation régulatrice causale en diminuant ou en augmentant l'activité d'amplificateur. Étant donné que nous nous concentrons particulièrement sur les amplificateurs de désactivation de mutations, nous devons limiter les mutations de désactivation candidates à celles qui pourraient perturber un site de liaison potentiel en utilisant le k-mer vocabulaires.

Pour identifier les deMPs dans le ventricule gauche, nous avons entraîné CAPE sur les eQTL du ventricule gauche humain en intégrant les signaux régulateurs de ce tissu (H3K27ac, H3K4me1, H3K4me3, P300, DNase, H3K36me3, H3K27me3, H3K9me3). Nous avons ensuite évalué toutes les variantes possibles d'un seul nucléotide (SNV) dans la région de l'amplificateur du ventricule gauche. Seules les mutations avec un score CAPE ≥ 0,58276 (FPR 0,01) ont été identifiées comme étant deMs (Fichier supplémentaire 1 : Figure S14). Les 20 % supérieurs des amplificateurs avec les deMPs les plus abondants correspondent à des amplificateurs fragiles, et les 20 % inférieurs d'amplificateurs dépourvus de deMPs correspondent à des amplificateurs stables, respectivement. Les 5 % de mutations les plus élevées avec les scores CAPE les plus élevés et 5 % de mutations aléatoires des deux amplificateurs stables (hs1760 et orthologue humain de mm69) sont répertoriés dans le fichier supplémentaire 2 : tableaux S6-S7.

Analyse d'enrichissement fonctionnel avec GREAT

L'enrichissement fonctionnel des amplificateurs a été effectué à l'aide de l'outil en ligne d'enrichissement des annotations des régions génomiques (GREAT) version 3.0.0 [21]. Dans la figure GREAT (Fig. 3a), le paramètre de distance par défaut a été appliqué pour l'attribution du domaine de régulation des gènes, et la règle du gène le plus proche a été appliquée pour associer les activateurs aux gènes. Les termes du processus biologique de l'ontologie génétique (GO) n'ont été inclus que s'ils satisfaisaient aux critères stricts dans au moins une catégorie d'amplificateurs : (1) binomial p valeur ≤ 1e−4, (2) une région binomiale minimale observée et des occurrences de gènes hypergéométriques observées de 10, et (3) une région binomiale minimale et un ensemble de gènes hypergéométriques multiplient l'enrichissement de 2. Le -log10 binôme p les valeurs ont été tracées sur le oui-axe. Pour montrer que l'enrichissement en GO des amplificateurs fragiles et stables est robuste par différentes règles d'association de gènes, les deux autres options d'association de gènes (« basal plus extension » et « deux gènes les plus proches ») ont également été appliquées (Fichier supplémentaire 1). Pour compenser le biais causé par l'attribution de tous les amplificateurs à leurs gènes les plus proches, 45% des amplificateurs ont été déplacés au hasard avant d'appliquer GREAT 10 fois (Fichier supplémentaire 1).

Analyse d'enrichissement des caractères GWAS

Le catalogue NHGRI GWAS a été téléchargé en septembre 2016 [1]. Les traits GWAS qui coïncidaient avec les polymorphismes mononucléotidiques (SNP) des trois ensembles d'amplificateurs ont d'abord été regroupés par type de maladie (Fichier supplémentaire 2 : Tableau S4). Pour étudier l'enrichissement d'un ensemble de SNP coïncidant avec un certain type de maladie, les SNP tag coïncidant avec les traits GWAS ont été élargis par un déséquilibre de liaison (LD) (r 2 > 0,8, distance maximale de 500 ko). L'enrichissement des SNP amplificateurs stables coïncidant avec un type de maladie par rapport aux SNP amplificateurs fragiles a été évalué comme -logP de la distribution hypergéométrique, et vice versa.

Identification des TFBS potentiels dans les trois ensembles d'amplificateurs

Dans le but d'identifier l'emplacement des sites de liaison potentiels, nous avons utilisé les profils de sites de liaison pour les TF de vertébrés stockés dans Jaspar [39], CIS-BP [40], SwissRegulon [41], HOCOMOCO [42] et UniPROBE [43 ] bases de données. Nous avons formé un outil développé en interne appelé tfbsFrag sur des séquences aléatoires pour créer des matrices de notation spécifiques à la position (PSSM) optimisées identifiées par FIMO [44] pour maintenir le taux de découvertes faussement positives dans une séquence génomique réelle à environ cinq faux positifs dans 10 ko de séquence. Nous avons ensuite utilisé tfbsFrag et les PSSM de vertébrés optimisés pour analyser les séquences amplificatrices des trois classes. Le génome humain de référence hg19 a été masqué pour éliminer les éléments transposables lors de la recherche de TFBS potentiels. Cinq séquences aléatoires ont été générées pour chaque séquence d'amplificateur avec des critères stricts (ΔGC-teneur ≤ 0,005, Δrepeat-teneur ≤ 0,01), qui ont été utilisées pour l'identification PSSM et pour déterminer l'enrichissement TFBS d'un ensemble d'amplificateurs par rapport à l'arrière-plan. L'occurrence d'un TFBS particulier dans un ensemble de séquences amplificateur/aléatoire a été normalisée par la longueur totale des régions amplificateur/aléatoire non répétitives. Ensuite, l'enrichissement des TFBS de TF A (i.e., TFBSUNE) dans un ensemble d'activateurs est déterminé par la formule 1.

Si un amplificateur abritait au moins trois sites de liaison potentiels pour un TF ne s'étendant pas plus de 1 kb, nous avons supposé que cet amplificateur avait au moins un cluster TFBS homotypique. De manière analogue, si un amplificateur abritait au moins trois sites de liaison potentiels pour différents TF ne dépassant pas 1 kb, nous avons supposé que cet amplificateur avait au moins un cluster TFBS hétérotypique.

Partition CAPE score

CAPE est un classificateur basé sur une machine à vecteur de support visant à prédire une variante régulatrice causale [15]. En bref, il apprend le code de séquence à partir des données de profilage de la chromatine à grande échelle de plusieurs pistes de signal, y compris DNase-seq, H3K27ac, H3K4me1, H3K4me2, H3K4me3, H2A.Z, P300 et les principales données de liaison TF du tissu correspondant. Deux signatures de séquence, à savoir, l'effet perturbateur de la mutation sur la liaison majeure du TF (Δ) et la co-liaison des TF dans son voisinage (S), sont la composante de base des caractéristiques de chaque signal (Fig. 1a). Au total, CAPE intègre (Nk × NkmerSignature × NsignalTrack) caractéristiques. Nk (= 5) est le nombre de k-mer tailles (k = 4, 6, 8, 10, 12). NkmerSignature (= 2) est le nombre de signatures, y compris le changement d'affinité de liaison du site de liaison potentiel dû à la mutation (Δ) et les capacités de liaison globales du contexte de séquence proche du variant génétique (S). NsignalTrack est le numéro des données de chromatine (Fig. 1b). Les poids optimaux pour les caractéristiques apprises de la validation croisée quintuple du modèle eQTL de la lignée cellulaire HepG2 [15] sont répertoriés dans le fichier supplémentaire 2 : tableau S8. L'hyperplan optimal du classificateur peut donc être divisé en deux composants : la somme pondérée de l'effet perturbateur sur le motif apparenté (noté WS(Δ)) et la somme pondérée de la co-liaison d'autres TF dans la région flanquante (notée comme WS(S)) (formule 2).

w1kj et w2kj sont les poids optimaux appris à partir de l'ensemble d'apprentissage du modèle eQTL.

Essais de rapporteurs transgéniques sur souris

Les régions amplificatrices humaines (voir le fichier supplémentaire 2 : tableaux S9-S10 pour les séquences) ont été amplifiées par PCR à partir d'ADN génomique humain (type sauvage) ou synthétisées chimiquement par Integrated DNA Technologies (IDT) (5% top deM et 5% random non-deM mutations) et cloné dans un vecteur rapporteur Hsp68-promoteur-LacZ [46] en utilisant le clonage Gibson (New England Biolabs [NEB]) [47]. Des embryons de souris transgéniques ont été générés par injection pronucléaire, et F0 les embryons ont été collectés à E11.5 et colorés pour l'activité LacZ comme décrit précédemment [45, 46]. Les procédures de génération de souris transgéniques et modifiées ont été examinées et approuvées par le Comité de recherche et de bien-être animal du Laboratoire national Lawrence Berkeley (LBNL).


Introduction

De nombreuses protéines dans la plupart des formes de vie, mais en particulier chez les animaux et les plantes, contiennent des régions de composition ordonnée, qui consistent en des motifs récurrents, tels que de courtes répétitions en tandem, des structures périodiques et des domaines répétitifs 1,2,3,4,5. Ci-après, nous nous référons à ces motifs récurrents simplement comme des répétitions. Les répétitions sont d'une importance cruciale, en particulier, en tant que matériau de construction pour les échafaudages de divers complexes macromoléculaires, par exemple, les pores nucléaires 6,7, le protéasome 8 ou les canaux de mécanotransduction 9 . Des exemples des répétitions les plus abondantes avec des fonctions d'échafaudage comprennent l'ankyrine, le tétratricopeptide (TPR) et les répétitions WD40 10,11,12,13,14,15. Les répétitions sont également importantes dans les fonctions biochimiques essentielles telles que la régulation de la transcription, comme en témoignent les répétitions extrêmement courantes de Zn-doigt 16,17.

Les répétitions peuvent émerger au moyen d'un glissement de réplication et d'une recombinaison 18,19, se développer en unités plus longues 20 et diverger en accumulant des mutations. Les nouvelles répétitions représentent une source majeure de variation génétique, souvent associée à une évolution rapide et à l'acquisition de nouvelles fonctions 21,22,23. Des exemples frappants, provenant d'organismes divers, du rôle joué par le gain et la perte de répétitions de protéines dans la microévolution comprennent la variation du gène de l'horloge période, qui est responsable de l'adaptation de l'horloge circadienne à la température dans Drosophile 24 , le Runx-2 gène, associé à des changements morphologiques chez les chiens 25, et des protéines de la paroi cellulaire, conduisant à de nouveaux phénotypes d'adhésion cellulaire chez les champignons et les protistes, et pensé pour permettre l'évasion du système immunitaire de l'hôte 26 .

Plusieurs études comparatives ont montré que les régions répétitives dans les protéines sont globalement conservées à travers les espèces 27,28,29,30, indiquant que les répétitions sont fonctionnelles mais aussi que l'évolution rapide est rare 29 . Malgré cette preuve solide de la fonctionnalité et de la conservation évolutive des répétitions, la variation des répétitions est également un moteur moléculaire connu de la maladie génétique 31,32, ce qui indique l'importance d'un changement rapide dans les régions répétitives des protéines. De plus, l'évolution rapide des répétitions de protéines joue un rôle clé dans divers aspects de l'immunité, comme en témoignent les répétitions riches en leucine, qui sont les composants structurels clés des protéines de l'immunité innée, telles que les récepteurs de type Toll animaux et les protéines de résistance aux maladies des plantes, ainsi que comme composants de l'immunité adaptative chez les vertébrés sans mâchoire 33,34,35,36,37,38 .

Ainsi, il semble y avoir une énigme entre la conservation évolutive globale dans les régions répétitives des protéines et le changement rapide des répétitions associées à une variété de processus biologiques. Ici, nous résolvons cette apparente contradiction en révélant une différence spectaculaire entre les régimes d'évolution intraprotéique (horizontale) des répétitions et l'évolution interprotéique (verticale) des répétitions dans les protéines orthologues.

Pour analyser l'évolution des répétitions et maximiser la probabilité que les taux d'évolution puissent être estimés, nous développons une méthode rigoureuse pour extraire des répétitions avec une longueur conservée et une similarité de séquence significative à partir de séquences protéiques. Nous le validons et l'appliquons pour comparer systématiquement l'évolution horizontale et verticale des répétitions dans divers groupes d'organismes. Nous montrons que les répétitions sont hautement conservées entre les espèces, tout en se propageant horizontalement et en divergent. Ainsi, chaque répétition fixée semble être fonctionnellement importante en elle-même et donc soumise à une sélection purificatrice, alors que dans la phase initiale de l'évolution des régions répétitives, une combinaison de sélection purificatrice fortement relâchée et de sélection positive entraîne une divergence horizontale rapide des séquences répétées, vraisemblablement de nouvelles fonctions. Étant donné que la variation des répétitions joue un rôle crucial dans les maladies humaines, en particulier la neurodégénérescence et le cancer, la méthodologie employée ici fournit des moyens d'étudier l'évolution horizontale somatique des répétitions et pourrait contribuer à l'identification des facteurs de maladie associés à cette classe mutationnelle.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Contenu

La découverte du rôle de l'ADN dans l'hérédité et les observations de Frederick Sanger sur la variation entre les insulines animales en 1949 [2] ont incité les premiers biologistes moléculaires à étudier la taxonomie d'un point de vue moléculaire. [3] [4] Des études dans les années 1960 ont utilisé des techniques d'hybridation d'ADN et de réactivité croisée de protéines pour mesurer la similitude entre des protéines orthologues connues, telles que l'hémoglobine [5] et le cytochrome c. [6] En 1965, Émile Zuckerkandl et Linus Pauling ont introduit le concept de l'horloge moléculaire, [7] en proposant que des taux réguliers de remplacement des acides aminés pourraient être utilisés pour estimer le temps écoulé depuis que deux organismes ont divergé. Alors que les phylogénies initiales correspondaient étroitement aux archives fossiles, les observations selon lesquelles certains gènes semblaient évoluer à des rythmes différents ont conduit au développement de théories de l'évolution moléculaire. [3] [4] La comparaison de 1966 de Margaret Dayhoff des séquences de ferrodoxine a montré que la sélection naturelle agirait pour conserver et optimiser les séquences de protéines essentielles à la vie. [8]

Sur de nombreuses générations, les séquences d'acides nucléiques dans le génome d'une lignée évolutive peuvent changer progressivement au fil du temps en raison de mutations et de délétions aléatoires. [9] [10] Les séquences peuvent aussi se recombiner ou être supprimées en raison de réarrangements chromosomiques. Les séquences conservées sont des séquences qui persistent dans le génome malgré de telles forces et ont des taux de mutation plus lents que le taux de mutation de fond. [11]

La conservation peut se produire dans les séquences d'acides nucléiques codantes et non codantes. On pense que les séquences d'ADN hautement conservées ont une valeur fonctionnelle, bien que le rôle de nombreuses séquences d'ADN non codantes hautement conservées soit mal compris. [12] [13] La mesure dans laquelle une séquence est conservée peut être affectée par des pressions de sélection variables, sa robustesse à la mutation, la taille de la population et la dérive génétique. De nombreuses séquences fonctionnelles sont également modulaires, contenant des régions qui peuvent être soumises à des pressions de sélection indépendantes, telles que des domaines protéiques. [14]

Séquence de codage Modifier

Dans les séquences codantes, la séquence d'acides nucléiques et d'acides aminés peut être conservée à des degrés différents, car la dégénérescence du code génétique signifie que des mutations synonymes dans une séquence codante n'affectent pas la séquence d'acides aminés de son produit protéique. [15]

Les séquences d'acides aminés peuvent être conservées pour maintenir la structure ou la fonction d'une protéine ou d'un domaine. Les protéines conservées subissent moins de remplacements d'acides aminés, ou sont plus susceptibles de remplacer les acides aminés ayant des propriétés biochimiques similaires. [16] Dans une séquence, les acides aminés qui sont importants pour le repliement, la stabilité structurelle ou qui forment un site de liaison peuvent être plus hautement conservés. [17] [18]

La séquence d'acide nucléique d'un gène codant pour une protéine peut également être conservée par d'autres pressions sélectives. Le biais d'utilisation des codons dans certains organismes peut restreindre les types de mutations synonymes dans une séquence. Les séquences d'acides nucléiques qui provoquent une structure secondaire dans l'ARNm d'un gène codant peuvent être sélectionnées, car certaines structures peuvent affecter négativement la traduction, ou conservées lorsque l'ARNm agit également comme un ARN fonctionnel non codant. [19] [20]

Non-codage Modifier

Des séquences non codantes importantes pour la régulation des gènes, telles que les sites de liaison ou de reconnaissance des ribosomes et des facteurs de transcription, peuvent être conservées dans un génome. Par exemple, le promoteur d'un gène ou d'un opéron conservé peut également être conservé. Comme pour les protéines, les acides nucléiques qui sont importants pour la structure et la fonction de l'ARN non codant (ARNnc) peuvent également être conservés. Cependant, la conservation des séquences dans les ARNnc est généralement médiocre par rapport aux séquences codant pour les protéines, et les paires de bases qui contribuent à la structure ou à la fonction sont souvent conservées à la place. [21] [22]

Les séquences conservées sont généralement identifiées par des approches bioinformatiques basées sur l'alignement des séquences. Les progrès dans le séquençage de l'ADN à haut débit et la spectrométrie de masse des protéines ont considérablement augmenté la disponibilité des séquences de protéines et des génomes entiers à des fins de comparaison depuis le début des années 2000. [23] [24]

Recherche d'homologie Modifier

Les séquences conservées peuvent être identifiées par recherche d'homologie, en utilisant des outils tels que BLAST, HMMER, OrthologR, [25] et Infernal. [26] Les outils de recherche d'homologie peuvent prendre une séquence d'acide nucléique ou de protéine individuelle comme entrée, ou utiliser des modèles statistiques générés à partir d'alignements de séquences multiples de séquences apparentées connues. Les modèles statistiques tels que les profils-HMM et les modèles de covariance d'ARN qui intègrent également des informations structurelles, [27] peuvent être utiles lors de la recherche de séquences plus éloignées. Les séquences d'entrée sont ensuite alignées sur une base de données de séquences d'individus apparentés ou d'autres espèces. Les alignements résultants sont ensuite notés sur la base du nombre d'acides aminés ou de bases correspondants, et du nombre de lacunes ou de délétions générées par l'alignement. Des substitutions conservatrices acceptables peuvent être identifiées à l'aide de matrices de substitution telles que PAM et BLOSUM. Les alignements à score élevé sont supposés provenir de séquences homologues. La conservation d'une séquence peut alors être déduite par la détection d'homologues très similaires sur une large gamme phylogénétique. [28]

Alignement de séquences multiples Modifier

Des alignements de séquences multiples peuvent être utilisés pour visualiser des séquences conservées. Le format CLUSTAL comprend une clé en texte brut pour annoter les colonnes conservées de l'alignement, indiquant la séquence conservée (*), les mutations conservatrices (:), les mutations semi-conservatrices (.) et les mutations non conservatrices ( ) [30] Sequence logos peut également montrer une séquence conservée en représentant les proportions de caractères à chaque point de l'alignement par hauteur. [29]

Alignement du génome Modifier

Les alignements de génomes entiers (WGA) peuvent également être utilisés pour identifier des régions hautement conservées à travers les espèces. Actuellement, la précision et l'évolutivité des outils WGA restent limitées en raison de la complexité informatique du traitement des réarrangements, des régions de répétition et de la grande taille de nombreux génomes eucaryotes. [32] Cependant, les WGA de 30 bactéries ou plus étroitement apparentées (procaryotes) sont maintenant de plus en plus réalisables. [33] [34]

Systèmes de notation Modifier

D'autres approches utilisent des mesures de conservation basées sur des tests statistiques qui tentent d'identifier des séquences qui mutent différemment par rapport à un taux de mutation de fond (neutre) attendu.

Le cadre GERP (Genomic Evolutionary Rate Profiling) évalue la conservation des séquences génétiques à travers les espèces. Cette approche estime le taux de mutation neutre dans un ensemble d'espèces à partir d'un alignement de séquences multiples, puis identifie les régions de la séquence qui présentent moins de mutations que prévu. Ces régions reçoivent ensuite des scores basés sur la différence entre le taux de mutation observé et le taux de mutation de fond attendu. Un score GERP élevé indique alors une séquence hautement conservée. [35] [36]

LIST [37] [38] (Identité locale et taxons partagés) repose sur l'hypothèse que les variations observées chez les espèces étroitement liées à l'homme sont plus importantes lors de l'évaluation de la conservation que celles observées chez les espèces éloignées. Ainsi, le LIST utilise l'identité d'alignement local autour de chaque position pour identifier les séquences pertinentes dans l'alignement de séquences multiples (MSA), puis il estime la conservation en fonction des distances taxonomiques de ces séquences par rapport à l'homme. Contrairement à d'autres outils, LIST ignore le nombre/la fréquence des variations dans le MSA.

Aminode [39] combine plusieurs alignements avec une analyse phylogénétique pour analyser les changements dans les protéines homologues et produire un graphique qui indique les taux locaux de changements évolutifs. Cette approche identifie les régions à contrainte évolutive dans une protéine, qui sont des segments soumis à une sélection purificatrice et sont généralement critiques pour la fonction normale de la protéine.

D'autres approches telles que PhyloP et PhyloHMM intègrent des méthodes de phylogénétique statistique pour comparer les distributions de probabilité des taux de substitution, ce qui permet la détection à la fois de la conservation et de la mutation accélérée. Premièrement, une distribution de probabilité de fond est générée du nombre de substitutions attendues pour une colonne dans un alignement de séquences multiples, sur la base d'un arbre phylogénétique. Les relations évolutives estimées entre les espèces d'intérêt sont utilisées pour calculer l'importance de toute substitution (c'est-à-dire qu'une substitution entre deux espèces étroitement apparentées peut être moins susceptible de se produire que des espèces éloignées, et donc plus significative). Pour détecter la conservation, une distribution de probabilité est calculée pour un sous-ensemble de l'alignement de séquences multiples, et comparée à la distribution de fond à l'aide d'un test statistique tel qu'un test de rapport de vraisemblance ou un test de score. Les valeurs p générées à partir de la comparaison des deux distributions sont ensuite utilisées pour identifier les régions conservées. PhyloHMM utilise des modèles de Markov cachés pour générer des distributions de probabilité. Le progiciel PhyloP compare les distributions de probabilité à l'aide d'un test de rapport de vraisemblance ou d'un test de score, ainsi qu'à l'aide d'un système de notation de type GERP. [40] [41] [42]

Éléments ultra-conservés Modifier

Les éléments ultra-conservés ou UCE sont des séquences très similaires ou identiques dans plusieurs groupes taxonomiques. Ceux-ci ont été découverts pour la première fois chez les vertébrés [43] et ont ensuite été identifiés au sein de taxons très différents. [44] Alors que l'origine et la fonction des UCE sont mal comprises, [45] ils ont été utilisés pour étudier les divergences en temps profond chez les amniotes, [46] les insectes, [47] et entre les animaux et les plantes. [48]

Gènes universellement conservés Modifier

Les gènes les mieux conservés sont ceux que l'on peut trouver dans tous les organismes. Ceux-ci se composent principalement des ARNnc et des protéines nécessaires à la transcription et à la traduction, qui sont supposés avoir été conservés à partir du dernier ancêtre commun universel de toute vie. [49]

Les gènes ou les familles de gènes qui se sont avérés être universellement conservés comprennent les facteurs d'élongation de liaison au GTP, la méthionine aminopeptidase 2, la sérine hydroxyméthyltransférase et les transporteurs d'ATP. [50] Les composants de la machinerie de transcription, tels que l'ARN polymérase et les hélicases, et de la machinerie de traduction, tels que les ARN ribosomiques, les ARNt et les protéines ribosomiques, sont également universellement conservés. [51]

Phylogénétique et taxonomie Modifier

Des ensembles de séquences conservées sont souvent utilisés pour générer des arbres phylogénétiques, car on peut supposer que les organismes avec des séquences similaires sont étroitement liés. [52] Le choix des séquences peut varier en fonction de la portée taxonomique de l'étude. Par exemple, les gènes les plus hautement conservés tels que l'ARN 16S et d'autres séquences ribosomiques sont utiles pour reconstruire des relations phylogénétiques profondes et identifier les phylums bactériens dans les études de métagénomique. [53] [54] Les séquences qui sont conservées dans un clade mais subissent quelques mutations, telles que les gènes de ménage, peuvent être utilisées pour étudier les relations entre les espèces. [55] [56] [57] La ​​région d'espacement transcrit interne (ITS), qui est requise pour espacer les gènes d'ARNr conservés mais subit une évolution rapide, est couramment utilisée pour classer les champignons et les souches de bactéries à évolution rapide. [58] [59] [60] [61]

Recherche médicale Modifier

Comme les séquences hautement conservées ont souvent des fonctions biologiques importantes, elles peuvent être un point de départ utile pour identifier la cause des maladies génétiques. De nombreux troubles métaboliques congénitaux et maladies de surcharge lysosomale sont le résultat de modifications des gènes individuels conservés, entraînant des enzymes manquantes ou défectueuses qui sont la cause sous-jacente des symptômes de la maladie. Les maladies génétiques peuvent être prédites en identifiant des séquences conservées entre les humains et les organismes de laboratoire tels que les souris [62] ou les mouches des fruits, [63] et en étudiant les effets des knock-outs de ces gènes. [64] Les études d'association à l'échelle du génome peuvent également être utilisées pour identifier la variation dans les séquences conservées associées à la maladie ou aux résultats pour la santé. Dans la maladie d'Alzheimer, plus de deux douzaines de nouveaux loci potentiels de susceptibilité ont été découverts [65] [66]

Annotation fonctionnelle Modifier

L'identification de séquences conservées peut être utilisée pour découvrir et prédire des séquences fonctionnelles telles que des gènes. [67] Les séquences conservées avec une fonction connue, telles que les domaines protéiques, peuvent également être utilisées pour prédire la fonction d'une séquence. Des bases de données de domaines protéiques conservés telles que Pfam et la base de données de domaines conservés peuvent être utilisées pour annoter des domaines fonctionnels dans des gènes codant pour des protéines prédites. [68]


Voir la vidéo: Juha Tapio: Vanhoja poikia viiksekkäitä 2008 Juha Vainio (Janvier 2022).