Informations

Importance du reséquençage du génome du chimpanzé


Remarque introductive : je ne suis pas un biologiste, mais un profane quelque peu averti.

On m'a dit que le séquençage de l'ADN de chimpanzé jusqu'à récemment a été effectué presque exclusivement en utilisant l'ADN humain comme « modèle » pour aider à reconstituer de courtes séquences d'ADN. La similitude qui émerge avec l'ADN humain pourrait alors être quelque peu trompeuse, car la structure de l'ADN humain affecte le résultat final obtenu pour les chimpanzés.

Cependant, récemment (2018), une nouvelle étude a été réalisée dans laquelle les fragments d'ADN assemblés de divers singes ont été assemblés complètement séparément de l'ADN humain, donnant une meilleure estimation des similitudes et des différences entre l'ADN des humains, des chimpanzés et d'autres singes (Kronenberg et al. Science vol 360 numéro 6393, eaar6343).

Quelles nouvelles informations ont émergé et dans quelle mesure modifient-elles les résultats antérieurs ?


L'effet du reséquençage des génomes des grands singes (orang-outan ainsi que chimpanzé) sans l'utilisation d'un génome humain comme guide d'assemblage a été en général de corriger les erreurs et d'améliorer les séquences du génome des singes afin qu'elles puissent être mieux comparées avec le génome humain.

Pour autant que je sache, il semble que dans un sens large, les mêmes gènes soient présents chez les humains et les grands singes, c'est-à-dire que chacun aura un gène similaire (orthologue) pour, par ex. insuline, trypsine, kératine, généralement au même endroit sur le chromosome. Comme les espèces sont différentes, on pense que ces différences proviennent de différences dans ces gènes orthologues ou dans les régions du génome qui contrôlent leur expression sous forme d'ARN puis de protéine. Les différences pourraient également affecter leur activité, où elles sont exprimées dans le corps ou si différentes variantes se produisent (par épissage différentiel de transcrits).

Ainsi, avec des séquences génomiques améliorées et indépendantes, il a été possible d'identifier un plus grand nombre de variants dans ces gènes orthogonaux.

L'accent de ce travail était sur les gènes qui sont exprimés dans les cellules du cerveau, car une caractéristique clé qui distingue l'homme des grands singes est la taille du cerveau. L'intérêt était dans les gènes qui ont été trouvés dans des expériences séparées pour avoir une expression significativement différente lorsque les cellules gliales ou neuronales d'espèces humaines ou non humaines ont été comparées. Les auteurs rapportent une variation mutationnelle dans 252 gènes avec de telles différences dans les cellules gliales et 123 dans les cellules neuronales.

Pour citer la discussion :

Ces génomes améliorés donnent une vue complète de la variation structurelle de taille intermédiaire chez les singes. Alors que nous nous concentrions sur les SV (variantes structurelles) qui perturbent potentiellement les gènes ou les séquences régulatrices, nous avons commencé à nous intéresser aux effets fonctionnels potentiels. L'expression différentielle des gènes, en particulier dans la glie radiale corticale, a été supposée être un effecteur critique de la taille du cerveau et une cible sélective probable de l'évolution du cerveau humain. Près de 41% des gènes régulés à la baisse dans la glie radiale humaine, par rapport aux analogues gliaux radiaux de chimpanzé provenant d'organoïdes cérébraux, s'associent à un fhSV (variants structurels fixes spécifiques à l'homme) et le plus souvent sous forme de délétion ou d'insertion de rétroposon. Ces résultats sont cohérents avec l'hypothèse du « moins c'est plus », qui soutient que la perte d'éléments fonctionnels sous-tend des aspects critiques de l'évolution humaine.

Donc, ils n'ont pas encore trouvé ce qui nous rend humains, mais ont jeté les bases d'études qui pourraient au moins découvrir pourquoi nous avons un cerveau plus gros.


La sélection naturelle affecte de multiples aspects de la variation génétique sur des sites supposément neutres à travers le génome humain

Une question majeure en biologie évolutive est de savoir comment la sélection naturelle a façonné les modèles de variation génétique à travers le génome humain. Des travaux antérieurs ont documenté une réduction de la diversité génétique dans les régions du génome avec de faibles taux de recombinaison. Cependant, il n'est pas clair si d'autres résumés de la variation génétique, comme les fréquences alléliques, sont également corrélés avec le taux de recombinaison et si ces corrélations peuvent être expliquées uniquement par la sélection négative contre les mutations délétères ou si une sélection positive agissant sur les allèles favorables est également requise. Ici, nous tentons de répondre à ces questions en analysant trois ensembles de données de reséquençage à l'échelle du génome différents d'individus européens. Nous documentons plusieurs corrélations significatives entre différentes caractéristiques génomiques. En particulier, nous constatons que la fréquence et la diversité moyennes des allèles mineurs sont réduites dans les régions de faible recombinaison et que la diversité humaine, la divergence homme-chimpanzé et la fréquence moyenne des allèles mineurs sont réduites à proximité des gènes. Les simulations génétiques des populations montrent que soit la sélection naturelle positive agissant sur les mutations favorables, soit la sélection naturelle négative agissant contre les mutations délétères peuvent expliquer ces corrélations. Cependant, les modèles avec une forte sélection positive sur les mutations non synonymes et peu de sélection négative prédisent une corrélation négative plus forte entre la diversité neutre et la divergence non synonyme que celle observée dans les données réelles, soutenant l'importance de la sélection négative plutôt que positive dans tout le génome. De plus, nous montrons que la présence généralisée d'allèles faiblement délétères, plutôt qu'un petit nombre de mutations fortement sélectionnées positivement, est responsable de la corrélation entre la diversité génétique neutre et le taux de recombinaison. Ce travail suggère que la sélection naturelle a affecté de multiples aspects de la variation neutre liée à travers le génome humain et que la sélection positive n'est pas nécessaire pour expliquer ces observations.

Déclaration de conflit d'intérêts

Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.

Les figures

Figure 1. Corrélations entre les résumés de génétique…

Figure 1. Corrélations entre les résumés de variation génétique et le taux de recombinaison dans l'ensemble de données à faible couverture…

Figure 2. Comparaison de Spearman pour genic…

Figure 2. Comparaison de Spearman pour les régions géniques avec les valeurs attendues basées sur l'avance…

Figure 3. Une sélection négative est requise pour…

Figure 3. Une sélection négative est requise pour faire correspondre plusieurs aspects des données à faible couverture.

Figure 4. Corrélation entre la divergence neutre homme-chimpanzé…

Figure 4. Corrélation entre la divergence neutre homme-chimpanzé ( ) et le taux de recombinaison.


Ce que cela signifie d'être un chimpanzé à 98% : les singes, les humains et leurs gènes : Marks, J.

Marks, J. University of California Press, 2002, 325 pages, ISBN 0-520-22615-1, 27,50 $.

Ces derniers mois, les médias ont diffusé l'information selon laquelle le génome du chimpanzé est identique à 98-99% à celui des êtres humains. Aussi intéressante que cette déclaration, résultat de beaucoup de sophistication technologique, soit, et aussi impressionnante de précision que cela puisse paraître, peu d'informations sur la base réelle de la science qui la sous-tend et, plus important encore, son interprétation et sa signification, accompagnaient ces annonces. Étant donné que le nombre exact de gènes dans le génome humain est encore indéterminé (en raison de l'incertitude quant à l'étalon-or selon lequel une séquence d'ADN doit être classée en tant que gène), et que le génome du chimpanzé n'a pas été séquencé et donc une comparaison directe des deux n'est pas encore possible, comment comprendre et replacer ce chiffre numérique dans son contexte (surtout le grand public, réputé très défavorisé dans l'enseignement des sciences) ? C'est, après tout, difficile à comprendre, même pour ceux qui ont une formation scientifique. En outre, on sait très peu de choses sur la façon dont le génotype est converti en phénotype, en particulier dans le cas de structures et de processus complexes. Quelle est la prétendue différence de 1 à 2 % responsable de notre humanité ou de notre non-chimpanzé ? De toute évidence, ce factoïde est chargé d'implications de grande envergure pour notre compréhension de ce qui constitue la nature humaine, non seulement biologiquement et évolutivement, mais aussi socialement, culturellement et dans de nombreuses autres dimensions.

Jonathan Marks est un anthropologue moléculaire bien connu qui enseigne à l'Université de Caroline du Nord et a publié de nombreux articles sur la science et la race, la génétique comportementale, la génétique et l'hérédité populaire, et l'anthropologie évolutive. Dans ce livre opportun et stimulant, il fournit le contexte nécessaire pour donner du sens et comprendre les implications de ce pourcentage précis. Dans un langage de tous les jours facile à comprendre et souvent exprimé avec une grande intensité, il fournit un exposé très personnel des nombreuses différences remarquables entre les chimpanzés et les humains que le chiffre de 98 à 99 % tend à obscurcir, et de nombreuses questions connexes.

Ce livre met en lumière le rôle de l'anthropologie (qu'elle soit moléculaire, physique, évolutive, etc.) vis-à-vis de la science de la génétique (qui a acquis une telle importance dans la culture contemporaine et la biologie humaine) et les problèmes de catégorisation biologique ( qui a trouvé son expression suprême dans l'idée maintenant abandonnée de races humaines distinctes). Il discute des différences et des limites des connaissances scientifiques disponibles sur l'hérédité et de la sagesse populaire à ce sujet (« l'hérédité populaire »), et des problèmes graves (et pas seulement dans l'Allemagne nazie dans la première moitié du siècle dernier) qui surviennent lorsque les scientifiques utilisent leurs résultats à l'appui de positions sociales ou politiques douteuses ou les considèrent sous le jour flou et biaisé de l'hérédité populaire. Le rôle des influences sociales et politiques dans le modelage de l'interprétation des découvertes de nombreux généticiens et autres scientifiques, et la nécessité de considérer avec un scepticisme sain leurs jugements, en particulier en ce qui concerne le bien-être et la vie des personnes, sont également présentés. Tout en reconnaissant les grandes contributions et l'importance de la science dans la culture contemporaine, Marks plaide avec raison pour la nécessité de valoriser d'autres sous-systèmes culturels et d'autres types de savoir comme moyen de faciliter l'intégration nécessaire de la science (qui trop souvent a une image négative dans l'esprit de beaucoup) dans la culture actuelle.

En cours de route, Marks résume clairement les preuves technologiques de l'estimation de 98 à 99 % de la similitude entre les humains et les chimpanzés et décrit l'émergence des grands singes dans la connaissance humaine, les coûts humains élevés associés aux polémiques sur la race, la distribution de l'intelligence et d'autres aspects de la diversité parmi les humains, les controverses sur la base génétique de l'agressivité humaine et de la préférence sexuelle, les erreurs (caractérisées comme taxonomisme, racisme, héréditarisme et essentialisme) associées à l'hérédité populaire, aux droits de l'homme et des animaux, l'imbroglio de l'homme de Kennewick et son effet sur l'image de la science, le projet d'évolution du génome humain et les prétentions intéressées et méconnues des scientifiques à faire valoir leurs droits de savoir (qui ne sont en aucun cas illimités) à tout prix.

Savant (les références appropriées sont fournies, par chapitre, à la fin du livre), clair, logique, parfois spirituel, et toujours passionné par les sujets qu'il aborde, le professeur de Marks est clairement visible tout au long de ce livre. Je ne peux pas penser à un meilleur substrat pour un débat de niveau universitaire dans une grande variété de salles de classe sur de nombreuses questions d'éthique de la génétique moderne et hautement technologique et sur la manière dont les connaissances populaires et la politique influencent les interprétations sociales et humaines d'importants révélations d'individus ou de groupes de scientifiques. Ce livre doit être lu par tous ceux qui sont impliqués dans tout type de recherche moléculaire ayant des implications sociales importantes sur la façon dont nous percevons la nature humaine et les uns les autres. Il est également recommandé aux étudiants en génétique humaine et en biologie, dont beaucoup sont aujourd'hui des biologistes moléculaires.


Résultats

Séquençage des divers cytoplasmes Brassica haplotypes d'ADN

Pour distinguer les haplotypes d'ADN cytoplasmique (ADNcp et ADNmt) au sein Brassica genre, l'analyse de génotypage par la méthode de fusion à haute résolution (HRM) a été réalisée dans nos collections de matériel génétique (Figure S1). Les amorces ont été conçues en ciblant un ensemble de sites polymorphes d'ADNcp intra/inter spécifiques qui ont été identifiés précédemment [16] (tableau S1). Trois haplotypes majeurs ont été identifiés dans environ 480 haplotypes dans le monde B. napus adhésions. Deux haplotypes majeurs d'ADNcp ont été identifiés dans 180 B. rapa adhésions, tandis que 180 B. juncea les accessions contiennent un haplotype majeur d'ADNcp. B. oleracea, B. carinata, B. nigra, B. maurorum (MM, 2m = 16), certains parents sauvages du génome C et trois B. napus des lignées de stérilité mâle cytoplasmique (CMS) ont été traitées comme chacune avec un haplotype distinct pour le séquençage ultérieur du génome. B. cretica, B. incana, B. insularis et B. villosa représentent les parents sauvages du génome C. Polima [23, 24], nsa [25] et mori [26, 27] sont les lignées CMS. Certains matériaux relatifs, c'est-à-dire Eruca sativa (2m = 22), Raphanus sativus (2m = 18), Sinapis arvensis (2m = 24) et Moricandia arvensis (2m = 28), ont également été inclus pour enrichir cette étude (tableau S2).

L'ADN cytoplasmique a été isolé de manière synchrone à partir de 72 accessions qui représentent tous les principaux haplotypes cytoplasmiques et variétés morphologiques (tableau S2), en utilisant une procédure d'isolement des organites optimisée (matériaux et méthodes). Cette méthode peut considérablement aider à éliminer les noyaux et à équilibrer les proportions de contenu d'ADNcp et d'ADNmt. L'analyse cartographique de Reads a démontré que l'ADN total isolé contient un rapport moyen de 37,2 % d'ADN chloroplastique et de 3,4 % d'ADN mitochondrial, respectivement, ce qui est environ 5 à 10 fois plus élevé que le rapport d'ADN cytoplasmique dans l'ADN foliaire total [28]. Le mélange d'ADN cytoplasmique a ensuite été soumis au séquençage à haut débit (avec des profondeurs de séquençage moyennes supérieures à 500 x, tableau 1). Les lectures appariées obtenues (150 pb) ont été directement mappées sur un regroupement de séquences en tandem, qui consiste en 10 séquences de génomes chloroplastiques publiées à travers Brassicacées famille. Les lectures mappées ont été extraites et assemblées de novo par le progiciel SOAPdenovo [29]. Généralement, deux ou trois grands contigs ont finalement été générés pour les génomes des chloroplastes. Les lacunes ont été directement comblées par assemblage manuel des extrémités chevauchantes de chacun des deux contigs contigus, puis vérifiées par séquençage de Sanger des fragments PCR couvrant les lacunes. Toutes les séquences du génome chloroplastique obtenues sont fournies dans le fichier supplémentaire 3 (annexe A).

Variations cytoplasmiques à l'échelle du génome (ADNcp et ADNmt) dans Brassica

Les séquences du chloroplaste et du génome mitochondrial d'un B. napus souche 51,218 [22], qui est un matériel de sélection intermédiaire de sieste mitotype, ont été respectivement utilisés comme séquences de référence pour appeler les variantes de base globales de l'ADNcp et de l'ADNmt. L'appel a été effectué par le pipeline standard BWA/Genome Analysis Toolkit (GATK) avec inspection manuelle [30], puis vérifié au hasard par analyse Kompetitive Allele Specific PCR (KASP). Un total d'environ 4700 sites polymorphes de base fiables, dont 3880 SNP et 820 InDels, respectivement, ont été identifiés pour tous les haplotypes chloroplastiques séquencés dans Brassica genre. Alors qu'environ 3400 sites polymorphes (2700 SNP et 700 InDels) ont été identifiés pour les haplotypes mitochondriaux (tableau S3). La densité moyenne de SNP dans les génomes chloroplastiques et mitochondriaux était de 25 et 12 SNP par kilo base (kb), respectivement. Les variantes chloroplastiques étaient uniformément réparties le long du génome de référence, à l'exception des deux grandes régions répétées inversées de 26 kb, IRa et IRb (Fig. 1), car ces régions génomiques ont été ignorées en raison de la cartographie répétitive des mêmes lectures. Les variantes mitochondriales ont montré un modèle de distribution relativement uniforme le long du génome de référence, cependant, leurs fréquences de variation sont évidemment beaucoup plus élevées dans les régions contenant les gènes du cadre de lecture ouvert (ORF) (Fig. 2).

Distribution génomique des variants basiques d'ADNcp dans les matériaux séquencés. La carte a été dessinée à l'aide de Circos (http://circos.ca/). Le cercle le plus à l'intérieur représente pour la carte du génome des chloroplastes de B. napus souche 51,218. Les barres intérieures vert bouteille et les barres extérieures vert laurier correspondent à la distribution des SNP et des InDels dans des bacs de 500 pb sans chevauchement sur l'ensemble du génome, respectivement. La longueur de chaque barre indique le nombre total de variantes de base dans une région de 500 pb, prenez la valeur comme 30 si elle dépasse 30. Aucune variante n'est apparue dans deux régions répétées inversées, IRa (83-109 kb) et IRb (126- 153 ko)

Distribution génomique des variants de base de l'ADNmt dans les matériaux séquencés. La carte a été dessinée en utilisant la même procédure que pour la Fig. 1. Le cercle le plus à l'intérieur représente pour la carte du génome mitochondrial de B. napus souche 51,218. Les barres intérieures vert bouteille et les barres extérieures vert laurier correspondent à la distribution des SNP et des InDels, respectivement

Parmi les variantes globales, 13,9 et 18,1 % ont été identifiés comme non synonymes pour 47 gènes codant l'ADNcp et 61 gènes codant l'ADNmt, respectivement. Les matériaux de deux B. napus haplotypes mitochondriaux, ci-dessous appelés came- et polima-types, possèdent environ 300 variantes de base en se référant à B. napus souche 51 218 génome mitochondrial de sieste-taper. Polima-type est proche de came-type avec une différence de seulement environ 50 variants d'ADNcp conservés (tableau S3). Des schémas de différence cohérents ont également été trouvés pour les variants d'ADNcp comme pour les trois types cytoplasmiques. Analyse KASP utilisant les amorces ciblées sur le B. napus des sites polymorphes d'ADNmt et d'ADNcp correspondant au mitotype ont détecté que sieste, came et polima les cytoplasmes représentaient 87,1, 7,2 et 5,7 % dans les B. napus population (figure S2). Indubitablement, sieste-type est l'haplotype d'ADN cytoplasmique prédominant, tel qu'identifié dans des études antérieures [15, 16]. La plupart B. rapa les matériaux sont les mêmes came-tapez B. napus, un autre haplotype majeur représentant une fréquence d'environ 5,8 % dans les B. rapa population a été identifiée et nommée comme sarson-type ci-après, puisqu'il existe principalement dans B. rapa var. sarson adhésions.

La phylogénie de Brassica genre réalisé sur la base de l'ensemble des génomes chloroplastiques

Des analyses basées sur les génomes chloroplastiques entiers ou des variations à l'échelle du génome au lieu de fragments d'ADNcp partiels peuvent déduire une phylogénie avec une résolution et une fiabilité beaucoup plus élevées, même à des niveaux taxonomiques inférieurs [14]. Prévoir les trajectoires évolutives de Brassica cultures, tous les génomes de chloroplastes entiers obtenus ci-dessus ont été soumis à une analyse phylogénétique. Les arbres phylogénétiques provisoirement conduits à l'aide de la méthode du maximum de vraisemblance, de la méthode de la jointure des voisins et de la méthode bayésienne étaient presque identiques. Pour réduire la quantité de calcul et éviter un arbre corpulent, les arbres comportant des matériaux tout au long de chaque intra-espèce, Brassica genre et Brassicacées famille, respectivement, ont été menées par étapes par la méthode du maximum de vraisemblance [31].

Séquences du génome chloroplastique de Raphanus sativus, Isatis tinctoria, Matthiola incana et Arabidopsis thaliana dans Brassicacées La famille (Données du NCBI, fichier supplémentaire 3) a servi d'exogroupe pour enraciner les arbres intra-spécifiques. Les résultats ont indiqué que 13 B. rapa adhésions, 14 B. juncea adhésions, 24 B. napus les accessions et 13 espèces du génome C se sont chacune bien regroupées et ont été intégrées séparément dans un groupe spécifique à l'espèce. Les B. rapa séparé une petite branche contenant seulement deux accessions, qui ont été classées comme sarson-type cytoplasme mentionné ci-dessus (Figure S3). Les B. juncea les accessions n'ont divergé d'aucune branche secondaire, indiquant un manque de diversité génétique cytoplasmique (Figure S4). Les B. napus cluster ont été divisés en deux grandes branches, une branche contenant le sieste-type lignées (par exemple, les cultivars séquencés à génome nucléaire Darmor/AC489 et ZS11/AC457), une autre branche divisée en deux petites branches, contenant came-type (par exemple, Shengli Rape/AC32) et polima-type (par exemple, Jianyang Rape/AC399), respectivement (Figure S5). Tous les enquêtés ont cultivé B. oleracea (par exemple, chou-fleur, brocoli, chou, chou-rave) et une partie de la nature B. oleracea ont été montrés avec une séquence de génome de chloroplaste presque identique. Cependant, les parents sauvages du génome C (B. villosa, B. insularis, B. cretica et B. incana) chacun contient un haplotype distinct. Toutes les espèces du génome C ont démontré un pedigree hiérarchiquement clair, de B. villosa pas à pas vers le cultivé B. oleracea (Illustration S6).

Une partie des matériaux intra-spécifiques ci-dessus ont été sélectionnés capables de représenter au maximum chacun leurs diversités génétiques intraspécifiques, puis avec Brassica noir, B. carinata et B. maurorum, ont été combinés pour construire un arbre plus grand composé de matériaux partout Brassica genre. Les données de séquence d'ADNcp pour les matériaux Moutarde de racine-1 (B. juncea), Sarsons-1 (B. rapa), Broccoletto-3 (B. rapa), moutarde noire (B. juncea) et la moutarde d'Éthiopie (B. carinata) ont été ajoutés à partir de Li et al., [18] pour enrichir l'ensemble de l'arbre phylogénétique. Les résultats ont indiqué que Brassica Le genre était principalement divisé en trois clades, à partir desquels l'origine maternelle des trois espèces allotétraploïdes naturelles peut être clairement déduite (Fig. 3). Tous les B. rapa, B. juncea et pas mal B. napus les adhésions des deux came- et polima-type constituent Clade I, qui a divergé en outre deux petites branches contenant B. rapa ssp. triloculaire (Sarsons) et polima-taper B. napus, respectivement. Trois B. juncea accessions regroupées uniquement dans le Clade I sans aucune autre divergence par rapport à leurs co-clusters B. rapa accessions, indiquant ainsi que les B. juncea a une origine maternelle monophylétique de came-taper B. rapa. Clade II comprend tous les B. oleracea lignées et autres espèces sauvages du génome C, parallèlement ramifiées avec le Clade I. La branche, qui ne comprend que le B. napus adhésions avec un même sieste de type cytoplasmique, s'insère au milieu de Clade II et sépare certains parents sauvages du génome C (B. insularis et B. villosa) de la partie restante, qui contient tous B. cretica, B. incana et les cultivés B. oleracea. Le clade III comprend principalement B. nigra, B. carinata et B. maurorum accessions, indiquant que l'enquête B. carinata a une origine maternelle monophylétique de B. nigra. Le principal haplotype cytoplasmique de B. nigra a été désigné comme nigra-type cytoplasme. Les espèces sauvages B. maurorum avait été signalé comme étant proche de l'espèce du génome B [32] et semble avoir évolué plus tôt que toute la partie restante de Clade III. Les branches topologiques de cet arbre présentaient un pedigree hiérarchique clair, de Clade III à Clade I (Fig. 3). Ensemble, différent de B. juncea et B. caritana, B. napus était dispersée dans le B. rapa et B. oleracea clusters, suggérant ses multiples origines maternelles du génome A B. rapa ou certains génomes C Brassica espèces (2m = 18).

La phylogénie moléculaire de Brassica genre. Cet arbre a été déduit en utilisant la méthode du maximum de vraisemblance basée sur 42 génomes de chloroplastes entiers à partir de matériaux représentatifs centrés sur Brassica genre. Les premières lettres A, AC, AB, C, BC et B du nom de l'entrée représentent les espèces du génome AA-, AACC-, AABB-, CC-, BBCC- et BB- B. rapa, B. napus, B. juncea, B. oleracea (et d'autres espèces du génome C), B. carinata et B. nigra, respectivement. Les nombres affichés dans les nœuds de branchement correspondants sont les valeurs de bootstrap (%) calculées à partir de 500 essais, confirmant la fiabilité de la structure arborescente obtenue. La longueur des branches indique la divergence évolutive selon la barre d'échelle (unités relatives) en bas. Les matériaux d'entrée avec divers haplotypes cytoplasmiques ont été étiquetés avec des cycles de couleurs correspondantes, les clades séparés constituent l'ensemble du pedigree évolutif sont marqués à droite

L'évolution de Brassica s'associe étroitement à un ensemble de ses genres proches

Curieusement, Raphanus sativus a été inséré entre Clade II et Clade III et bidirectionnellement proche de B. villosa et B. maurorum dans le Brassica arbre phylogénétique (Fig. 3), suggérant une certaine association entre Raphanus genre et Brassica phylogénie. Pour explorer si d'autres genres se mêlent également à Brassica genre, un arbre phylogénétique contenant 54 (Treize et 41 au-delà Brassica genre) séquences du génome chloroplastique dans Brassicacées famille a été construite (Fig. 4). L'arbre affiche un pedigree évolutif avec une architecture hiérarchique claire. Les Brassicacées famille était essentiellement divisée en deux grandes lignées, contenant Arabidopsis/Matthiola et Draba/Brassica genres, respectivement, ce qui est congruent avec les études précédentes [33, 34]. Encore trois matériaux, Eruca sativa, Moricandia arvensis et Sinapis arvensis, ont également été identifiés comme étant étroitement intégrés à l'évolution des Brassica genre. Eruca sativa et Moricandia arvensis se trouvaient aux mêmes emplacements que Raphanus sativus, tandis que trois ici séquencés et un public Sinapis arvensis (Sinapis-4) les accessions présentaient une distribution dispersée qui est entièrement fusionnée avec les espèces contenant le génome B dans Clade III. Ces résultats impliquent une association évolutive étroite entre Brassica et ces proches. Cakilé arabica, Orychophragmus diffusus, Alliaria grandifolia, Isatis tinctona et Scherenkiella parvula dans Clade IV se sont avérés proches de Brassica cluster au niveau de l'ADN cytoplasmique. Développement réussi du germoplasme par hybridation sexuelle ou somatique interspécifique entre Brassica espèces avec Orychophragmus violaceus ou Isatis tinctona [35, 36] pourrait partiellement soutenir que les espèces de Clade IV sont assez proches de Brassica.

La phylogénie moléculaire de Brassicacées famille. Cet arbre a été déduit en utilisant la méthode du maximum de vraisemblance basée sur l'ensemble des génomes chloroplastiques à partir de matériaux représentatifs basés sur 54 génomes chloroplastiques. Cet arbre a été conduit et manipulé de la même manière que celui de la figure 3. Les informations de séquence pour les génomes chloroplastiques d'autres espèces de crucifères sont fournies dans Matériels et méthodes. Les accessions représentant les genres intégrés dans la phylogénie des Brassica genre sont étiquetés avec des cycles bleus, les accessions représentant les genres proches de Brassica les genres sont étiquetés avec des cycles verts

Hérédité non couplée des génomes chloroplastiques et mitochondriaux dans B. napus Lignes CMS

Le génome mitochondrial représente un autre demi-ensemble d'ADN cytoplasmique. Pour savoir qu'en est-il de la Brassica la phylogénie si elle est déduite sur la base des génomes mitochondriaux, les séquences segmentées contenant les variantes alléliques mitochondriales de chaque matériel correspondant à l'intérieur et autour Brassica genre ont été extraits et concaténés comme chaque séquence intacte séparée. Toutes les séquences assemblées ont été soumises à une analyse phylogénétique selon la même procédure ci-dessus utilisée pour les génomes chloroplastiques. L'arbre mitochondrial obtenu (Fig. 5) présentait un pedigree ressemblant en grande partie à l'arbre dérivé de l'ADNcp (Fig. 3). De même, il a également divergé en trois clades, chacun des Brassica les matériaux possèdent des positions évolutives presque identiques dans les arbres dérivés de l'ADNcp et de l'ADNmt, les mêmes relations d'origine maternelle des trois Brassica des cultures allotétraploïdes ont été déduites. L'emplacement de quatre genres (Raphanus sativus, Eruca stivus, Moricandia arvensis et Sinapis arvensis) dans l'arbre dérivé de l'ADNmt ont également été intégrés dans Brassica genre, démontrant que l'ADNmt a évolué parallèlement à l'ADNcp dans Brassica genre. Néanmoins, des différences se sont produites pour le B. napus lignées cytoplasmiques mâles stériles, c'est-à-dire mori [26, 27] et nsa [25] Lignées CMS, qui ont été utilisées avec succès dans la sélection hybride induite par l'hétérosis. Mori et nsa lignes situées dans le came-type et sieste-taper B. napus clusters, respectivement, dans l'arbre dérivant de l'ADNcp (Figure S5), et possèdent le même naturel came-type et siesteséquences chloroplastiques de type -, respectivement. Cependant, ils sont regroupés à proximité de leur espèce donneuse d'ADNmt dans l'arbre dérivant de l'ADNmt (Fig. 5), c'est-à-dire le B. napus mori et nsa ligne stérile, chacun regroupé avec Moricandia arvensis et Sinapis arvensis, respectivement. L'hérédité couplée des génomes mitochondriaux et des génomes chloroplastiques dans le B. napus Les lignes CMS ont été perturbées.

La phylogénie moléculaire de Brassica genre déduit en utilisant la méthode du maximum de vraisemblance basée sur les variations du génome mitochondrial. Les B. napus mori et nsa Les lignes CMS ont été étiquetées avec des cycles bleus

Estimation des temps de divergence de Brassica cultures

L'arbre phylogénétique contenant 54 séquences du génome chloroplastique dans Brassicacées famille (Fig. 4) a été soumis à estimer le temps de divergence pour ces étudiés Brassica espèces, l'arbre temporel a été réalisé par Reltime [37]. Il a été calibré en se référant à deux temps de divergence précédemment estimés : il y a 30 à 35 millions d'années (Mya) qui a daté la spéciation du genre Aethionema et 25-30 Mya qui dataient de la séparation de deux grands Brassicacées clades, y compris Arabidopsis et B. napus, respectivement [33, 38]. Eucalyptus verrucata a été défini comme groupe externe. L'arbre temporel obtenu (Figure S7) a indiqué que Aethionema pourrait être un ancien genre de crucifères et il y a eu deux périodes principales pour le rayonnement des espèces dans Brassicacées famille. Au cours de 25 à 18 Mya, certains genres ont émergé et se sont séparés les uns des autres, puis au cours de la deuxième période de rayonnement (15 à 6 Mya), la plupart du genre s'est spécialisé et a formé plusieurs grands clades. Brassica genre a émergé à environ 4,85 Mya, et a commencé peut-être comme une sorte de B. nigra ou B. rapa. Moricandia arvensis, Eruca stivus, Brassica maurorum, Raphanus sativus et Sinapis arvensis spécié à 3,15 Mya, 2,85 Mya, 2,17 Mya, 2,05 Mya et 1,42 Mya, respectivement. Les Brassica Espèces du génome C (par exemple, B. villosa et B. oleracea) séparés des espèces du génome A (B. rapa) depuis 1,12 Mya. Trois espèces allotétraploïdes (B. juncea, B. carinata et B. napus) spécié au cours de la période 0,17-0,01 Mya ou beaucoup plus tard, qui sont cohérents avec l'heure d'origine estimée de

il y a 7500 ans pour B. napus [4] et l'heure de début de culture de

il y a 7000 ans pour B. juncea [7]. Les Brassica les espèces tétraploïdes sont beaucoup plus jeunes que certaines autres cultures polyploïdes, par exemple, l'émergence du coton (Gossypium hirsutum) à 1–2 Mya [39, 40] et la levée du soja (Glycine max) à 0,8 Mya [41].


Considérations de base

L'assemblage du génome est un problème difficile qui nécessite du temps, des ressources et de l'expertise. Avant de s'engager dans un projet de séquençage du génome, il convient donc d'examiner attentivement si une séquence de référence du génome est strictement nécessaire pour l'objectif en question. Les séquences du génome ne sont qu'une ressource et, dans de nombreux cas, contribueront très peu en soi à un problème de biologie de la conservation. Dans le cas où un projet de génome est jugé d'une valeur significative pour résoudre le problème à résoudre, il faut déterminer si des ressources financières et informatiques suffisantes sont disponibles pour produire un génome de qualité satisfaisante. Si le financement n'est pas disponible pour obtenir la profondeur de lecture appropriée, il est conseillé d'utiliser des approches alternatives lorsque cela est possible (comme le génotypage par séquençage ou le séquençage du transcriptome), plutôt que de se contenter de données de séquençage du génome entier à faible couverture. Ce dernier serait une perte de financement, d'efforts et de temps.

Une limitation importante des approches actuelles de séquençage du génome de fusil de chasse qui peut être d'une importance particulière en biologie de la conservation est le fait que les gènes de base avec une pertinence élevée pour la conservation, comme les gènes immunitaires du CMH ou les gènes des récepteurs olfactifs (OR), sont hautement polymorphes et ont de nombreux paralogues, ce qui les rend particulièrement difficiles à assembler. Plus généralement, les gènes à évolution rapide ou les membres de grandes familles de gènes sont souvent mal représentés dans l'assemblage final et le jeu de gènes annoté. De telles régions et gènes constituent un défi même pour de très grands projets de séquençage d'organismes modèles. Si le projet n'est pas soigneusement planifié dès le départ, il existe un risque que les régions présentant le plus grand intérêt pour la biologie de la conservation ne soient pas correctement représentées dans la version finale du génome. L'annotation manuelle et l'utilisation de données supplémentaires, telles que le séquençage ciblé de clones de chromosomes artificiels bactériens (BAC), seront souvent nécessaires pour inclure ces régions génomiques dans l'assemblage. Si les informations sur ces gènes candidats pré-identifiés sont l'objectif principal de l'étude, il pourrait même être plus efficace de se concentrer uniquement sur ces régions plutôt que d'essayer de séquencer et d'assembler le génome entier (voir par exemple Wang et al. 2012).

Que signifie « séquencer un génome » ?

Ideally, a genome draft would represent the complete nucleotide base sequence for all chromosomes in the species of interest, a ‘physical map’ of its genetic content (as opposed to the ‘genetic or linkage map’ which establishes the order and recombination distances among genetic markers). However, in reality, there are a number of complications with the concept of a ‘genome sequence’. First, there is not one true sequence for a species because of individual genomic variation. In a single diploid individual, such variation will manifest itself in the form of heterozygous positions, insertion/deletion (InDel) polymorphism, copy number variation or small-scale rearrangements. Even cells from the same individual can differ in genomic content due to somatic mutations. The assembled genome sequence of an individual will also be only one representation of the total variation present in a species (paralleling the use of ‘type specimens’ for taxonomic classification). Generally, only a single individual is sequenced (Wheeler et al. 2008 ), but sometimes (like in the HUGO project) the genome represents a ‘consensus’ of a number of pooled samples (International Human Genome Sequencing Consortium 2004 ). Note, however, that in diploid and polyploid organisms, the genome assembly already reflects a consensus sequence of several chromosome sets and fails to capture haplotypic variation (for most current short-read based methods). Second, it is essentially impossible to sequence and assemble all nucleotides in the genome (Ellegren 2014 ). Large parts of DNA sequence, especially the heterochromatic regions around centromeres and telomeres and other highly repetitive regions, are not well-characterized even in mature genome assemblies like human or mice. Third, there will always be some degree of error in the characterized genome sequence, both on the level of individual nucleotides (stemming from sequencing errors) and in the ordering of sequence blocks (stemming from assembly errors). Forth, every genome assembly is the result of a series of assembly heuristics and should accordingly be treated as a working hypothesis.

The principle of genome sequencing and assembly

Currently, most genome projects use a shotgun sequencing strategy for genome sequencing (Fig. 2). In a first step, genomic DNA is sheared into small random fragments. Depending on the technology, these are sequenced independently to a given length. Powerful computer algorithms are then utilized to piece the resulting sequence reads back together into longer continuous stretches of sequence (contigs), a process known as de novo assembly. For correct assembly, it is important that there is sufficient overlap between the sequence reads at each position in the genome, which requires high sequencing coverage (or read depth). Naturally, for longer sequence reads, more overlap can be expected, reducing the required raw read depth. Usually, longer fragments (several hundred base pairs) are sequenced from both ends (paired-end sequencing) to provide additional information on correct read placement in the assembly.

2–20 kb inserts) with reads generally facing outwards and can be complemented with fosmid-end libraries (

40 kb inserts). Genome assembly: (A) short-read de novo assemblers extend the disperse sequence information from the reads into continuous stretches called contigs. Contigs usually reflect the consensus sequence and do not contain any polymorphisms. (B) Paired-end reads provide additional information on whether a read is supported for a given contig. (C) Some assemblers such as ALLPATHS-LG work with overlapping read pairs that are joined into a virtual longer read prior to the assembly. Read pairs from mate-pair or fosmid-end libraries can be used to order and orient contigs dans scaffolds. Gap size between contigs is estimated from the expected length of mate-pairs and marked with ‘N's (indicated by hatched grey boxes). Long reads from single molecule sequencing provide an alternative. Annotation: gene models can be inferred in silico by prediction algorithms, by lifting over information from genomes of related organisms and by using transcriptome data (RNA-seq, expressed sequence tag) from the target organism itself. Spliced reads from RNA-seq data as indicated at the bottom of the figure provide valuable evidence for splice junctions and various isoforms of a gene.

After the initial assembly, contigs are typically joined to form longer stretches of sequence (known as scaffolds). To achieve this, libraries from long DNA fragments spanning several kilobases (kb) of sequence in the genome are prepared and their endpoints sequenced. Depending on the technology and the specifics of the library preparation, these libraries are (somewhat confusingly) called, for example paired-end, mate-pair or jump libraries. If the endpoint sequences of several independent fragments come to lie on two different contigs, they are joined into a scaffold. The expected fragment length of the library provides information on the physical distance between the two contigs, and the created gap is filled with the uninformative base-pair character ‘N’. Subsequent gap closing methods, ideally using long reads that read across repetitive sequences, help to fill in the missing base-pair information.

In a last step, the resulting scaffolds are often joined into linkage groups or placed on chromosomes (Ellegren 2014 ). Genetic maps constructed from pedigree data or crosses are arguably the best way for ordering and orienting scaffolds into longer sequence blocks (Ellegren et al. 2012 ). However, detailed genetic maps of species with conservation concern (usually not amendable to artificial crosses or half-sib breeding designs) require substantial genotyping effort, and deep pedigrees with a sufficient number of meioses are difficult to come by in most systems (Romanov et al. 2009 ). Given these difficulties, it is often not realistic to aim for a chromosome-level assembly, and this will also often not be necessary for most conservation biology applications. Most applications, including haplotype-based approaches that are powerful in revealing signatures of selection or depict recent demographic histories, generally work with high-quality contigs. As an alternative for placing and orienting the scaffolds onto putative chromosomes, synteny and gene order information from related species can be used. Note, however, that such information should be used with due caution as chromosomal rearrangements may have occurred even between very closely related species. There is also a risk that errors in the reference species assembly are transferred to the focal genome.


Human population genetics

The chimpanzee has a special role in informing studies of human population genetics, a field that is undergoing rapid expansion and acquiring new relevance to human medical genetics 141 . The chimpanzee sequence allows recognition of those human alleles that represent the ancestral state and the derived state. It also allows estimates of local mutation rates, which serve as an important baseline in searching for signs of natural selection.

Ancestral and derived alleles

Of ∼ 7.2 million SNPs mapped to the human genome in the current public database, we could assign the alleles as ancestral or derived in 80% of the cases according to which allele agrees with the chimpanzee genome sequence 142 (see Supplementary Information ‘Human population genetics’). For the remaining cases, no assignment could be made because of the following: the orthologous chimpanzee base differed from both human alleles (1.2%) was polymorphic in the chimpanzee sequences obtained (0.4%) or could not be reliably identified with the current draft sequence of the chimpanzee (18.8%), with many of these occurring in repeated or segmentally duplicated sequence. The first two cases arise presumably because a second mutation occurred in the chimpanzee lineage. It should be possible to resolve most of these cases by examining a close outgroup such as gorilla or orang-utan.

Mutations in the chimpanzee may also lead to the erroneous assignment of human alleles as derived alleles. This error rate can be estimated as the probability of a second mutation resulting in the chimpanzee sequence matching the derived allele (see Supplementary Information ‘Human population genetics’). The estimated error rate for typical SNPs is 0.5%, owing to the low nucleotide substitution rate. The exceptions are those SNPs for which the human alleles are CpG and TpG and the chimpanzee sequence is TpG. For these, a non-negligible fraction may have arisen by two independent deamination events within an ancestral CpG dinucleotide, which are well-known mutational hotspots 51 (also see above). Human SNPs in a CpG context for which the orthologous chimpanzee sequence is TpG account for 12% of the total, and have an estimated error rate of 9.8%. Across all SNPs, the average error rate, ??, is thus estimated to be ∼ 1.6%.

We compared the distribution of allele frequencies for ancestral and derived alleles using a database of allele frequencies for ∼ 120,000 SNPs (see Supplementary Information ‘Human population genetics’). As expected, ancestral alleles tend to have much higher frequencies than derived alleles (Supplementary Fig. S9). Nonetheless, a significant proportion of derived alleles have high frequencies: 9.1% of derived alleles have frequency ≥80%.

An elegant result in population genetics states that, for a randomly interbreeding population of constant size, the probability that an allele is ancestral is equal to its frequency 143 . We explored the extent to which this simple theoretical expectation fits the human population. We tabulated the proportion pune(X) of ancestral alleles for various frequencies of X and compared this with the prediction pune(X) = X (Fig. 13).

The solid line shows the regression (b = 0.83). The dotted line shows the theoretical relationship pune(X) = X. Note that because each variant yields a derived and an ancestral allele, the data are necessarily symmetrical about 0.5.

The data lie near the predicted line, but the observed slope (0.83) is substantially less than 1. One explanation for this deviation is that some ancestral alleles are incorrectly assigned (an error rate of ?? would artificially decrease the slope by a factor of 1–2??). However, with ?? estimated to be only 1.6%, errors can only explain a small part of the deviation. The most likely explanation is the presence of bottlenecks during human history, which tend to flatten the distribution of allele frequencies. Theoretical calculations indicate that a recent bottleneck would decrease the slope by a factor of (1 - b), où b is the inbreeding coefficient induced by the bottleneck (see Supplementary Information ‘Human population genetics’ and Supplementary Fig. S10). This suggests that measurements of the slope in different human groups may shed light on population-specific bottlenecks. Consistent with this, preliminary analyses of allele frequencies in several regions for SNPs obtained by systematic uniform sampling indicate that the slope is significantly lower than 1 in European and Asian samples and close to 1 in an African sample (see Supplementary Information ‘Human population genetics’ and Supplementary Fig. S11).

Signatures of strong selective sweeps in recent human history

The pattern of human genetic variation holds substantial information about selection events that have shaped our species. Strong positive selection creates the distinctive signature of a ‘selective sweep’, whereby a rare allele rapidly rises to fixation and carries the haplotype on which it occurs to high frequency (the ‘hitchhiking’ effect). The surrounding region should show two distinctive signatures: a significant reduction of overall diversity, and an excess of derived alleles with high frequency in the population owing to hitchhiking of derived alleles on the selected haplotype (see Supplementary Information ‘Human population genetics’). The pattern might be detectable for up to 250,000 years after a selective sweep has ended 144 . Notably, the chimpanzee genome provides crucial baseline information required for accurate assessment of both signatures.

The size of the interval affected by a selective sweep is expected to scale roughly with s, the selective advantage due to the mutation. Simulations can be used to study the distribution of the interval size (see Supplementary Information ‘Human population genetics’). Avec s = 1%, the interval over which heterozygosity falls by 50% has a modal size of 600 kb and a probability of greater than 10% of exceeding 1 Mb.

We undertook an initial scan for large regions (> 1 Mb) with the two signatures suggestive of strong selective sweeps in recent human history. We began by identifying regions in which the observed human diversity rate was much lower than the expectation based on the observed divergence rate with chimpanzee. The human diversity rate was measured as the number of occurrences from a database of 1.92 million SNPs identified by shotgun sequencing in a panel of African–American individuals (see Supplementary Information ‘Genome sequencing and assembly’). The comparison with the chimpanzee eliminates regions in which low diversity simply reflects a low mutation rate in the region. Regions were identified based on a simple statistical procedure (see Supplementary Information ‘Human population genetics’). Six genomic regions stand out as clear outliers that show significantly reduced diversity relative to divergence (Table 8 see also Supplementary Fig. S12).

We next tested whether these six regions show a high proportion of SNPs with high-frequency derived alleles (defined here as alleles with frequency ≥80%). Within each region, we focused on the 1-Mb interval with the greatest discrepancy between diversity and divergence and compared it to 1-Mb regions throughout the genome. For the database of 120,000 SNPs with allele frequencies discussed above, the typical 1-Mb region in the human genome contains ∼ 40 SNPs, and the proportion ph of SNPs with high-frequency derived alleles is ∼ 9.1%. All six regions identified by our scan for reduced diversity have a higher than average fraction of high-frequency derived alleles all six fall within the top 10% genome-wide and three fall within the top 1%. Although this is not definitive evidence for any particular region, the joint probability of all six regions randomly scoring in the top 10% is 10 -6 . The results indicate that the six regions are candidates for strong selective sweeps during the past 250,000 years 144 . The regions differ notably with respect to gene content, ranging from one containing 57 annotated genes (chromosome 22) to another with no annotated genes whatsoever (chromosome 4). We have no evidence to implicate any individual functional element as a target of recent selection at this point, but the regions contain a number of interesting candidates for follow-up studies. Intriguingly, the chromosome 4 gene desert, which flanks a proto-cadherin gene and is conserved across vertebrates 15 , has been implicated in two independent studies as being associated with obesity 145,146 .

In addition to the six regions, one further genomic region deserves mention: an interval of 7.6 Mb on chromosome 7q (see Supplementary Information ‘Human population genetics’). The interval contains several regions with high scores in the diversity-divergence analysis (including the seventh highest score overall) as well as in the proportion of high-frequency derived alleles. The region contains the FOXP2 et CFTR gènes. The former has been the subject of much interest as a possible target for selection during human evolution 147 and the latter as a target of selection in European populations 148 .

Convincing proof of past selection will require careful analysis of the precise pattern of genetic variation in the region and the identification of a likely target of selection. Nonetheless, our findings suggest that the approach outlined here may help to unlock some of the secrets of recent human evolution through a combination of within-species and cross-species comparison.


Discussion

Utilizing the Assemblatron de novo assembly workflow on the 1,000 individuals of the SweGen cohort, we identified 46 Mb of sequence (61,044 distinct clusters), missing from GRCh38 and GRCh37. Each individual genome harbor on average 0.6-Mb unmappable sequence, and there exists a great variety between individuals ( fig. 1B). Other large scale short read WGS studies, has indicated that NSs are diverse and abundant these studies include the Simons genome diversity project (average of 5-Mb unmappable sequence/individual) ( Mallick et al. 2016) and a recent study of 910 Pan-African genomes ( Sherman et al. 2019) additionally, recent studies have confirmed the presence of NS using long read sequencing ( Ameur et al. 2018 Audano et al. 2019).

Notably, we report a smaller amount of NS compared with previous studies such as Mallick et al. (2016) and Sherman et al. (2019). We note that Mallick et al. (2016) use the GRCh37 reference genome and do not describe any filtering procedure. The 5 Mb of NS per individual reported in Mallick et al. (2016) is therefore comparable to our 7.8 Mb of unfiltered sequence unmappable to GRCh37 ( table 1). Sherman et al. (2019) study a subset of the Pan-African population, which is highly diverse and not as well represented in the current reference genome additionally, Sherman et al. (2019) utilize a different assembly workflow, involving the extraction and assembly of unmapped reads (instead we perform whole genome de novo assembly), and scaffolding using unmapped read pairs. These differences are therefore due to both technical and biological reasons, the true amount of NS can only be determined using long read sequencing, allowing of the sequencing of the entirety of these NSs.

A great diversity of shared NS was found by aligning the unmappable sequences to the chimpanzee genome, a catalog of Icelandic NS, as well a Pan-African collection of NS ( fig. 3A). Overall, we find that 70% of the NS align confidently to any of these data sets, and that many of the NS align to multiple data sets. Given the large geographical spread of these data sets, as well as the high similarity between the Swedish NS and those of the public data sets, a significant proportion of NS may be of ancestral origin, and therefore shared not only with the Pan-African population and the chimpanzee, but with other populations as well ( fig. 5A). We attempted to position the NS using two separate methods: RetroSeq, and alignment to the chimpanzee genome. Overall, we find that both these methods perform relatively poorly: only 246 NSs were confidently positioned across GRCh37 using RetroSeq, greater numbers of NSs were aligned to the chimpanzee genome, however the NS that did align consists largely of LINEs and unmasked sequence, which is atypical to the NS at large ( fig. 2B). Nevertheless, we find that these two approaches are concordant, and that there is an enrichment of NS within repeat-masked regions, as well as depletion of NS within genes ( tables 2 and 3). Through the RetroSeq analysis, we find that there’s a depletion of NS within centromere, however, these results are unreliable due to the low mappability within such regions. The RetroSeq analysis detected 2,195 NS insertions within 2,384 genes, 245 of these genes are MIM morbid genes. Similarly, through alignment to the chimpanzee genome, we find 2,807 NSs positioned within 143 human gene orthologs. We find that NSs tend to cluster into hotspot regions within some genes, in other genes, we find that the NSs are more dispersed, and yet in other genes, we find only a few, or even a single NS ( supplementary tables S2 and S3 , Supplementary Material online): illustrating that the NS may form through various genetic mechanisms. Since NSs aligning to PT4 are likely to represent ancestral deletion events, we performed a manually inspection of the BPJs of ten such events. We found four ancestral deletions that were flanked by matched repeat elements, including Alu, L1, and ERVL ( table 4) indicating that those events were formed through nonallelic homologous recombination between the matched repeats ( Lupski 2015). In one ancestral deletion, no repeat elements was present in the BPJ, but a five nucleotide stretch of microhomology was present indicating microhomology-mediated end joining ( table 4) ( Lupski 2015). Finally, in four of the ancestral deletions the BPJs were blunt indicative of nonhomologous end joining ( Lupski 2015 Nazaryan-Petersen et al. 2018). In one case, we were unable to find any reads spanning the ancestral deletion (SweGen0070_3823). Since the breakpoints of this NS are located in low-mappability regions, one plausible explanation is that those regions are in fact chimpanzee segmental duplications. However, we cannot confirm this hypothesis since no such tracks available in PT4. In addition, when we searched all NS mapping to PT4 we found two clustered ancestral deletions highly suggestive of underlying complex rearrangements ( Nazaryan-Petersen et al. 2018). This shows that a small proportion of NS may originate from ancient complex deletion events ( supplementary figs. S18 and S19 , Supplementary Material online).

Overall, there’s clearly an abundance of NS within genes previous studies has shown that NS inserted within genes may affect gene regulation ( Kehr et al. 2017), highlighting the importance of studying NS in rare disease research. Notably, the RetroSeq and contig alignment approaches differ: aligning the contigs directly to the chimpanzee genome we find that many contig clusters align closely within the same region ( fig. 4A and B), instead, RetroSeq tend to position a single contig on multiple positions. This difference is likely due to the similarity of the contigs, and that the signal (i.e., read pairs) is likely to be distributed randomly across these similar contigs—producing either low support calls or hybrid calls that are not considered in our analyses. Additionally, we apply an allele frequency cut off (a minimum of five individuals) to the RetroSeq calls. Finally, we find that the two methods produce different sets of genes, which may also explain the observed differences ( supplementary tables S2 and S3 , Supplementary Material online). Overall, it is clear that long read sequencing would be necessary not only to position the NS but also to prevent similar NS from being collapsed into a single contig.

We aligned the WGS data of 96 individuals to PT4 and performed structural variant (SV) calling using TIDDIT. Through that analysis, we noticed that the NSs are fragmented. Compared with our de novo assembly approach, we discover nearly three times as much NS by characterizing the deletion events in the GRCh38 reference ( supplementary table S4 , Supplementary Material online). Further, we find that many of the ancestral NSs are common ( supplementary table S4 , Supplementary Material online), which stands in disagreement to the results shown in figure 1. These discrepancies are likely due to the fragmentation of the NS, causing similar NS to appear different due to various technical artifacts, including low coverage across heterozygous sequences, and the formation and popping of bubbles at otherwise homozygous NS. We note that other previous studies report a large amount singleton NS ( Sherman et al. 2019), indicating that these problems are widespread.

In aggregate, these findings show that the ancestral NS may be more homogenous than previously thought, and that the allele frequencies of polymorphic ancestral sequence are underestimated.

Our findings here show that there is great benefit in expanding the reference genome. However, due to the large amount of low frequency sequences, the expanded reference would quickly become very large and complex. In 1,000 individuals from a single population, we report 46 Mb of unmappable sequence, which is comparable in to the length of chromosome 21, which is still small compared with the nearly 300 Mb across 910 Pan-African individuals. In addition, it is well known that many unmappable sequences are repetitive and/or related to various mobile elements ( Ameur et al. 2018), here, we show that the NS are enriched by satellites and simple repeats ( fig. 2B), further complicating the alignment and analysis of these sequences.

These difficulties would likely be overcome through the use of graph reference data structures ( Paten et al. 2017), combined with long read or linked read sequencing. Although, a more diverse reference genome is needed, we do find that the NSs differ greatly among populations and individuals ( fig. 5A and B), most of the NS are rare, and each sequenced individual adds significant amounts of new NS ( fig. 1B) (Sherman et al. 2019). Using our NS catalog as a reference, and comparing the results to that of the Pan-African NS, we find that both perform relatively poorly as references for unmappable sequence: Both NS catalogs absorb roughly 7% of the UR, additionally we find that the Swedish and Pan-African NSs correlate strongly ( fig. 5C), indicating that these individuals share a significant amount of common NS ( fig. 3A). On the other hand, we find that 18,773 sequences could be confidently aligned to PT4 but not to GRCh38 (compared with 32,794 sequences confidently aligned to the Pan-African NS, but not GRCh38). Considering that PT4 is constructed from 6× WGS of a single individual (https://www.ncbi.nlm.nih.gov/assembly/GCF_000001515.5/ last accessed August 12, 2019), it may be cost efficient to add chimpanzee specific sequences to a human graph genome. Similar ideas are explored in Sundaram et al. (2018) where the authors create an annotation tool based on common single nucleotide variant found in nonhuman primates and show that such approach may be useful to assess the pathogenicity of rare variants in the human genome.

In summary, we present 46 Mb of strictly quality controlled NS in 1,000 Swedish genomes, we find that most of our NS contigs are rare but also, that a substantial amount these NS contigs represent common alleles indicating that the NS are fragmented. Additionally, we find that these sequences are enrichment in simple repeats and satellites. Due to the repetitive nature of the NS, long read sequencing would be necessary not only to find but also to position the NS. Using the NS of nearly 2,000 individuals, we were able to align only a fraction of the UR of four 1KGP populations, indicating that greater diversity within the reference genome is necessary, but also that it may be more cost efficient to expand the human genome with sequence originating from great apes.


DNA: Comparing Humans and Chimps

These three species look alike in many ways, both in body and behavior. But for a clear understanding of how closely they are related, scientists compare their DNA, an essential molecule that's the instruction manual for building each species. Humans and chimps share a surprising 98.8 percent of their DNA. How can we be so similar--and yet so different?

So Much Alike.

Human and chimp DNA is so similar because the two species are so closely related. Humans, chimps and bonobos descended from a single ancestor species that lived six or seven million years ago. As humans and chimps gradually evolved from a common ancestor, their DNA, passed from generation to generation, changed too. In fact, many of these DNA changes led to differences between human and chimp appearance and behavior.

Examine the Evidence

Matching DNA? Human and chimp DNA is nearly identical when you compare the bands on chromosomes, the bundles of DNA inside nearly every cell. Which two chromosomes are more alike?

Banding Patterns

The light and dark bands on these chromosomes, created by a laboratory dye, reveal similarities and differences among human, chimp and mouse DNA.

Human and chimp X chromosomes both contain about 1,100 different genes, or sets of instructions. Each gene affects a particular trait in the body.

HEM B - Blood clotting, hemophilia
CPX - facial development, cleft palate
SMC1L1 - chromosome maintenance
OPN1LW - red color vision

Seeing Red

Most genes in humans and chimps are nearly identical. Both species have the OPN1LW gene, which allows them both to see the color red. But mice lack OPN1LW--and have trouble seeing red.

. And Yet So Different

If human and chimp DNA is 98.8 percent the same, why are we so different? Numbers tell part of the story. Each human cell contains roughly three billion base pairs, or bits of information. Just 1.2 percent of that equals about 35 million differences. Some of these have a big impact, others don't. And even two identical stretches of DNA can work differently--they can be "turned on" in different amounts, in different places or at different times.

Same Genes, Behaving Differently

Although humans and chimps have many identical genes, they often use them in different ways. A gene's activity, or expression, can be turned up or down like the volume on a radio. So the same gene can be turned up high in humans, but very low in chimps.

The same genes are expressed in the same brain regions in human, chimp and gorilla, but in different amounts. Thousands of differences like these affect brain development and function, and help explain why the human brain is larger and smarter.

Slightly Different Genes

The chimpanzee immune system is surprisingly similar to ours--most viruses that cause diseases like AIDS and hepatitis can infect chimpanzees too. But chimps don't get infected by the malaria parasite Plasmodium falciparum, which a mosquito can transmit through its bite into human blood. A small DNA difference makes human red blood cells vulnerable to this parasite, while chimp blood cells are resistant.


Introduction

The human genome sequence was completed in draft form in 2001 (Lander et al., 2001 Venter et al., 2001). Shortly thereafter, the genome sequences of several model organisms were determined (Chinwalla et al., 2002 Gibbs et al., 2004 The Chimpanzee Sequencing and Analysis Consortium, 2005). These feats were accomplished with Sanger DNA sequencing, which was limited in throughput and high cost indeed the first human genome sequence was estimated to cost 0.5𠄱 billion dollars. These limitations reduced the potential of DNA sequencing for other applications, such as personal genome sequencing. Following the release of the 𠇏inished” human genome (International Human Genome Sequencing Consortium, 2004), the National Human Genome Research Institute (NGHRI) created a 70 million dollar DNA sequencing technology initiative aimed at achieving a $1000 human genome in ten years (Schloss, 2008), and a flurry of high-throughput sequencing (HTS) technologies emerged.

To put this initiative in perspective, improvements to traditional Sanger sequencing had decreased the per base cost by around 100-fold by the completion of the Human Genome Project (Schloss, 2008). To reach the $1000 dollar genome threshold, however, an additional leap of 5 orders of magnitude was necessary. Much of this divide has been traversed—the cost of a genome sequence (without interpretation) is presently less than $2,000. The road to this milestone involved many commercial HTS platforms, which differ in their details but typically follow a similar general paradigm: template preparation, clonal amplification, followed by cyclical rounds of massively parallel sequencing. The specific strategy employed by each platform determines the quality, quantity and biases of the resulting sequence data and the platform’s usefulness for particular applications.

Several excellent reviews have covered HTS platform strategies in great depth (Metzker, 2010 Morey et al., 2013). Many important platforms are not covered here, including Roche/454’s pyrophosphate Genome Sequencer (Margulies, 2005), Helicos’ single molecule Heliscope sequencer (Harris et al., 2008) as well as the Polonator (Shendure et al., 2005), ABI’s SOLiD (Valouev et al., 2008) and Complete Genomics’ DNA nano-array sequencer (Drmanac et al., 2010). Instead, we focus on the most commonly used platforms today as well as more recent developments. We also provide an overview of the growing array of HTS applications and highlight their use by the genomics community to illuminate previously intractable topics in biology. Finally, we discuss the limitations of current platforms and challenges to clinical sequencing.


A.P.F.P. and D.E.R. conceived the study. A.P.F.P. compiled the papers, analysed the data and wrote the first draft of the manuscript with input from D.E.R.

We thank Leif Andersson, Sangeet Lamichhaney, Nima Rafati and Alvaro Martínez-Barrio (Uppsala University) for training on Pool-seq. Thanks to Martin Fischer, Simone Fior, Erik Garrison and Anders Albrechtsen for helpful discussions on Pool-seq and lcWGR during the 2017 Workshop on Bioinformatics for Adaptation Genomics (ETH-Zurich). Thanks to three anonymous reviewers that helped improve this manuscript. APFP thanks to the Vanier Canada Graduate Scholarship, the President's Award of Dalhousie University and the Nova Scotia Graduate Scholarship for funding. APFP and DER thank the Killam Trust. The study was funded by NSERC Discovery and Strategic grants to DER.


Voir la vidéo: Simpanssit (Janvier 2022).