Informations

3.3.8 : Plongée de données - Populations de renards insulaires - Biologie


Aperçu

L'Island Fox Conservation Working Group et l'organisation à but non lucratif Friends of the Island Fox travaillent dur pour financer en permanence des projets de recherche et de conservation afin d'assurer la survie continue du renard insulaire. Les résultats de cette réunion sont visibles dans le graphique et le tableau ci-dessous :

Figure(PageIndex{a}) : Tendances de la population des sous-espèces de renards insulaires (lignes pleines = sous-espèces des grandes îles, lignes pointillées = sous-espèces des petites îles). Graphique de Rachel Schleiger (CC-BY-NC) modifié à partir des données de 2019 Island Fox Status Update.

Figure(PageIndex{b}) : Les statuts désignés de 2019 pour la sous-espèce de renard insulaire en fonction de la population de renards et de la taille de l'île. Graphique de Rachel Schleiger (CC-BY-NC) modifié à partir des données de 2019 Island Fox Status Update.

Des questions

  1. Quelle est la variable indépendante (explicative) et la variable dépendante (réponse) ?
  2. À quelle(s) question(s) les auteurs tentent-ils de répondre avec ce graphique et ce tableau ?
  3. Selon vous, quelle sous-espèce de renard insulaire est la plus stable ? Pourquoi?
  4. Quelle(s) année(s) ont été mauvaises (ce qui signifie que les estimations de population étaient très faibles) pour la plupart des sous-espèces de renards insulaires ?
  5. Comme indiqué dans le graphique, les populations sont estimées pour chaque sous-espèce chaque année. Pourquoi pensez-vous qu'une estimation annuelle a été choisie dans le plan de conservation au lieu d'un intervalle de temps plus long ?

3.3.8 : Plongée de données - Populations de renards insulaires - Biologie

Cette étude visait à identifier les corrélats de l'abus de fentanyl au cours de l'année écoulée aux États-Unis.

La consommation d'héroïne (44,3 %) et le SUD (38,2 %) sont souvent survenus lors d'un abus de fentanyl au cours de l'année précédente.

Ce groupe présentait également des taux très élevés de troubles liés à l'utilisation de substances non alcoolisées (78,7 %).

Le mésusage du fentanyl était associé à un trouble lié à l'usage fréquent d'opioïdes sur ordonnance (53,7 %).

Ceux qui ont abusé du fentanyl au cours de l'année précédente sont fortement impliqués dans les opioïdes et les polysubstances.


Résumé

La culture itinérante est une utilisation des terres répandue dans les tropiques qui est considérée comme une menace majeure pour la diversité et la structure de la forêt tropicale. Aux Philippines, un pays avec une riche biodiversité et des taux élevés d'endémisme des espèces, la culture itinérante, appelée localement kaingin, est une utilisation majeure des terres et ce depuis des siècles. Malgré l'impact potentiel de la culture itinérante sur les forêts et son importance pour de nombreuses personnes, il n'est pas clair comment la biodiversité et la structure forestière se rétablissent après l'abandon du kaingin dans le pays, et dans quelle mesure ces forêts secondaires post-kaingin peuvent compléter les forêts anciennes. Nous avons étudié les paramètres de la diversité et de la structure des forêts le long d'un gradient d'âge de jachère dans les forêts secondaires se régénérant après l'abandon de kaingin sur l'île de Leyte, aux Philippines (plage d'altitude : 445–650 m d'altitude). Nous avons d'abord mesuré les indices de diversité des arbres et de structure forestière dans les forêts secondaires en régénération et les forêts anciennes. Nous avons ensuite mesuré la récupération de la diversité des arbres et des paramètres de structure forestière en relation avec la forêt ancienne. Enfin, à l'aide de modèles linéaires à effets mixtes (LMM), nous avons évalué l'effet de différentes variables environnementales sur le rétablissement de la diversité et de la structure des forêts. Nous avons trouvé une densité d'espèces significativement plus élevée dans les sites de jachère les plus anciens, tandis que l'indice de Shannon, la régularité des espèces, le nombre de tiges, la surface terrière et l'indice de surface foliaire étaient plus élevés dans la forêt ancienne. Une composition homogène d'espèces a été trouvée sur les sites de jachère plus âgée. L'analyse multivariée a révélé que la taille des parcelles était un puissant prédicteur de la diversité des arbres et de la récupération de la structure forestière après la culture itinérante. Notre étude suggère que les forêts secondaires qui se régénèrent après l'abandon de la culture itinérante peuvent se rétablir rapidement. Bien que le rétablissement de la structure forestière n'ait pas été aussi rapide que la diversité des arbres, nos anciens sites de jachère contenaient un nombre d'espèces similaire à celui de la forêt ancienne. Beaucoup de ces espèces sont également endémiques aux Philippines. Les écosystèmes nouveaux et émergents comme les forêts secondaires tropicales sont d'une grande importance pour la conservation et peuvent servir de refuge à la diminution de la biodiversité des forêts tropicales.


1. INTRODUCTION

La crise actuelle de la biodiversité constitue une grave menace à la fois pour les écosystèmes mondiaux et la socio-économie mondiale (Naidoo et al., 2006 ). L'établissement et la gestion de réseaux d'aires protégées (PAN) est l'une des actions les plus répandues et les plus efficaces pour maintenir la biodiversité (Moilanen, 2007 Possingham, Wilson, Andelman, & Vynne, 2006 ). Dans ce contexte, la priorisation spatiale de la conservation (SCP), l'activité d'identification des zones importantes pour atteindre les objectifs de conservation de la biodiversité de manière rentable, est devenue l'une des méthodes centrales de planification de la conservation (Kukkala & Moilanen, 2012 Moilanen & Arponen, 2011 ). La biogéographie de la conservation fournit une base conceptuelle pour la conception de PAN qui capturent largement les attributs clés de la biodiversité (Ladle & Whittaker, 2011 Whittaker et al., 2005 ), y compris les processus écologiques et historiques qui sous-tendent le modèle de biodiversité contemporain (Hawkins et al., 2003 Mittelbach et al., 2007 Ricklefs, 2004 ). Les méthodes SCP basées sur la biogéographie peuvent contribuer à la représentation efficace des processus d'évolution, de contingence historique et d'assemblage d'espèces (Ferrier, Faith, Arponen et Drielsma, 2009 Kusumoto et al., 2017).

La biodiversité sur les îles existe de manière naturellement fragmentée et est souvent caractérisée par l'endémicité, en particulier sur les îles océaniques. Les îles contribuent de manière substantielle à la biodiversité mondiale, nombre d'entre elles sont des priorités de conservation (Whittaker & Fernández-Palacios, 2007) et sont classées parmi les points chauds de la biodiversité mondiale (Mittermeier, Turner, Larsen, Brooks et Gascon, 2011). En raison de leur histoire biogéographique distincte, les îles d'Asie de l'Est (qui constituent le Japon) constituent une région idéale dans laquelle les biogéographes de conservation peuvent développer des analyses de priorisation spatiale dans le but de la persistance à long terme du potentiel écologique et évolutif. Les processus géographiques dans les îles d'Asie de l'Est, tels que les ponts terrestres avec le continent et l'insularité en réponse au changement paléoclimatique, ont façonné des modèles de biodiversité uniques grâce à la dispersion et à la diversification évolutive spécifiques aux taxons liés à l'isolement et/ou au changement paléoclimatique (Kubota, Hirao, Fujii , Shiono, & Kusumoto, 2014 Shiono, Kusumoto, Yasuhara, & Kubota, 2018 Tojo et al., 2017 ). Malgré le biote distinctif sur le plan écologique et/ou évolutif de la région, les récentes pressions anthropiques ont entraîné la perte, la dégradation et la fragmentation de l'habitat, menaçant ainsi la biodiversité d'importance mondiale (Kusumoto et al., 2015 ). De plus, le PAN japonais a un fort biais spatial vers les zones moins productives et éloignées (Kusumoto et al., 2017 ). Récemment, le gouvernement japonais s'est engagé à étendre la couverture du PAN terrestre du Japon à 17 % de sa superficie, comme convenu dans l'objectif Aichi 11 de la Convention sur la diversité biologique (Ministère de l'Environnement, 2012). Néanmoins, aucune analyse spatiale complète et écologiquement justifiée n'a été réalisée jusqu'à présent pour identifier les expansions du PAN qui captureraient la biodiversité et les processus biogéographiques du Japon d'une manière efficace et équilibrée.

Les modèles de biodiversité dépendant du taxon et leurs processus écologiques/évolutifs sous-jacents peuvent être mieux capturés par une planification de la conservation spécifique au taxon qui tient compte des pertes passées subies par le taxon, des principales menaces présentes et de la rentabilité des actions de conservation alternatives. Par conséquent, l'analyse SCP spécifique à un taxon est utile pour établir des priorités de conservation de base pour des taxons individuels, en particulier du point de vue de la biogéographie de la conservation. Cependant, l'incongruence spatiale des zones prioritaires pour différents taxons peut indiquer que les hypothèses de maternité de substitution ne fonctionnent pas bien (Franco et al., 2009 ) et des objectifs de conservation séparés pour des taxons individuels réduiront l'efficacité de zone des zones prioritaires globales (Jenkins, Guénard, Diamond , Weiser et Dunn, 2013 ). Par conséquent, une approche SCP multitaxon est indispensable pour sécuriser les processus biogéographiques clés à travers les taxons qui ont des capacités de dispersion et des histoires évolutives différentes, tout en tenant compte de l'efficacité globale de la zone (coût). Les praticiens de la conservation peuvent également mettre l'accent sur des groupes taxonomiques ou d'espèces en fonction de leur contribution aux fonctions écosystémiques ou aux valeurs économiques (Brown et al., 2013 Ellison et al., 2005 Sergio, Newton et Marchesi, 2005), qui peuvent être mis en œuvre par des taxons spécifiques. pondération.

Dans cette étude, nous développons une approche SCP en deux étapes pour identifier les zones d'expansion du PAN les plus appropriées au Japon, en tant que modèle de biogéographie de conservation des îles, pour atteindre l'objectif de 17 % d'Aichi. En complément, nous évaluons les performances du PAN actuel en termes de couverture de biodiversité. Nous avons basé notre priorisation sur des modèles de distribution des espèces construits à une résolution de 1 km 2 en utilisant une grande quantité de données sur tous les amphibiens, oiseaux, poissons d'eau douce, mammifères, reptiles et plantes vasculaires indigènes du Japon (6 325 espèces au total dans cette étude, nous appelons ces taxons ou groupes taxonomiques). Nous avons d'abord effectué une analyse des facteurs environnementaux pour clarifier les modèles de biodiversité spécifiques aux taxons en relation avec la géohistoire et le changement paléoclimatique. Deuxièmement, nous avons effectué une analyse SCP spécifique au taxon pour établir les modèles de priorité pour chaque taxon, ce qui a également permis d'étudier la congruence spatiale des priorités. Dans la troisième étape, nous avons combiné les données de tous les taxons dans la même analyse SCP, avec et sans le PAN actuel comme point de départ. Cette analyse SCP multitaxon nous a permis d'identifier des expansions rentables du PAN japonais. Enfin, nous discutons de l'importance respective des approches de hiérarchisation monotaxon ou multitaxon pour soutenir la planification de la conservation spatiale au Japon.


Webinaires à la demande

Rapports KLAS : Communication sécurisée 2017 – Les réalités de l'adoption d'une plate-forme de communication sécurisée (2/20) Paul Hess, directeur de recherche, KLAS (Cette série n'est ouverte qu'aux personnes travaillant dans des organisations de prestataires de soins de santé. Inscriptions effectuées avec des adresses e-mail génériques &# 8211 gmail, yahoo, hotmail – ne seront pas acceptés.) Webinaire Sponsorisé par : qliqSOFT & Vocera (Envoyez un e-mail à Nancy Wilcox pour obtenir un lien vers l'archive.)

Rapports KLAS : Services de mise en œuvre 2017 : quelles entreprises dépassent constamment les attentes ? (19/10) Garrett Hall, directeur de recherche, Cybersecurity & Implementation Services, KLAS (Cette série n'est ouverte qu'aux personnes travaillant dans des organisations de prestataires de soins de santé. Les inscriptions effectuées avec des adresses e-mail génériques – gmail, yahoo, hotmail – être accepté.) Webinaire Commandité par : Optimum Healthcare IT et Galen Healthcare Solutions Envoyez un courriel à Nancy Wilcox pour obtenir un lien vers les archives.

Rapports KLAS : Part de marché des DME des hôpitaux américains en 2017 (6/27) Erik Bermudez, directeur de recherche principal, KLAS (Cette série n'est ouverte qu'aux personnes travaillant dans des organisations de prestataires de soins de santé.) Envoyez un e-mail à Nancy Wilcox pour obtenir un lien vers les archives.

Rapports KLAS : Services gérés de soins basés sur la valeur (3/28) Warren Whitford & Lois Krotz, directeurs de recherche, KLAS (Cette série est uniquement ouverte aux personnes travaillant dans des organisations de prestataires de soins de santé. Inscriptions effectuées avec des adresses e-mail génériques – gmail, yahoo , hotmail – ne sera pas accepté.) Envoyez un e-mail à Nancy Wilcox pour obtenir un lien vers l'archive.

Rapports KLAS : Services de conseil en sécurité 2016 – Quelles entreprises aident les fournisseurs à dormir la nuit ? (11/29 – Cet événement est ouvert uniquement aux personnes travaillant dans des organisations de prestataires de soins de santé) Garrett Hall, directeur de recherche, Cybersecurity & Implementation Services, KLAS (webinaire sponsorisé par Clearwater Compliance) Envoyez un e-mail à Nancy Wilcox pour obtenir un lien vers les archives.

Rapports KLAS : Traitement du langage naturel - Aperçus sur l'avenir de l'exploration de données non structurées (8/23 – cet événement est ouvert uniquement aux personnes travaillant dans des organisations de fournisseurs de soins de santé) Boyd Stewart, directeur de recherche, KLAS (sponsorisé par Linguamatics) Courriel Nancy Wilcox pour un lien vers les archives.

Rapports KLAS : « Imaging IT Landscape 2016 Enterprise Platform : The Next Nirvana ?» Amy Fetter Johnson, Research Director, KLAS Monique Rasband, Senior Director of Research, Imaging & Oncology, KLAS (sponsor du webinaire : Merge, an IBM Company) Cet événement est ouvert uniquement aux personnes travaillant dans des organisations de prestataires de soins de santé. Envoyez un e-mail à Nancy Wilcox pour obtenir un lien vers les archives.

Rapports KLAS : “Enterprise Health BI & Population Health Management” Joe Van De Graaff, directeur de recherche, et Mark Allphin, directeur de recherche principal, KLAS (Cet événement est réservé aux personnes travaillant dans des organisations de fournisseurs de soins de santé – envoyer un e-mail à Nancy Wilcox pour un lien vers les archives)

Rapports KLAS : « Soins basés sur la valeur – Prendre le virage : qui peut vous aider ? » Warren Whitford, directeur de recherche, KLAS (Cet événement est ouvert uniquement aux personnes travaillant dans des organisations de prestataires de soins de santé) Webinaire sponsorisé par Valence Health, Lumeris & Premier (Contactez Nancy Wilcox pour l'accès aux archives du webinaire)

Pleins feux sur le rapport KLAS : « Sécurité des données de santé : 155 fournisseurs identifiés — Qui protège vos données ? »


7.4 Prédiction de la précision prédictive

Tout ce qui précède suggère une façon de naviguer entre le surapprentissage et le sous-apprentissage : évaluer nos modèles en dehors de l'échantillon. Mais nous n'avons pas le hors échantillon, par définition, alors comment pouvons-nous évaluer nos modèles dessus ? Il existe deux familles de stratégies : validation croisée et critères d'information. Ces stratégies essaient de deviner dans quelle mesure les modèles fonctionneront, en moyenne, pour prédire de nouvelles données. (p. 217, accent dans la version originale)

7.4.1 Validation croisée.

Une stratégie courante pour estimer la précision prédictive consiste à tester la précision prédictive du modèle sur un autre échantillon. Ceci est connu comme validation croisée, en omettant une petite partie des observations de notre échantillon et en évaluant le modèle sur les observations qui ont été omises. Bien sûr, nous ne voulons pas omettre de données. Donc, ce qui est généralement fait est de diviser l'échantillon en plusieurs morceaux, appelés "plis". Il est demandé au modèle de prédire chaque pli, après entraînement sur tous les autres. Nous faisons ensuite la moyenne du score pour chaque pli pour obtenir une estimation de la précision hors échantillon. Le nombre minimum de plis est de 2. À l'autre extrême, vous pouvez faire de chaque observation ponctuelle un pli et ajuster autant de modèles que vous avez d'observations individuelles. (p. 217, accent dans la version originale)

Les plis sont généralement de taille équivalente et nous désignons souvent le nombre total de plis par (k) , ce qui signifie que le nombre de cas diminue à mesure que (k) augmente. A l'extrême (k = N) . Validation croisée Leave-one-out (LOO-CV) est le nom de ce type populaire de validation croisée qui utilise le plus grand nombre de plis possible en incluant un seul cas dans chaque pli (de Rooij & Weeda, 2020 voir Zhang & Yang, 2015) . Ce sera notre approche.

Une difficulté pratique avec LOO-CV est qu'il est coûteux en termes de temps et de mémoire requis pour réajuster le modèle (k = N) fois. Heureusement, nous avons une approximation du LOO-CV pur. Vehtari, Gelman et Gabry (2017) ont proposé la validation croisée de l'échantillonnage d'importance lissée de Pareto (PSIS-LOO-CV) comme moyen efficace d'approcher le vrai LOO-CV.


Résultats et discussion

Étendue des incendies dans les communautés végétales

Nous avons développé une couche d'incendie à l'échelle du continent basée sur les données de points chauds historiques de Digital Earth Australia, maillées à une résolution de 2,5 km sur la période du 1er juillet 2019 au 11 février 2020 (Fig.  1a voir ‘Méthodes’) . Sur la base de cette couche, nous estimons que quelque 200 incendies majeurs ont brûlé 10,4 millions d'hectares (Mha environ 25,7 millions d'acres) de terres dans le sud-est de l'Australie (Fig.  1b) jusqu'à ce qu'ils soient éteints ou maîtrisés à la mi-février 2020 Les incendies ont progressé du nord au sud et ont augmenté le plus rapidement entre septembre 2019 et janvier 2020 (Fig. De très grands incendies se produisent régulièrement dans le sud-est de l'Australie, mais l'étendue spatiale globale des feux de brousse d'été noir dans les États de Victoria et de la Nouvelle-Galles du Sud (NSW) double les principaux événements d'incendie des dernières décennies (tous ca. 0,5&# x020135&# x02009Mha Données supplémentaires  1 ), et même les incendies victoriens de 1851 du 𠆋lack Thursday’ (environ 5 Mha). Une caractéristique importante de l'événement était la taille massive des incendies individuels : onze dépassaient 0,1 Mha (c. La plupart des mégaincendies (définis ici comme Ϡ.1 Mha) sont survenus à la suite de la fusion de plusieurs grands incendies indépendants. Six autres incendies majeurs (0,050𠄰,099 Mha) et de nombreux incendies plus petits se sont également produits dans la région (Fig.  1b ). Les deux plus grands incendies du nord de la Nouvelle-Galles du Sud ont formé un complexe d'environ 380 km de long qui couvrait 2,66 millions d'hectares (6,57 millions d'acres) (Fig.  1b), se classant parmi les plus grands incendies contigus jamais enregistrés dans le monde.

une Australie, avec zone d'étude en médaillon rouge, et b la zone d'étude du sud-est de l'Australie continentale, reconstruite à partir de données de points chauds satellitaires (voir ‘Methods’). La température du feu a été mise à l'échelle entre les températures minimale et maximale pour produire une température relative du feu (TR Faible =𠂐𠄰.25, Moyen = Ϡ.25𠄰.50, Élevé = Ϡ.50𠄰.75, Très élevé =& #x02009Ϡ.75𠄱.0, ND = pas de données voir ‘Methods’).Les grands types de végétation sont : RF =𠂟orêt tropicale et bosquets de vignes EF =𠂟orêts et forêts d'eucalyptus OF =𠂚utres forêts et terres boisées, SH = Shrublands et landes GH =& #x02009Prairies, Herbes, Sedgelands et Rushlands. La superficie totale des types de végétation et les proportions brûlées dans chacune des quatre biorégions côtières ou quasi-côtières (NET = New ​​England Tablelands, NNC = NSW North Coast, SYB = Sydney Basin, SEC& #x02009= South East Corner) et dans chaque catégorie de température relative sont affichés. La valeur entre parenthèses après chaque mégaincendie est la superficie du feu en millions d'hectares.

Environ les trois quarts des zones brûlées se trouvaient dans des vestiges de végétation boisée (Fig.  2a, b). Parmi les grands types de végétation basés sur les principaux groupes de végétation australiens (MVG voir tableau  1 ) 7 , les forêts et les bois d'eucalyptus (7,34 Mha) ont été les plus touchés, mais de vastes zones de forêts tropicales humides et de bosquets de vigne (0,33 Mha Fig.& #x000a0 2C ), des zones arbustives et des landes (0,22 Mha) et d'autres écosystèmes forestiers et boisés (0,25 Mha) ont également été brûlés (tableau  1 ). L'étendue biogéographique des feux de l'été noir est révélée par le fait que ces grands types de végétation ont été touchés dans les onze biorégions du sud-est de l'Australie (biorégions IBRA 8 ) qui se trouvent dans la zone d'étude (Fig.  1b et tableau supplémentaire&# x000a0 1 ). Parmi celles-ci, les biorégions côtières et quasi-côtières (NSW North Coast, Sydney Basin, South East Corner et New England Tablelands) présentaient le pourcentage le plus élevé de ces types de végétation brûlés (PFT), dont 4,40 Mha (PFT =� %) de forêts et de bois d'eucalyptus, 0,25 Mha (PFT =� %) de forêt tropicale et de bosquets de vigne et 0,18 Mha (PFT =� %) des zones arbustives et des landes (tableau  1 ). Dans certaines biorégions PFT dépasser 75 %, notamment pour les forêts tropicales humides des plateaux de la Nouvelle-Angleterre et du coin sud-est de la Nouvelle-Galles du Sud (Fig.  1b et tableau supplémentaire  1 ). Les zones brûlées restantes étaient principalement constituées de végétation défrichée ou non indigène (2,06 mha).

une Étendue des incendies du 1er juillet 2019&# x0201311 février 2020. b Grands types de végétation dans le sud-est de l'Australie rouge =𠂟orêt tropicale et bosquets de vignes, vert =𠂟orêt et bois d'eucalyptus, marron =𠂚rbustes et landes, jaune = Prairies, Herbes, Sedgelands, Rushlands et olive =𠂚utres forêts et terres boisées. c Forêt tropicale tempérée fraîche à Barrington Tops, NSW. Incendies actifs dans le méga-feu de Wollemi le 4 janvier 2020 avec des zones brûlées et des refuges clairement visibles. e Taxons affectés par la famille et le type d'habitat de forêt tropicale (RF + + = rainforest, RF + = semi-forêt, RF = marges de la forêt tropicale, tous les autres& #x02009= non forêt tropicale = RF−). Le diagramme circulaire interne contient des données uniquement pour les espèces RF + + , RF +  et RF. Ap =𠂚pocynaceae, Ar =𠂚raliaceae, As =𠂚steraceae, Cu =𠂜unoniaceae, Cy =𠂜yperaceae, Di = 𠂝illeniaceae, El x02009=𠂞laeocarpaceae, Er =𠂞ricaceae, Eu =𠂞uphorbiaceae, Fa =�, Go = Goodeniaceae, La = Lamiaceae, Lau =  Lauraceae, My = Myrtaceae, Ou = Orchidaceae, Pl = Plantaginaceae, Po = Poaceae, Pr = Proteaceae, Re =&# x02009Restionaceae, Rh = Rhamnaceae, Ru = Rutaceae, So = Solanaceae, Za = Zamiaceae, Oth = other. F Nombre d'espèces par type de vie MS =𠂚rbustes moyens, LS =𠂚rbustes bas, TS =𠂚rbustes de grande taille, GF = herbacées vivaces géophytiques, PF =&# x02009autres plantes herbacées vivaces, PG = graminoïdes vivaces, LT =𠂚rbres bas, MT =𠂚rbres moyens, EP/CL = épiphytes et plantes grimpantes, AF/AG =& #x02009herbes et herbes herbacées annuelles, S/TFC =𠂟ougères et cycadales courtes et hautes, TT =𠂚rbres de grande taille, AQ =𠂚quatique (descriptions complètes dans ‘Methods’). arbustes bleus = , arbres =  orange, = herbes vivaces et graminoïdes jaunes, et =𠂚utres groupes. g Proportion brûlée (PFM) d'espèces endémiques de forêt tropicale humide (RF++), de semi-forêt tropicale (RF+), de marge de forêt tropicale humide (RF) et de non-forêt tropicale (RF-). Les dénombrements d'espèces sont indiqués sous les données pour chaque type d'habitat. Les charnières médianes, inférieures et supérieures de chaque boîte à moustaches correspondent respectivement à la médiane et aux premier et troisième quartiles, tandis que les moustaches s'étendent jusqu'à la valeur la plus élevée ne dépassant pas 1,5 fois l'intervalle interquartile. Les points de données sont représentés par de petits cercles avec des valeurs aberrantes remplies en noir, les moyennes des groupes d'habitats sont représentées par de grands cercles noirs. Les différences globales entre les groupes étaient significatives (Kruskal–Wallis χ 2  =�.5, df =𠂓, P <𠂐.001) différences significatives entre les groupes par paires (P <𠂐.05) basé sur des tests de somme de Wilcoxon bilatéraux sont affichés en haut du panneau. h Peuplement d'espèces rares et endémiques à formation de mallee Eucalyptus imlayensis sur le mont Imlay, côte sud NSW. Images de (c) M. Fagg, () Application Worldview Snapshots de la NASA (https://wvs.earthdata.nasa.gov), qui fait partie du système de données et d'information du système d'observation de la Terre, et (h) M.Crisp. ©Jardins botaniques nationaux australiens, 1978.

Tableau 1

Impact des feux de brousse de 2019 sur les types de végétation dans la zone d'étude. Sont indiqués les zones brûlées (FGje milliers d'hectares) et en pourcentage du total (PFT) dans les 11 biorégions et dans quatre biorégions côtières et quasi-côtières. Seuls les principaux groupes de végétation 㹐 % brûlés (PFT >�%) et avec un score d'impact (jeH) >𠂐.25 (voir ‘Methods’) dans au moins une biorégion individuelle sont affichés.

Végétation large type a Biorégions regroupéesBiorégions individuelles d
CodeGroupe de végétation majeur (MVG)Toutes les biorégions b Biorégions côtières c AUANANRAPPORTERNNCSECONDESEHSEQSYB
FGjePFTFGjePFTFGjeFGjeFGjeFGjeFGjeFGjeFGjeFGje
Forêts tropicales et bosquets de vigne
1Forêts tropicales et bosquets de vigne328.9033.0244.6558.6 13.06 C 175.97D 32.70D
Forêt d'eucalyptus et forêts
2Forêts ouvertes hautes d'eucalyptus1357.3353.01116.9756.0 11.40B 144.24 C 753.62 C 152,76D 80.42 C
3Forêts ouvertes d'eucalyptus3849.5433.62246.0664.4 479.76 C 816,58D 700.48C
4Forêts ouvertes basses d'eucalyptus102.3356.784.7858.4 18.89 C 65.04D 0,57 E 1.05D 9.55 D
5Bois d'eucalyptus1899.5417.9904.3152.3 389,82D
11Forêts ouvertes d'eucalyptus129.1410.944.8936.4 0,03 A 11.52D 33,00 C
Le total7337.8828.24397.0058.8 1,323,74 C 1 360,56 D 1 245,70 C
Autres forêts et zones boisées
6Forêts et forêts d'acacias41.244.112.3968.90,013 C 12.32D 2.15 F 0,01 B
9Forêts et terres boisées de Melaleuca33.8425.27.2029.2 0,17 E
10Autres forêts et zones boisées38.1953.833.4070.7 33.07D
13Forêts ouvertes d'acacia0.040.60.04100 0,04 A
15Forêts basses fermées et hautes terres arbustives fermées14.1013.50.1427.7 0,55D
Le total248.968.5100.8538.4 46.56D
Arbustes et landes
14Forêts et arbustes de Mallee19.537.512.8179.4 4.27 A 6,99 B
16Arbustes d'acacias2.8713.81.3424.8 0,20 B
17Autres Arbustes20.2012.711.5431.1 1,93 B
18Landes175.155.6148.9068.1 3,64 A 12.30D 10,59 B 128.08 B
Le total217.7428.9174.5963.0 11.95D 137.04 B
Prairies, Herbes, Caraibes, Rushlands
19Prairies en touffes26.383.40.9314.0 0,06 C
21Autres prairies, herbages, carex et joncs32.520.311.2242.0 5,25 A
Le total59.126.2412.436.2 5,31 A

a Les principaux groupes de végétation du NVIS (les noms et les codes du NVIS sont indiqués pour chacun) ont été regroupés en quatre grands types de végétation. La liste complète des MVG dans chaque grand type de végétation est fournie dans le tableau supplémentaire  1 .

b Les biorégions incluses dans l'étude étaient les suivantes : Alpes australiennes (AUA), Brigalow Belt South (BBS), Nandewar (NAN), New England Tablelands (NET), NSW North Coast (NNC), NSW South Western Slopes (NSS), South East Plaine côtière (SCP), South East Corner (SEC), South Eastern Highlands (SEH), Sud-Est du Queensland (SEQ) et Sydney Basin (SYB).

Nos données indiquent également que la température du point chaud variait considérablement dans tous les incendies majeurs (Fig.  1b). Près de la moitié de toutes les cellules de la grille (46 %) contenaient une température relative de point chaud d'incendie très élevée ou élevée (TR voir ‘Méthodes’). Ceux-ci se sont souvent produits le long des bords ouest des méga-incendies, en particulier dans le nord et le centre de la Nouvelle-Galles du Sud (Fig.  1b). À l'inverse, des zones non brûlées d'une superficie de � ha ont été détectées à l'intérieur de tous les mégafeux (Fig.  1b ), généralement entourées de vastes zones de température de feu plus basse. Analyse d'une métrique d'impact spatial, jeH, sur la base du pourcentage estimé de la superficie dans les catégories de température d'incendie relative très élevée et élevée (TR >𠂐.50), prédit que 17 groupes de végétation majeurs australiens 7 ont été gravement touchés, souffrant à la fois d'incendies étendus (PFT >�%) et des températures de feu relativement élevées (jeH >�%, Tableau  1 ) dans une ou plusieurs biorégions. Les forêts claires d'eucalyptus hautes (1,14 mha dans cinq biorégions), les forêts ouvertes d'eucalyptus (2,0 mha dans trois biorégions), les forêts d'eucalyptus (0,39 mha dans une biorégion), les forêts tropicales et les bosquets de vignes (0,22 Mha dans trois biorégions) et les landes (0,16 Mha dans quatre biorégions Tableau 1). Encore une fois, les biorégions côtières et quasi-côtières ont été les plus touchées : ici, 10 MVG ont subi chacune 50 % de leur superficie totale brûlée et 15 ont subi des incendies chauds généralisés (jeH >�%) dans au moins une biorégion (Table  1 ). Les images satellites montrent clairement le spectaculaire brunissement au niveau du paysage qui a suivi les incendies de l'été noir dans ces régions, la perte de la majeure partie de la canopée boisée ne laissant qu'une mosaïque de zones non brûlées plus petites (Fig.  2d ).

L'ampleur des incendies et l'étendue des types de végétation touchés pendant la saison des incendies 2019� ont des implications pour la conservation de la biodiversité à la fois en Australie et dans le monde. Bon nombre de ces écosystèmes comprennent un hotspot de biodiversité d'importance mondiale 9 , 10 avec une richesse, une rareté, un endémisme et une phylodiversité élevés parmi les protéacées 6 , les astéracées 11 , les conifères 12 , les eucalyptus 13 , les bryophytes 14 et d'autres groupes de plantes 15 , 16 . La région contient également des espèces de forêt pluviale relictuelle et subtropicale du Gondwana tempéré frais qui ont subi un défrichement important au cours des dernières décennies 9 et dont l'aire de répartition est aujourd'hui très restreinte et fragmentée 17 . Ils abritent divers assemblages de faune rare ou menacée qui souffrent également d'un déclin démographique en cours 18 .

Impacts sur les taxons de plantes vasculaires

Nous avons quantifié l'impact des incendies de Black Summer sur les taxons de plantes vasculaires indigènes du sud-est de l'Australie continentale à l'aide de données d'occurrence spatiale d'espèces � téléchargées à partir de l'Herbier virtuel d'Australasian 19 . Les estimations de la proportion de populations ou de répartitions géographiques brûlées (PF) ont été élaborées sur la base d'enregistrements de localisation de spécimens uniques (PFRS), les enregistrements d'emplacement des spécimens regroupés dans une grille raster de 2,5 x𠂒,5 km pour réduire le biais de suréchantillonnage (PFBR), et pour les espèces avec des enregistrements de localisation uniques �, des plages construites à partir de modèles de distribution d'espèces basés sur l'entropie maximale (MaxEnt) (PFSDM). Nous avons adopté l'approche prudente consistant à utiliser la valeur maximale de toutes les estimations de PF disponibles (PFM) comme notre estimation de l'impact du feu pour les taxons individuels, représentant ainsi une limite supérieure du nombre de taxons touchés (voir ‘Methods’). Nous avons utilisé le critère de PFM >𠂐.50 pour identifier les taxons fortement touchés par le feu (c.-à-d. 㹐 % des populations ou des aires de répartition brûlées).

Nos données indiquent que 816 espèces de plantes vasculaires du sud-est de l'Australie continentale ont été fortement touchées par les incendies de l'été noir (données supplémentaires), dont 325 et 173 à 㹵% (PFM >𠂐.75) et 㺐% brûlé (PFM >𠂐.90), respectivement. Toutes les populations connues d'environ 116 espèces (14% du total) ont brûlé, ce qui est plus du double du nombre d'espèces végétales endémiques des îles britanniques. Parmi les 816 espèces, le soutien au PFM les estimations étaient solides pour 80 % des taxons (m =�) avec au moins deux des PFRS, PFBR ou PFSDM dépassant le critère d'inclusion PF >𠂐.50. Les taxons restants ont été inclus uniquement sur la base de PFRS (m =�), PFBR (m =�) ou PFSDM (m =�) dans la plupart des cas, les estimations alternatives de FP étaient juste en dessous du seuil de 0,50 (données supplémentaires  2 ).

L'ampleur des incendies se reflète à la fois dans la diversité des familles végétales (m =�) et les formes de vie affectées. Les taxons non trouvés dans les forêts tropicales humides (RF-) représentaient 88 % de la flore (m =� espèce Fig.  2e ), parmi lesquelles les Myrtacées (m =� espèces dont 65 Eucalyptus spp.), Fabacées (m =� dont 50 Acacia spp.), Proteaceae, Orchidaceae, Asteraceae et Rutaceae étaient les plus spécifiques (43&# x0201371 taxons chacun Fig.  2e ). Ces taxons se trouvent dans une gamme d'habitats, mais nous estimons qu'au moins 89 % se trouvent principalement dans les forêts sclérophylles et les bois (m =�) ou des landes ou des broussailles (m =�) ou dans les deux (m =�). La plupart des autres se trouvent dans les marécages et la végétation non ligneuse (Données supplémentaires  2 ). Parmi les espèces à prédominance de forêt tropicale, de semi-forêt tropicale et de bordure de forêt tropicale (RF++, RF+ et RF, respectivement), les orchidées et les membres des Apocynaceae, Solanaceae et Lamiacées étaient également divers (Fig.  2e). La présence d'anciennes lignées de forêt tropicale humide du Gondwana (par exemple, Argophyllaceae, Cunoniaceae, Elaeocarpaceae, Lauracées, Proteaceae, Trimeniaceae et Winteraceae Fig.  2e ) soutient également les craintes initiales 20 que la conservation des taxons reliques de la forêt tropicale humide du Gondwana pourrait être menacée par l'été noir. les feux. Notamment, cependant, les taxons de forêt tropicale (RF++) ne comprennent que m =� espèces (3% du total), dont 24 sont endémiques à la zone d'étude (Fig.  2e ). Les taxons de semi-forêt tropicale et de marge de forêt tropicale humide, dont la majorité se trouvent également dans les forêts humides sclérophylles, contribuent à 72 taxons supplémentaires.

Les formes de vie les plus touchées étaient dominées par les arbustes du sol et du sous-étage, avec des formes basses ou prostrées (ρ m de haut), moyennes (1𠄳 m) et hautes (ϣ𠄷 m de haut, dont eucalyptus mallee), dont 62 % (m =� espèces) de tous les taxons avec PFM >𠂐.50 (Fig.  2f ). Sur le reste des arbres plus courts (7� m), les plantes herbacées non géophytes vivaces, les géophytes et les graminoïdes représentaient chacun environ 7% du total (Fig.  2f ). La plupart des formes de vie étaient représentées dans tous les principaux types d'habitats, à l'exception des espèces annuelles, des plantes herbacées géophytes et des arbres plus grands (㸵 m), qui étaient presque absents des forêts tropicales humides, et des épiphytes et des plantes grimpantes, qui étaient répandus ou entièrement limités à eux (tableau supplémentaire  2 ). Malgré ces différences mineures, les incendies ont clairement touché un large éventail d'espèces qui contribuent à la fois à la diversité floristique et à l'hétérogénéité de l'habitat des forêts et des terres boisées à l'échelle locale à biorégionale. Ces caractéristiques sous-tendent les services écosystémiques cruciaux qui incluent la production de biomasse et la séquestration du carbone 21 , 22 , les interactions surface-atmosphère 23 et la fourniture d'aliments et d'habitats pour les assemblages d'animaux 24 &# x02013 26 , et les changements transformationnels dans ces processus sont susceptibles d'être de grande importance à la suite des incendies.

Implications pour la biogéographie de conservation

Pour comprendre les implications des feux de Black Summer pour la conservation à des échelles biogéographiques plus larges 27, nous avons étudié les relations entre la taille de l'aire de répartition des plantes, les caractéristiques des espèces et l'emplacement et l'étendue des feux de Black Summer. Tout d'abord, nous avons déterminé l'étendue géographique maximale (RET) de tous les taxons de plantes vasculaires endémiques de la zone d'étude et avec PFM >� % basé sur les enregistrements de spécimens (m =� espèces).Ces données (Fig.  3a ) révèlent un fort biais positif (Skewness =𠂑.66, test de normalité de Shapiro-Wilk W =𠂐.803, P <𠂐.001) envers les espèces à aire de répartition restreinte : 14 % (m =�) avait extrêmement (RET <� km) ou de très petites portées (RET =�� km) et 143 autres (20 %) avaient une autonomie de 25� km. La présence d'une relation triangulaire entre RET et PFM et en particulier une forte relation linéaire inverse (P <𠂐.001) au quantile de 0,90 (voir les notes supplémentaires) montre que, parmi la flore touchée, les espèces endémiques rares étaient plus susceptibles de subir des brûlures dans la plupart ou la totalité de leurs aires de répartition. En effet, les espèces extrêmement et très restreintes ont subi des incendies sur une moyenne de 90�% de leurs aires de répartition contre 57�% pour les espèces les plus répandues (RET >� km Fig.  3b Notes supplémentaires). La présence d'une variation significative du FPM parmi 8 ER en augmentationT classes d'échelle (Kruskal&# x02013Wallis rank-sum test χ 2  =�.4, df =𠂗, P <𠂐.001 Fig.  3b ) appuie davantage cette conclusion.

une Taxons endémiques à la zone d'étude classés selon l'étendue maximale de leur aire de répartition (distance maximale entre les emplacements des spécimens RET oui-axe). RE supérieurT limites et nombre d'espèces pour aire de répartition très restreinte (㰥 km, VRR), aire de répartition restreinte (25� km, RR), modérément répandue (100� km, MW), très répandue (500�& #x02009km, VW) et extrêmement répandu (1000� km, EW) sont affichés. L'étendue maximale approximative de trois mégaincendies allant de petit (mégafeu de Namadgi, 0,17 Mha) moyen (mégafeu de Wollemi, 1,1 Mha) et très grand (complexe de Northern Rivers-Mid North 2,66 Mha est indiqué (cf. Fig.   1 ). b Relation entre la taille de la plage (RET) et la proportion brûlée (PFM) pour les taxons endémiques, montrant une augmentation du FPM avec une taille de gamme décroissante. Les différences entre les catégories de taille des aires de répartition étaient significatives (test de la somme des rangs de Kruskal–Wallis χ 2  =�.4, df =𠂗, P <𠂐.001) basé sur m =� espèces réparties dans huit classes de taille de l'aire de répartition. Pour chaque boîte à moustaches, les charnières médiane, inférieure et supérieure correspondent respectivement à la médiane et aux premier et troisième quartiles, tandis que les moustaches s'étendent jusqu'à la valeur la plus élevée 𢙁,5 fois l'intervalle interquartile. Les points de données sont affichés sous forme de petits cercles avec les valeurs aberrantes remplies en noir, les moyennes de groupe sont affichées sous forme de grands cercles remplis. c Variation de l'étendue de l'aire de répartition avec la forme de vie des espèces endémiques (à l'exclusion des espèces aquatiques m =𠂑). Les acronymes des formes de vie sont comme dans la Fig.  2f . Les boîtes à moustaches ont été construites comme dans la figure. Les dénombrements d'espèces sont indiqués sous chaque groupe. Les différences entre les formes de vie étaient significatives (test de la somme des rangs de Kruskal–Wallis χ 2  =�.2, df =�, P <𠂐.001) basé sur m =� espèces dans 12 classes de formes de vie. Les différences significatives entre les groupes déterminées à l'aide de deux tests de Wilcox par paires étaient : PG vs GF, LS et MS (tous 0,01 > P >𠂐.001) et EP/CL contre GF, LS (0,01 > P >𠂐.001), MS (P =𠂐.016), LT (P =𠂐.018) et TS (P =𠂐.049). Aucune autre différence n'était significative au critère 0,05. Cadre conceptuel pour les réponses des espèces aux feux de l'été noir en fonction de la taille de l'aire de répartition (répandue par rapport à l'aire de répartition restreinte), de la persistance du feu (non persistant = red, persistant =𠂛lue) et de l'habitat (H’& #x02009= historique d'incendie fréquent, H” = historique d'incendie peu fréquent ou nul). Les espèces de types A et D ont respectivement une petite et une grande aire de répartition et se trouvent dans des paysages sujets aux incendies. Les types B, C et E se produisent dans des paysages moins sujets aux incendies qui ont été fortement brûlés en 2019�. Les incendies de Black Summer étaient probablement sans précédent pour les types B&# x02013E.

Analyse de la variation des ERT indiquent également des différences significatives dans l'étendue de l'aire de répartition entre les catégories de formes de vie (Fig.  3c Kruskal–Wallis rank-sum test χ 2  =�.2, df  =�, P <𠂐.001), avec des épiphytes, des plantes grimpantes et des graminoïdes vivaces qui ont tendance à avoir des aires de répartition plus étendues que les arbustes, les arbres bas et les plantes herbacées géophytes. La relation entre les ER groupéesT les classes de taille et les catégories de formes de vie (tableau supplémentaire  3 et notes supplémentaires) montrent également une forte contingence (χ 2  =�.1, df =�, P <𠂐.001) entre ces variables, les arbustes moyens et bas étant plus susceptibles d'avoir des aires endémiques étroites (㰥 km) et/ou moins susceptibles d'avoir une aire de répartition modérée (100� km) à grande (𾔀 km Fig.  3c et notes supplémentaires). Ces données sont largement cohérentes avec les études antérieures 28 qui montrent une prévalence d'espèces avec des aires de répartition petites et menacées parmi les familles de plantes d'Australie orientale riches en arbustes (par exemple, Myrtaceae, Fabaceae, Lamiaceae, Proteaceae, Rutaceae et Ericaceae).

Cartographie des populations brûlées de taxons endémiques avec des aires de répartition très petites à extrêmement petites (RET <� km) montre que la plupart étaient concentrés dans un petit nombre de points chauds d'impact de l'extrême sud du Queensland au sud-est de la NSW, notamment dans les Border Ranges, la région de Washpool-Gibraltar du nord de la NSW, le Wollemi-Blue Zone de montagnes à l'ouest de Sydney et chaînes isolées dans le sud de la Nouvelle-Galles du Sud (Fig.  4a). Les refuges non brûlés restants pour ces taxons sont maintenant petits et isolés, dont le plus riche en espèces semble se trouver à l'intérieur du parc national des Blue Mountains (Fig.  4a). Taxons à aire de répartition restreinte (RET =�� km) ont été touchés de la même manière, mais avaient des points chauds d'impact et des refuges plus nombreux et plus importants (Fig.  3a ). Ces modèles démontrent clairement les implications émergentes sur la biodiversité des méga-incendies qui dépassent collectivement la taille des aires de répartition des espèces locales, s'étendent sur plusieurs biorégions et se situent dans des zones de grande diversité végétale et d'endémisme. En revanche, le grand nombre et l'étendue des refuges non brûlés pour les taxons très répandus (Fig.  4b) et modérément répandus (Fig.M (50�%, Fig.  3b ) et indique un niveau plus élevé de résilience aux incendies de cette échelle.

Sont montrées : des cartes brûlées et non brûlées pour les espèces à aire de répartition très restreinte (une étendue de portée maximale (RET) <� km comprend des espèces à aire de répartition extrêmement restreinte avec RET <� km), espèce très répandue (bT >� km comprend des espèces extrêmement répandues avec RET >� km), taxons de forêt tropicale (c RF++), taxons de semi-forêt tropicale (RF+) et de marge de forêt tropicale (RF) (), les espèces qui persistent après le feu (e) et les espèces qui ne persistent pas après le feu (F). Les points chauds de richesse en espèces brûlées sont : A =𠂛order Ranges, B = Washpool-Gibraltar Range, C = Wollemi – Blue Mountains, D = Torrington, E  = Guy Fawkes, F =𠂛udawang, G = Nightcap Range, H = Kumbatine-Willi Willi, I =𠂜oin Sud-Est. Les refuges non brûlés sont : 1 = Parc national des Blue Mountains, 2 = Springbrook–Lamington-Mt Jerusalem–Nightcap, 3 = Sundown-Donnybrook, 4 = Parc national de la Nouvelle-Angleterre à l'est de Bellingen, 5 =�rrington Tops, 6 = Sydney-Budderoo-Macquarie Pass, 7 = South East Corner.

Des taxons de forêt tropicale ont été brûlés dans cinq principaux points chauds de richesse du nord-est de la Nouvelle-Galles du Sud (Fig. Des concentrations de taxons brûlés se sont produites dans les régions Main Range, Nightcap Range et Gibraltar-Washpool, qui constituent ensemble une partie vitale des forêts tropicales du Gondwana d'Australie, classées au patrimoine mondial 29 . Les refuges non brûlés contenant ces espèces se trouvent maintenant principalement dans la région de Springbrook-Lamington-Mt Jerusalem-Nightcap, une partie du parc national de la Nouvelle-Angleterre et les Barrington Tops (Fig.  4c). Des zones particulièrement riches d'espèces brûlées de semi-forêt tropicale et de marge de forêt tropicale se trouvaient plus au sud dans la Nouvelle-Galles du Sud (Fig.  4d). Alors que les espèces des forêts tropicales humides et semi-tropicales semblaient avoir des aires de répartition généralement plus étendues que les autres taxons (analyse de la variance F =𠂔.7 df =𠂓, 696 P =𠂐.003 moyenne RET des espèces RF+ et RF- diffèrent au niveau P <𠂐.01, voir les notes supplémentaires) et avait une proportion significativement plus faible de ces brûlures (Kruskal–Wallis rank-sum test χ 2  =�.5, df =𠂓, P <𠂐.001 Fig.  2g ), la petite taille et la distribution disjointe de ces refuges sont préoccupantes, et leur protection et leur gestion peuvent désormais être une priorité. Les refuges non brûlés riches en espèces pour la flore non forestière plus diversifiée étaient comparativement nombreux et étendus (Fig. supplémentaire.  3c).

Malgré les impacts potentiels immédiats sur la végétation du sud-est de l'Australie révélés dans cette étude, la capacité de nombreuses communautés végétales et espèces à se rétablir et à se régénérer après des méga-incendies de cette ampleur reste mal comprise 30 – 32 . Comme nous l'avons montré, la taille des aires de répartition des espèces (Fig.  3a, b) et la position géographique des incendies (Fig.  2a et 4a𠄽) ont toutes deux joué un rôle important dans la détermination de la diversité et composition de la flore touchée par le feu. L'impact démographique des incendies sur des taxons spécifiques dépendra également de leur capacité à survivre et à se remettre d'un incendie (c. sensu Pausas et al. 33 ). La figure 3d contient un cadre spatio-temporel simple qui intègre ces concepts, dans lequel des espèces persistantes et non persistantes de feu à aire de répartition restreinte et répandue se trouvent dans des habitats avec des antécédents de feu différents. Ici, nous utilisons ce cadre pour étudier les implications des incendies pour cinq types de taxons différents.

Nos données montrent que la majorité des espèces affectées par les incendies se trouvent principalement dans les forêts et les zones boisées sclérophylles ou les zones arbustives et les landes (Données supplémentaires  2 et Fig.  3d ). Le feu fait naturellement partie de ces écosystèmes et de nombreuses espèces sont hautement adaptées au feu avec des caractéristiques telles qu'une banque de graines stockées dans le sol 34 , des cônes ou des fruits sérotineux 35 , la germination des graines induite par la fumée et/ou la chaleur 36 , 37 , le feu floraison cueillie 38 , écorce basale protectrice épaisse 39 , bourgeons épicormiques ou lignotubercules souterrains qui protègent contre le feu et/ou assurent une récupération ultérieure 40 . Les preuves provenant de 270 espèces de notre étude confirment ce schéma : 251 (93 %) dans 93 genres seraient des persistants du feu qui peuvent repousser ou se régénérer via des propagules après le feu, ou les deux (Fig.  4e et données supplémentaires  3 ). Parmi ceux-ci se trouvent de nombreux taxons endémiques rares tels que certains eucalyptus (Fig.  2h ), arbustifs Acacia, Callistemon, Grevillea et Ziéria, et les orchidées tubéreuses Corunastylis et Paraprasophyllum. Bien qu'ils aient de petites aires de répartition sujettes aux incendies, ces taxons persistants (type A sur la figure 3d) semblent s'être généralement bien rétablis d'autres feux de brousse récents dans le sud-est de l'Australie 41 , et pour ceux-ci, les feux de l'été noir sont il est peu probable qu'ils représentent un événement sans précédent, à moins qu'ils n'aient subi une contraction récente de leur aire de répartition. Beaucoup se trouvent également dans des habitats rocheux (falaises, tors de granit, etc., Fig. supplémentaire  3e ) ou dans des ravins ou des gorges (Données supplémentaires  2 ) qui offrent une certaine protection contre le feu.

En revanche, pour les espèces endémiques largement répandues avec des aires de répartition de 500 & 02009 km ou plus (m =� Fig.  3a ) les conséquences démographiques des incendies de 2019-2020 sont probablement sans précédent au cours des deux derniers siècles au moins. Alors que la majorité sont également susceptibles d'être des persistants du feu (type D sur la figure 3d et données supplémentaires), ils sont maintenant exposés à de nouvelles menaces à l'échelle de l'aire de répartition pendant la phase de rétablissement -récupération d'incendie causé par la rouille du myrte (Austropuccinia psidii) 42 , l'herbivorie des repousses par les animaux envahissants, et la sécheresse. Les taxons de la forêt tropicale capables de survivre au feu mais incapables de rivaliser avec l'incursion ultérieure de mauvaises herbes ou d'espèces sclérophylles (type B sur la figure 3d) peuvent subir une pression similaire 43 , 44 . Obliger l'ensemencement d'espèces ligneuses telles que les eucalyptus frênes (ex. Eucalyptus fraxinoides) sont susceptibles d'être menacées si les feux reprennent avant la fin de leurs périodes de maturation sexuelle généralement longues 45 , 46 .

Enfin, les plantes à aires de répartition étroites ou étendues qui dépendent de la recolonisation via la dispersion de propagules à partir de zones non brûlées (feu non persistants de types C et E Fig.  3d) sont clairement menacées de déclin démographique et de contraction de l'aire de répartition 47 , 48 . Parmi celles identifiées (données supplémentaires) la plupart étaient des orchidées géophytes avec des structures spécialisées qui sont endommagées par le feu (par exemple, des tubercules peu profonds dans Caladenia 49 et Chiloglottis), des arbustes dispersés par le vent ou des épiphytes obligatoires qui n'ont pas de banque de graines (par exemple, les orchidées Dockrillia et Plectorrhize). Des points chauds de richesse d'impact notable pour ces taxons se sont produits dans les forêts tropicales humides du nord-est, les aires de répartition sud et l'extrême sud-est de la Nouvelle-Galles du Sud (Fig.  4f), et bien qu'aucune espèce endémique de la zone d'étude n'ait de très petites aires de répartition RÉT <� km), des populations de certains épiphytes se trouvent maintenant apparemment dans des parcelles de forêt tropicale très isolées (Fig. supplémentaire  3f ). Un petit nombre, mais important sur le plan de l'évolution, de reliques de la forêt tropicale du Gondwana sensibles au feu 50 , 51 et d'autres espèces de la forêt tropicale peuvent également être confrontés au déclin, en particulier dans les habitats, qui brûlent rarement, voire jamais. Certains de ces taxons sont connus pour produire des rejets 52 ou se régénérer à partir de graines 53, mais pour la plupart, une étude plus approfondie de ces caractères est requise de toute urgence.

Dans l'ensemble, il y a lieu d'être prudent sur le fait que la plupart des espèces végétales identifiées ici se remettront de tout sauf du feu le plus intense 54 – 58 . Malgré cette résilience, cependant, des preuves récentes provenant d'écosystèmes forestiers à l'échelle mondiale suggèrent que les incendies catastrophiques catalysent de plus en plus des changements spectaculaires dans la composition des espèces dans de vastes zones 59 , 60 . Dans les cas les plus extrêmes, des points de basculement sont atteints, entraînant des transitions de la végétation forestière à la végétation non forestière 61 . L'altération de la régénération après un incendie a été spécifiquement liée aux seuils de déficit de pression de vapeur, d'humidité du sol et de température de surface maximale 1 , 31 , ainsi qu'à l'intensité du feu et à la disponibilité des graines 1 , 62 . Ceci est particulièrement préoccupant car une grande partie de la végétation affectée par les incendies de l'été noir souffrait déjà d'une sécheresse extrême, de températures record (figure supplémentaire) et d'un dépérissement inégal de la canopée avant le début de la saison des incendies 2019-2020. Même en l'absence d'incendie, ces facteurs peuvent entraîner des changements rapides dans la dynamique et la répartition des écosystèmes forestiers 2 , 63 , 64 . Dans les régions où les feux de Black Summer ont brûlé des zones qui ne s'étaient remises que récemment des feux précédents, l'augmentation de la fréquence des feux sera un facteur de stress supplémentaire 58 . Les communautés de la forêt tropicale australienne du Gondwana (Fig.  2c ), qui ont été gravement brûlées dans plusieurs biorégions (Fig.  1 et Tableau  1 ), sont probablement les plus sensibles. En outre, nos données indiquent que la vaste échelle des feux de brousse de 2019-2020 a causé des pertes importantes d'individus matures à un éventail taxonomiquement diversifié d'espèces avec des aires de répartition sous-continentales, les rendant potentiellement sensibles à d'autres facteurs tels que la maladie 65 , l'herbivorie et perturbation. Collectivement, ces facteurs sont tous susceptibles d'avoir épuisé la résilience de certains écosystèmes forestiers face à des incendies de la gravité et de l'ampleur de ceux subis pendant l'été noir. Des travaux supplémentaires sont maintenant nécessaires pour déterminer s'ils peuvent maintenant subir un échec régénératif et un changement biogéographique permanent.


Affiliations

Centre for Australian National Biodiversity Research, CSIRO National Research Collections Australia, Canberra, ACT, Australie

Robert C. Godfree, Nunzio Knerr, Francisco Encinas-Viso, Cécile Gueidan, Alexander Schmidt-Lebuhn et Linda M. Broadhurst

Centre for Australian National Biodiversity Research, Australian National Botanic Gardens, Canberra, ACT, Australie

David Albrecht, D. Christine Cargill, Mark Clements, Lydia K. Guja & Brendan Lepschi

Australian Tree Seed Centre, CSIRO National Research Collections Australia, Canberra, ACT, Australie

CSIRO Terre et Eau, Canberra, ACT, Australie

Australian National Wildlife Collection, CSIRO National Research Collections Australia, Canberra, ACT, Australie

Herbier tropical australien, James Cook University, Cairns, Queensland, Australie

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

L.M.B. et R.G. conçu à partir des questions de recherche initiales. Tous les auteurs ont participé à un atelier pour identifier la portée du travail. R.G., L.M.B. et F.E-V. développé davantage la portée et la structure de la recherche D.B., D.C.C., M.C., L.J., A.S-L., B.L., C.G., L.G., T.H. et K.N ont contribué au développement de thèmes biogéographiques, écologiques et taxonomiques. N.K. conduit, et R.G. contribué à coder tout au long de l'étude. N.K. et R.G. analysé la base de données des hotspots et N.K., R.G. et L.M.B. développé la carte des feux. N.K., R.G. et D.A ont développé la base de données de spécimens d'herbier. D.A., D.C.C., C.G., M.C., B.L. et K.N. fourni une expertise taxonomique. R.G., D.A., M.C., L.G. et B.L. développé la base de données sur les caractéristiques et le cycle de vie des espèces végétales. N.K. et R.G. ont analysé l'impact spatial des incendies sur les couches de végétation et les taxons individuels. E. apport d'expertise pour la modélisation Maxent. R.G. métriques développées et le modèle conceptuel rapporté dans le document. R.G. et F.E.-V. effectué des analyses statistiques. Tous les auteurs ont ensuite apporté leur expertise taxonomique, biogéographique ou écologique à l'interprétation des données. R.G. dirigé et tous les auteurs ont contribué à l'élaboration des premières versions révisées et finales de l'article.

Auteur correspondant


3.3.8 : Plongée de données - Populations de renards insulaires - Biologie

Ce registre existe pour aider les utilisateurs à découvrir et à partager des ensembles de données disponibles via les ressources AWS. En savoir plus sur le partage de données sur AWS.

Rechercher des ensembles de données (actuellement 13 ensembles de données correspondants)

Ajouter à ce registre

Si vous souhaitez ajouter un ensemble de données ou un exemple d'utilisation d'un ensemble de données à ce registre, veuillez suivre les instructions du registre des données ouvertes sur le référentiel AWS GitHub.

Sauf indication contraire dans la documentation de l'ensemble de données applicable, les ensembles de données disponibles via le Registre des données ouvertes sur AWS ne sont pas fournis et maintenus par AWS. Les ensembles de données sont fournis et maintenus par divers tiers sous diverses licences. Veuillez vérifier les licences d'ensemble de données et la documentation connexe pour déterminer si un ensemble de données peut être utilisé pour votre application.

L'atlas du génome du cancer

cancer génomique sciences de la vie STRIDES séquençage du génome entier

Le Cancer Genome Atlas (TCGA), une collaboration entre le National Cancer Institute (NCI) et le National Human Genome Research Institute (NHGRI), vise à générer des cartes complètes et multidimensionnelles des principaux changements génomiques dans les principaux types et sous-types de cancer. Le TCGA a analysé les tissus tumoraux et normaux appariés de 11 000 patients, permettant la caractérisation complète de 33 types et sous-types de cancer, dont 10 cancers rares. L'ensemble de données contient un supplément clinique ouvert, un supplément de biospécimen, une quantification d'expression de gène RNA-Seq, une quantification d'expression d'isoforme miRNA-Seq.

Exemples d'utilisation

  • Cancers TCGA sélectionnés pour une étude par le National Cancer Institute
  • Archive héritée de la GDC par l'Institut national du cancer
  • Cancer Genomics Cloud par Seven Bridges
  • Le paysage d'accessibilité de la chromatine des cancers humains primaires par M. Ryan Corces, Jeffrey M. Granja, et al.
  • L'apprentissage automatique identifie les caractéristiques de tige associées à la dédifférenciation oncogène par Tathiane M. Malta, Artem Sokolov et al.

Recherche thérapeutiquement applicable pour générer des traitements efficaces (TARGET)

cancer génomique sciences de la vie STRIDES séquençage du génome entier

La recherche thérapeutiquement applicable pour générer des traitements efficaces (TARGET) est l'effort de collaboration d'un vaste consortium diversifié d'investigateurs extra-muros et du NCI. L'objectif de cet effort est d'accélérer les découvertes moléculaires qui entraînent l'initiation et la progression de cancers infantiles difficiles à traiter et de faciliter la traduction rapide de ces découvertes en clinique. Les projets TARGET fournissent une caractérisation moléculaire complète pour déterminer les changements génétiques qui entraînent l'initiation et la progression des cancers infantiles. L'ensemble de données contient un supplément clinique ouvert, Biospecimen.

Exemples d'utilisation

  • Mutations récurrentes des homéodomaines DGCR8, DROSHA et SIX dans les tumeurs de Wilms à histologie favorable par Walz AL, Ooms A, Gadd S, et al.
  • Les profils à l'échelle du génome des tumeurs rhabdoïdes malignes extra-crâniennes révèlent une hétérogénéité et des voies de développement dérégulées par Chun HJ, Lim EL, Heravi-Moussavi A, et al.
  • Le paysage moléculaire de la leucémie myéloïde aiguë pédiatrique révèle des altérations structurelles récurrentes et des interactions mutationnelles spécifiques à l'âge par Bolouri H, Farrar JE, Triche T Jr, et al.
  • Le paysage génomique de la leucémie aiguë lymphoblastique de la lignée T pédiatrique et jeune adulte par Yu Liu, John Easton, Ying Shao, et al.
  • Cancer Genomics Cloud par Seven Bridges

Crawl commun

Internet encyclopédique apprentissage automatique traitement du langage naturel

Un corpus de données d'exploration Web composé de plus de 50 milliards de pages Web.

Exemples d'utilisation

  • Index fun par Philippe Suter
  • Common Crawl Index Athena par Edward Ross
  • Analyser des pétaoctets de sites Web par Mark Litwintschik
  • Se défendre contre les fausses nouvelles neuronales de Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, et al
  • Rechercher dans le Common Crawl à l'aide des fonctions Lambda par Andres Riancho

Sentinelle-2

agriculture intervention en cas de catastrophe observation de la terre géospatiale ressource naturelle imagerie satellitaire durabilité

La mission Sentinel-2 est une constellation de surveillance terrestre de deux satellites qui fournissent des images optiques à haute résolution et assurent la continuité des missions SPOT et Landsat actuelles. La mission fournit une couverture mondiale de la surface terrestre de la Terre tous les 5 jours, ce qui rend les données très utiles dans les études en cours. Les données L1C sont disponibles à partir de juin 2015 dans le monde. Les données L2A sont disponibles à partir de septembre 2016 sur l'ensemble de la région Europe et dans le monde depuis janvier 2017.

Exemples d'utilisation

Programme de recherche pédiatrique Gabriella Miller Kids First (Kids First)

cancer génétique génomique Homo sapiens sciences de la vie pédiatrie STRIDES anomalie congénitale structurelle séquençage du génome entier

La vision du programme de recherche pédiatrique Gabriella Miller Kids First du NIH Common Fund ("Kids First") est de "soulager la souffrance du cancer infantile et des malformations congénitales structurelles en encourageant la recherche collaborative pour découvrir l'étiologie de ces maladies et en soutenant le partage de données au sein du communauté de recherche pédiatrique. Le programme continue de générer et de partager des données sur le séquençage complet du génome de milliers d'enfants touchés par ces maladies, allant de cancers pédiatriques rares, tels que l'ostéosarcome, à des diagnostics plus courants, tels que les malformations cardiaques congénitales. En 2018, Kids Fi.

Exemples d'utilisation

  • Les génotypes microsatellites germinaux différencient les enfants atteints de médulloblastome. par Samuel Rivero-Hinojosa, Nicholas Kinney, et al.
  • Les analyses génomiques impliquent des variantes non codantes de novo dans les maladies cardiaques congénitales. par Felix Richter, Sarah U Morton, et al.
  • Portail Kids First RDC par Kids First RDC
  • Les variantes délétères de novo de ZC4H2 lié à l'X chez les femelles provoquent un phénotype variable avec arthrogrypose neurogène multiplex congénitale. par Suzanna G M Frints, Friederike Hennig, et al.
  • La microdélétion germinale 16p11.2 prédispose au neuroblastome. par Laura Egolf, Zalman Vaksman, et al.

USGS Landsat

agriculture intervention en cas de catastrophe observation de la terre ressources naturelles géospatiales imagerie satellitaire durabilité

Ce programme conjoint NASA/USGS fournit le plus long enregistrement spatial continu des terres de la Terre qui existe. Chaque jour, les satellites Landsat fournissent des informations essentielles pour aider les gestionnaires des terres et les décideurs à prendre des décisions éclairées concernant nos ressources et notre environnement. Les données sont fournies pour les Landsats 1, 2, 3, 4, 5, 7 et 8.

Exemples d'utilisation

Ressources linguistiques Sudachi

traitement du langage naturel

Dictionnaires japonais et intégrations de mots pour le traitement du langage naturel. SudachiDict est le dictionnaire d'un tokenizer japonais (analyseur morphologique) Sudachi. chiVe est un incorporation de mots japonais pré-entraînés (vecteurs de mots), entraînés à l'aide du corpus Web à très grande échelle NWJC par l'Institut national de langue et de linguistique japonaises, analysé par Sudachi.

Exemples d'utilisation

  • 形態素解析器『Sudachi』のための大規模辞書開発 par 坂本美保, 川原典子, 久本空海, 髙岡一馬, 内田佳孝
  • Tutoriel SudachiPy par Works Applications
  • Tutoriel Sudachi par Works Applications
  • Kintoki : analyseur de dépendances par les applications Works
  • sudachidict_small sur pypi.python.org - un module Python pour télécharger et installer SudachiDict pour le tokenizer python par Works Applications

Foldingathome Ensembles de données COVID-19

calculs d'énergie libre alchimique modélisation biomoléculaire coronavirus COVID-19 repliement à domicile santé sciences de la vie dynamique moléculaire protéine simulations SARS-CoV-2 biologie structurale

[email protected] est un projet informatique massivement distribué qui utilise des simulations biomoléculaires pour étudier les origines moléculaires de la maladie et accélérer la découverte de nouvelles thérapies. Géré par le consortium [email protected], un réseau mondial de laboratoires de recherche axés sur une variété de maladies différentes, [email protected] cherche à résoudre les problèmes de santé humaine à une échelle infaisable par d'autres moyens, en partageant les résultats de ces études à grande échelle avec la communauté des chercheurs par le biais de publications évaluées par des pairs et d'ensembles de données partagés publiquement. Pendant l'épidémie de COVID-19, [email protected] a concentré ses ressources sur la compréhension des vulnérabilités du SRAS-CoV-2, le virus qui cause la maladie COVID-19, et en travaillant en étroite collaboration avec un certain nombre de collaborateurs expérimentaux pour accélérer les progrès vers des thérapies efficaces pour le traitement COVID-19 et la fin de la pandémie. Dans le processus, il a créé la première ressource informatique distribuée exascale au monde, lui permettant de générer de précieux ensembles de données scientifiques d'une taille sans précédent. Plus d'informations sur les activités de recherche de [email protected] sur la COVID-19 sur la page [email protected] COVID-19. En plus de travailler directement avec des collaborateurs expérimentaux et de partager rapidement de nouveaux résultats de recherche via des serveurs de préimpression, [email protected] s'est associé à d'autres chercheurs pour s'engager à partager rapidement toutes les données de recherche COVID-19, et s'est associé à AWS et au Molecular Sciences Software Institute ( MolSSI) pour partager des ensembles de données d'un côté sans précédent via le registre AWS Open Data, en indexant ces ensembles de données massifs via le MolSSI COVID-19 Molecular Structure and Therapeutics Hub. L'index complet de tous les ensembles de données [email protected] peut être trouvé ici. E.

Exemples d'utilisation

Base de données d'agrégation du génome (gnomAD)

bioinformatique génétique génomique sciences de la vie population génétique des populations séquençage à lecture courte séquençage du génome entier

La base de données d'agrégation du génome (gnomAD) est une ressource développée par une coalition internationale de chercheurs qui agrège et harmonise les données d'exome et de génome d'un large éventail de projets de séquençage humain à grande échelle. Les données récapitulatives fournies ici sont publiées pour le bénéfice de la communauté scientifique au sens large sans restriction d'utilisation. L'ensemble de données v2 (GRCh37) couvre 125 748 séquences d'exome et 15 708 séquences de génome entier d'individus non apparentés. L'ensemble de données v3 (GRCh38) couvre 71 702 génomes, sélectionnés comme dans la v2. Inscrivez-vous à la liste de diffusion gnomAD ici.

Exemples d'utilisation

  • gnomAD v2.1 par Laurent Francioli, Grace Tiao, Konrad Karczewski, Matthew Solomonson, Nick Watts
  • Le spectre de contrainte mutationnelle quantifié à partir de la variation chez 141 456 humains. Nature 581, 434-443 (2020) par Karczewski, KJ, Francioli, LC, Tiao, G., Cummings, BB, Alföldi, J., Wang, Q., Collins, RL, Laricchia, KM, Ganna, A., Birnbaum, DP, Gauthier, LD, Brand, H., Solomonson, M., Watts, NA, Rhodes, D., Singer-Berk, M., Angleterre, EM, Seaby, EG, Kosmicki, JA, . MacArthur, D.G.
  • Évaluer les cibles potentielles de médicaments par le biais de la variation génétique de la perte de fonction humaine. Nature 581, 459-464 (2020) par Minikel, EV, Karczewski, KJ, Martin, HC, Cummings, BB, Whiffin, N., Rhodes, D., Alföldi, J., Trembath, RC, van Heel, DA, Daly, MJ, équipe de production de la base de données d'agrégation du génome, Consortium de la base de données d'agrégation du génome, Schreiber, SL, & MacArthur, DG
  • Paysage de variants multinucléotidiques dans 125 748 exomes humains et 15 708 génomes. Nature Communications 11, 2539 (2020) par Wang, Q., Pierce-Hoffman, E., Cummings, BB, Karczewski, KJ, Alföldi, J., Francioli, LC, Gauthier, LD, Hill, AJ, O'Donnell- Luria, AH, Équipe de production de la base de données d'agrégation du génome (gnomAD), Consortium de la base de données d'agrégation du génome (gnomAD), & MacArthur, DG
  • Contrôle qualité gnomAD Référentiel GitHub par l'équipe de production gnomAD

NEXRAD sur AWS

agriculture observation de la terre météorologique ressource naturelle durabilité météo

Données en temps réel et archivées du réseau Next Generation Weather Radar (NEXRAD).

Exemples d'utilisation

  • Ouvrir l'accès aux données NEXRAD pour le niveau 3 avec [email protected] par Zac Flamig
  • Document de contrôle d'interface de niveau 2 pour le transfert : Build 18 par NOAA ROC
  • Document de contrôle d'interface de niveau 3 pour les formats de données de message : Build 18 par NOAA ROC
  • Abondance saisonnière et survie de l'avifaune migratrice d'Amérique du Nord déterminées par radar météorologique par Adriaan M. Dokter, Andrew Farnsworth, Daniel Fink, Viviana Ruiz-Gutierrez, Wesley M. Hochachka, Frank A. La Sorte, Orin J. Robinson, Kenneth V. Rosenberg & Steve Kelling
  • nexradaws sur pypi.python.org - module python pour interroger et télécharger les données Nexrad d'Amazon S3 par Aaron Anderson

Fly Brain Anatomy : imagerie FlyLight Gen1 et Split-GAL4

biologie imagerie de fluorescence traitement d'images sciences de la vie microscopie neurobiologie neuroimagerie neurosciences

Cet ensemble de données, mis à disposition par le projet FlyLight de Janelia, se compose d'images de fluorescence de lignes de pilotes de Drosophila melanogaster, alignées sur des modèles standard et stockées dans des formats adaptés à une recherche rapide dans le cloud. Des données supplémentaires seront ajoutées au fur et à mesure de leur publication.

Exemples d'utilisation

  • L'architecture neuronale du corps champignon fournit une logique d'apprentissage associatif par Yoshinori Aso, Daisuke Hattori, Yang Yu, Rebecca M Johnston, Nirmala A Iyer, Teri-TB Ngo, Heather Dionne, LF Abbott, Richard Axel, Hiromu Tanimoto, Gerald M Insister sur
  • Plugin Fidji de recherche par profondeur de couleur par Hideo Otsuna
  • Recherche de masque MIP de profondeur de couleur : un nouvel outil pour accélérer la création de Split-GAL4 par Hideo Otsuna, Masayoshi Ito, Takashi Kawase
  • Utilisation d'images sur AWS S3 par Rob Svirskas
  • Collection de pilotes Fly Light Split-GAL4 par Rob Svirskas

Satellites environnementaux opérationnels géostationnaires de la NOAA (GOES) 16 et 17

agriculture intervention en cas de catastrophe observation de la terre géospatiale météorologique imagerie satellitaire durabilité météo

Les satellites GOES (GOES-16 et GOES-17) fournissent des images météorologiques en continu et une surveillance des données météorologiques et environnementales spatiales à travers l'Amérique du Nord. Les satellites GOES fournissent le type de surveillance continue nécessaire à une analyse intensive des données. Ils survolent continuellement une position sur la surface. Les satellites orbitent suffisamment haut pour permettre une vue complète de la Terre. Parce qu'ils restent au-dessus d'un point fixe à la surface, ils assurent une vigilance constante pour les "déclencheurs" atmosphériques des conditions météorologiques extrêmes telles que les tornades, les crues éclair, les tempêtes de grêle et les ouragans.

Exemples d'utilisation

  • Comparaison de la lecture des données GOES-R d'AWS S3 dans netCDF par rapport à zarr par Chelle Gentemann
  • NOAA GOES16 Julia Jupyter Notebook Exemple par Peter Schmiedeskamp
  • GOES-2-go est un package python permettant de télécharger et de tracer des données GOES. par Brian K. Blaylock
  • Comparaison des prévisions de foudre du modèle de rafraîchissement rapide à haute résolution aux observations géostationnaires du mappeur de foudre par Brian K. Blaylock et John D. Horel
  • Visualisez GOES-16 en Python à l'aide de Xarray par Hamed Alemohammad

Tuiles Terrain

agriculture intervention en cas de catastrophe observation de la terre élévation durabilité géospatiale

Un jeu de données mondial fournissant des hauteurs de terrain sur terre nue, carrelé pour une utilisation facile et fourni sur S3.

Exemples d'utilisation

Collections d'imagerie cellulaire Allen

biologie biologie cellulaire imagerie cellulaire Homo sapiens traitement d'images sciences de la vie apprentissage machine microscopie

Ce bucket contient plusieurs ensembles de données (sous forme de packages Quilt) créés par l'Allen Institute for Cell Science (AICS). Les données d'imagerie de ce compartiment contiennent l'un des éléments suivants : 1) images de champ de vision à partir de plaques de verre 2) segmentations de la membrane cellulaire, de l'ADN et de la structure 3) contours de la membrane cellulaire, de l'ADN et de la structure 4) prédictions d'imagerie par apprentissage automatique des éléments énumérés précédemment modalités.En outre, de nombreux ensembles de données incluent des fichiers CSV qui contiennent des ensembles de fonctionnalités liés à ces données.

Exemples d'utilisation

Initiative internationale de partage de données de neuroimagerie (INDI)

Homo sapiens sciences de la vie imagerie par résonance magnétique neuroimagerie neurosciences

Ce compartiment contient plusieurs ensembles de données de neuroimagerie qui font partie de l'Initiative internationale de partage de données de neuroimagerie. Les données brutes de neuroimagerie des primates humains et non humains comprennent 1) l'IRM structurelle 2) l'IRM fonctionnelle 3) l'imagerie du tenseur de diffusion 4) l'électroencéphalogramme (EEG) En plus des données brutes, des données prétraitées sont également incluses pour certains ensembles de données. Une liste complète des ensembles de données disponibles peut être consultée dans le lien de documentation fourni ci-dessous.

Exemples d'utilisation

  • L'échange de données d'imagerie cérébrale de l'autisme : vers une évaluation à grande échelle de l'architecture intrinsèque du cerveau dans l'autisme. par A. Di Martino, C-G Yan, . député Milham
  • Une ressource ouverte pour l'imagerie des primates non humains par M.P. Milham, L.Ai, . C.E. Schroeder
  • Accélérer l'évolution de la neuroimagerie des primates non humains par M.P. Milham, C. Petkov
  • Évaluation de l'impact des données d'imagerie cérébrale partagées sur la littérature scientifique par M.P. Milham, R.C. Craddock, . A. Klein
  • Téléchargement de données de neuroimagerie FCP-INDI à partir d'Amazon S3 par INDI

SpaceNet

vision par ordinateur intervention en cas de catastrophe observation de la terre apprentissage automatique géospatial imagerie satellitaire

SpaceNet, lancé en août 2016 en tant que projet d'innovation ouverte offrant un référentiel d'images disponibles gratuitement avec des fonctionnalités cartographiques co-enregistrées. Avant SpaceNet, les chercheurs en vision par ordinateur disposaient de peu d'options pour obtenir des images satellites gratuites, étiquetées avec précision et à haute résolution. Aujourd'hui, SpaceNet héberge des ensembles de données développés par sa propre équipe, ainsi que des ensembles de données provenant de projets tels que la carte fonctionnelle du monde de l'IARPA (fMoW).

Exemples d'utilisation

CBERS sur AWS

agriculture intervention en cas de catastrophe observation de la terre imagerie géospatiale imagerie satellitaire durabilité

Images acquises par le satellite sino-brésilien des ressources terrestres (CBERS), 4 et 4A. Les fichiers images sont enregistrés et traités par l'Instituto Nacional de Pesquisas Espaciais (INPE) et sont convertis au format Cloud Optimized Geotiff afin d'optimiser son utilisation pour les applications basées sur le cloud. Contient toutes les scènes CBERS-4 MUX, AWFI, PAN5M et PAN10M acquises depuis le début de la mission satellite et est quotidiennement mise à jour avec de nouvelles scènes. Les scènes CBERS-4A MUX de niveau 4 (orthorectifiées) sont ingérées expérimentalement à partir du 13/04/2021.

Exemples d'utilisation

Dépôts IRS 990

Données lisibles par machine provenant de certains formulaires électroniques 990 déposés auprès de l'IRS de 2013 à aujourd'hui.

Exemples d'utilisation

Température de surface de la mer (SST) multi-échelle à ultra haute résolution (MUR)

climat observation de la terre environnement ressource naturelle océans imagerie satellite durabilité eau météo

Un jeu de données global, sans lacune, quadrillé, quotidien de 1 km sur la température de la surface de la mer (SST) créé en fusionnant plusieurs jeux de données SST satellitaires de niveau 2. Ces ensembles de données d'entrée incluent le radiomètre à balayage micro-ondes avancé de la NASA-EOS (AMSR-E), le radiomètre à balayage micro-ondes avancé JAXA 2 (AMSR-2) sur GCOM-W1, les spectroradiomètres imageurs à résolution modérée (MODIS) sur les plates-formes Aqua et Terra de la NASA. , le radiomètre à micro-ondes WindSat de l'US Navy, le radiomètre avancé à très haute résolution (AVHRR) sur plusieurs satellites NOAA et les observations SST in situ du projet NOAA iQuam. Les données sont disponibles pour.

Exemples d'utilisation

RADARSAT-1

agriculture intervention en cas de catastrophe observation de la terre géospatiale glace mondiale imagerie satellitaire durabilité

Développé et exploité par l'Agence spatiale canadienne, il s'agit du premier satellite commercial d'observation de la Terre au Canada.

Exemples d'utilisation

Initiative de données ouvertes sur l'énergie du ministère de l'Énergie (OEDI)

énergie environnemental géospatial lidar modèle solaire durabilité

Données publiées dans le cadre de l'Open Energy Data Initiative (DOE) du ministère de l'Énergie. L'Open Energy Data Initiative (OEDI) vise à améliorer et à automatiser l'accès à des ensembles de données énergétiques de grande valeur dans les programmes, les bureaux et les laboratoires nationaux du département américain de l'Énergie (DOE). L'OEDI vise à rendre les données exploitables et découvrables par les chercheurs et l'industrie afin d'accélérer l'analyse et de faire progresser l'innovation.

Exemples d'utilisation

  • Tracking the Sun Tool par Lawrence Berkeley National Laboratory (LBNL)
  • Le modèle de demande du marché de la production distribuée (dGen) : documentation de B. Sigrin, M. Gleason, R. Preus, I. Baring-Gould, R. Margolis
  • Potentiel technique solaire sur les toits pour les ménages à revenu faible à modéré aux États-Unis par Benjamin Sigrin et Meghan Mooney
  • Estimation du potentiel technique solaire sur les toits aux États-Unis à l'aide d'une combinaison de méthodes SIG, de données lidar et de modélisation statistique par Pieter Gagnon et al 2018 Environ. Rés. Lett. 13 024027
  • Suivi des tendances de prix et de conception de Sun pour les systèmes photovoltaïques distribués aux États-Unis : édition 2019 par G. Barbose, N. Darghouth

Ouvrir NeuroData

tomographie par réseau biologie microscopie électronique traitement d'images sciences de la vie microscopie à nappe lumineuse imagerie par résonance magnétique neuroimagerie neurosciences

Ce seau contient plusieurs ensembles de données de neuroimagerie (en tant que volumes précalculés Neuroglancer) à travers plusieurs modalités et échelles, allant de l'échelle nanométrique (microscopie électronique) à l'échelle microscopique (microscopie à feuille claire et tomographie par matrice) et à mésoéchelle (imagerie par résonance magnétique structurelle et fonctionnelle). De plus, de nombreux ensembles de données incluent des segmentations et des maillages.

Exemples d'utilisation

  • Du cosmos aux connectomes : l'évolution de la science à forte intensité de données par R. Burns, J. T. Vogelstein et A. S. Szalay
  • Télécharger par Benjamin Falk
  • CloudVolume par William Silversmith
  • Neuroglancer par Jeremy Maitin-Shepard
  • Le cluster de données du projet Open Connectome : analyse et vision évolutives pour les neurosciences à haut débit par R. Burns, WG Roncal, D. Kleissas, K. Lillaney, P. Manavalan, E. Perlman, DR Berger, DD Bock, K. Chung, L. Grosenick, N. Kasthuri, NC Weiler, K. Deisseroth, M. Kazhdan, J. Lichtman, RC Reid, SJ Smith, AS Szalay, JT Vogelstein et RJ Vogelstein.

PubSeq - Ressource de séquence publique

bam bioinformatique biologie coronavirus COVID-19 fast5 fasta fastq génétique génomique santé json sciences de la vie longue lecture séquençage médecine MERS métadonnées logiciel open source RDF SARS SARS-CoV-2 SPARQL

COVID-19 PubSeq est une ressource de séquence publique bioinformatique en ligne gratuite et ouverte avec une analyse à la volée d'échantillons séquencés de SRAS-CoV-2 qui permet un redressement rapide dans l'identification de nouvelles souches virales. PubSeq permet à quiconque de télécharger du matériel de séquence sous forme de fichiers FASTA ou FASTQ avec les métadonnées associées via l'interface Web ou l'API REST.

Exemples d'utilisation

GeoTIFFs Sentinel-2 optimisés pour le cloud

agriculture intervention en cas de catastrophe observation de la terre ressources naturelles géospatiales imagerie satellitaire durabilité

La mission Sentinel-2 est une constellation de surveillance terrestre de deux satellites qui fournissent des images optiques à haute résolution et assurent la continuité des missions SPOT et Landsat actuelles. La mission fournit une couverture mondiale de la surface terrestre de la Terre tous les 5 jours, ce qui rend les données très utiles dans les études en cours. Cet ensemble de données est le même que l'ensemble de données Sentinel-2, sauf que les fichiers JP2K ont été convertis en GeoTIFF optimisés pour le cloud (COG). De plus, les métadonnées du catalogue d'actifs SpatioTemporal se trouvaient dans un fichier JSON à côté des données, et une API STAC appelée Earth-search est disponible gratuitement.

Exemples d'utilisation

  • Intake-STAC avec recherche par satellite par Scott Henderson
  • Créer un carreleur dynamique avec TiTiler de Vincent Sarago
  • Recherche par satellite par Matthew Hanson
  • STAC, COG, Python et QGIS par Andrew Cutts
  • COG STAC et Sentinel-2 (ESIP Summer Meeting 2020) par Matthew Hanson

Résultats du modèle d'état et de tendances d'eBird

biodiversité biologie observation de la terre écosystèmes environnement sciences de la vie durabilité

Le projet eBird Status and Trends génère des estimations de l'occurrence et de l'abondance des oiseaux à une résolution spatio-temporelle élevée. Cet ensemble de données représente les principaux résultats modélisés du flux de travail d'analyse et est conçu pour une analyse, une synthèse, une visualisation et une exploration plus poussées.

Exemples d'utilisation

  • FAQ sur l'état et les tendances d'eBird par Cornell Lab of Ornithology
  • ebirdst - Intro Mapping par Tom Auer et Daniel Fink
  • Paquet ebirdst R par Cornell Lab of Ornithology
  • Le delta du fleuve Colorado et la vallée centrale de la Californie sont des régions critiques pour de nombreux oiseaux terrestres migrateurs nord-américains par DeLuca et al (2021)
  • ebirdst - Génération de cartes et de statistiques d'abondance saisonnière et d'aire de répartition par Matt Strimas-Mackey, Tom Auer et Daniel Fink

Encyclopédie des lignées cellulaires cancéreuses (CCLE)

cancer génétique génomique Homo sapiens sciences de la vie STRIDES transcriptomique séquençage du génome entier

Le projet Cancer Cell Line Encyclopedia (CCLE) est un effort pour mener une caractérisation génétique détaillée d'un large panel de lignées cellulaires cancéreuses humaines. Le CCLE offre un accès public aux données génomiques, à la visualisation et à l'analyse de plus de 1 100 lignées cellulaires cancéreuses. Cet ensemble de données contient des données de lectures alignées RNA-Seq, de lectures alignées WXS et de lectures alignées WGS.

Exemples d'utilisation

Ensemble de données US Wave du DOE Water Power Technology Office (WPTO)

observation de la terre énergie géospatial météorologique durabilité eau

Diffusé au public dans le cadre de l'Open Energy Data Initiative du ministère de l'Énergie, il s'agit de l'ensemble de données rétrospectives à long terme à la plus haute résolution accessible au public qui, une fois terminé, couvrira l'ensemble de la zone économique exclusive (ZEE) des États-Unis.

Exemples d'utilisation

  • SWAN Cycle III version 41.31A par l'équipe SWAN
  • Exemples HSDS par Caleb Phillips, Caroline Draxl, John Readey, Jordan Perr-Sauer, Michael Rossol
  • Prédire les vagues de l'océan le long de la côte est des États-Unis pendant les tempêtes hivernales énergiques : sensibilité aux paramétrisations du whitecapping par Allahdadi, M.N., He, R. et Neary, V.S.
  • Hindcast régional haute résolution des ondes pour la côte ouest des États-Unis par Yang, Zhaoqing Wu, Wei-Cheng Wang, Taiping Castrucci, Luca
  • Développement et validation d'un modèle de simulation rétrospective des vagues régionales à haute résolution pour la caractérisation des ressources des vagues de la côte ouest des États-Unis par Wu, Wei-Cheng Wang, Taiping Yang, Zhaoqing Garcia Medina, Gabriel

Archives de données de sonar à colonne d'eau NOAA

biodiversité observation de la terre écosystèmes cartographie géospatiale environnementale océans durabilité

Données de sonar à colonne d'eau archivées aux Centres nationaux d'information sur l'environnement de la NOAA.

Exemples d'utilisation

  • Accroître l'accessibilité des données acoustiques grâce à un accès mondial et à l'imagerie par Carrie Wall, Michael Jech et Susan McLean
  • Tracer des données brutes EK60 par Carrie Wall
  • Différence de fréquence avec des données brutes par Carrie Wall
  • Lecture et tracé des données de fond par Carrie Wall
  • Lecture et tracé des données CSV traitées par Carrie Wall

Ensemble de données nationales sur l'intégration du vent du NREL

durabilité météorologique géospatiale environnementale

Diffusé au public dans le cadre de l'initiative Open Energy Data du ministère de l'Énergie, le Wind Integration National Dataset (WIND) est une mise à jour et une extension de l'Eastern Wind Integration Data Set et du Western Wind Integration Data Set. Il prend en charge la prochaine génération d'études d'intégration éolienne.

Exemples d'utilisation

  • Prospecteur de vent par Paul Edwards
  • Validation de la puissance de sortie pour la boîte à outils WIND par J. King, Andrew Clifton, Bri-Mathias Hodge
  • Visualisation du vent par Jordan Perr-Sauer
  • La boîte à outils Wind Integration National Dataset (WIND) par Caroline Draxl, Andrew Clifton, Bri-Mathias Hodge, Jim McCaa
  • Exemples HSDS par Caleb Phillips, Caroline Draxl, John Readey, Jordan Perr-Sauer, Michael Rossol

Banque mondiale - Lumière chaque nuit

imagerie satellitaire d'observation de la terre

Light Every Night - World Bank Nightime Light Data - fournit un accès ouvert à toutes les images et données nocturnes de la bande jour-nuit de la série de radiomètres d'imagerie infrarouge visible (VIIRS DNB) de 2012-2020 et du système de balayage linéaire opérationnel du programme de satellite météorologique de la défense (DMSP- OLS) de 1992 à 2013. Les données sous-jacentes proviennent des archives des Centres nationaux d'information sur l'environnement (NCEI) de la NOAA. Un traitement supplémentaire par l'Université du Michigan permet l'accès au format Cloud Optimized GeoTIFF (COG) et la recherche à l'aide de la norme Spatial Temporal Asset Catalog (STAC). Les données sont.

Exemples d'utilisation

Consortium 2 d'analyse protéomique des tumeurs cliniques (CPTAC-2)

cancer génomique sciences de la vie STRIDES transcriptomique

Le Clinical Proteomic Tumor Analysis Consortium (CPTAC) est un effort national visant à accélérer la compréhension de la base moléculaire du cancer grâce à l'application de l'analyse du protéome et du génome à grande échelle, ou protéogénomique. CPTAC-2 est la Phase II de l'Initiative CPTAC (2011-2016). Les ensembles de données contiennent des données ouvertes de quantification d'expression génique RNA-Seq, de quantification d'expression isoforme miRNA-Seq et de quantification d'expression miRNA.

Exemples d'utilisation

  • Caractérisation protéogénomique intégrée du cancer de l'ovaire séreux humain de haut grade par Hui Zhang, Tao Liu, Zhen Zhang, Samuel H. Payne, Bai Zhang, Jason E. McDermott, Jian-Ying Zhou, Vladislav A. Petyuk, Li Chen, Debjit Ray, Shisheng Sun, Feng Yang, Lijun Chen, Jing Wang, Punit Shah, Seong Won Cha, Paul Aiyetan, Sunghee Woo, Yuan Tian, ​​Marina A. Gritsenko, Therese R. Clauss, Caitlin Choi, Matthew E. Monroe, Stefani Thomas, Song Nie, Chaochao Wu, Ronald J. Moore, Kun-Hsing Yu, David L. Tabb, David Fenyö, Vineet Bafna, Yue Wang, Henry Rodriguez, Emily S. Boja, Tara Hiltke, Robert C. Rivers, Lori Sokoll, Heng Zhu , Ie-Ming Shih, Leslie Cope, Akhilesh Pandey, Bing Zhang, Michael P. Snyder, Douglas A. Levine, Richard D. Smith, Daniel W. Chan, Karin D. Rodland, les enquêteurs du CPTAC
  • Portail de données CPTAC par l'Institut national du cancer
  • Genomic Data Commons par le National Cancer Institute
  • Cancer Genomics Cloud par Seven Bridges
  • Analyse protéomique du carcinome du côlon et du rectum à l'aide de bases de données standard et personnalisées par Slebos RJ, Wang X, Wang X, Zhang B, Tabb DL, Liebler DC

ICGC sur AWS

cancer génomique sciences de la vie

L'International Cancer Genome Consortium (ICGC) coordonne des projets dans le but commun d'accélérer la recherche sur les causes et le contrôle du cancer. L'étude PanCancer Analysis of Whole Genomes (PCAWG) est une collaboration internationale visant à identifier les modèles communs de mutation dans les génomes entiers de l'ICGC. Plus de 2 400 génomes analysés de manière cohérente correspondant à plus de 1 100 donneurs uniques de l'ICGC sont désormais disponibles gratuitement sur Amazon S3 pour les chercheurs accrédités soumis aux politiques de partage de données de l'ICGC.

Exemples d'utilisation

OpenAQ

qualité de l'air villes environnementale géospatiale durabilité

Données globales et agrégées sur la qualité de l'air physique provenant de sources de données publiques fournies par le gouvernement, de niveau recherche et d'autres sources. Ces groupes formidables font le travail acharné de mesurer ces données et de les partager publiquement, et notre communauté les rend plus universellement accessibles aux humains et aux machines.

Exemples d'utilisation

1000 génomes Phase 3 Réanalyse avec DRAGEN 3.5 et 3.7

bam biologie génétique génomique santé sciences de la vie vcf

Cet ensemble de données contient des fichiers d'alignement et des fichiers de nucléotide court, de numéro de copie, d'expansion répétée (STR) et d'appel de variante structurelle de l'ensemble de données 1000 Genomes Project Phase 3 (n = 3202) à l'aide des logiciels Illumina DRAGEN v3.5.7b et v3.7.6. L'ensemble de données v3.7.6 comprend également les résultats de la petite variante conjointe, de la variante structurelle de novo, de la variante du nombre de copies de novo et des appels d'extension répétés sur 602 familles trio composées de membres de l'ensemble de données de la phase 3 du projet 1000 génomes, ainsi que du génotype DRAGEN gVCF ( v3.8.3) analyse sur l'ensemble des données (n=3202). Améliorations et nouvelles fonctionnalités de la v3.7.

Exemples d'utilisation

Ensembles de données de neuroimagerie ouvertes BossDB

imagerie calcique microscopie électronique sciences de la vie microscopie optique imagerie par résonance magnétique neuroimagerie neurosciences imagerie volumétrique rayons X microtomographie à rayons X tomographie à rayons X

Cet écosystème de données, Brain Observatory Storage Service & Database (BossDB), contient plusieurs ensembles de données de neuro-imagerie à travers plusieurs modalités et échelles, allant de l'échelle nanométrique (microscopie électronique) à l'échelle microscopique (microscopie à feuillet clair et tomographie par matrice) et à l'échelle méso (structure et imagerie par résonance magnétique fonctionnelle). De plus, de nombreux ensembles de données incluent une segmentation et des maillages denses.

Exemples d'utilisation

  • The Block Object Storage Service (bossDB) : une approche cloud-native pour la découverte des neurosciences à l'échelle pétascale par Robert Hider Jr., Dean M. Kleissas, Derek Pryor, Timothy Gion, Luis Rodriguez, Jordan Matelsky, William Gray-Roncal, Brock Wester
  • Accès aux données et téléchargement par Jordan Matelsky
  • stagiaire : Boîte à outils intégrée pour les neurosciences extensibles et reproductibles par Jordan K Matelsky, Luis Rodriguez, Daniel Xenes, Timothy Gion, Robert Hider Jr., Brock Wester, William Gray-Roncal
  • bossDB par l'équipe bossDB
  • Un écosystème informatique open-source développé par la communauté pour les mégadonnées neuro par JT Vogelstein, E. Perlman, B. Falk, A. Baden, W. Gray Roncal, V. Chandrashekhar, F. Collman, S. Seshamani, JL Patsolic, K Lillaney, M. Kazhdan, R. Hider, D. Pryor, J. Matelsky, T. Gion, P. Manavalan, B. Wester, M. Chevillet, ET Trautman, K. Khairy, E. Bridgeford, DM Kleissas, DJ Tward, AK Crow, B. Hsueh, MA Wright, MI Miller, SJ Smith, RJ Vogelstein, K. Deisseroth et R. Burns

Consortium 3 d'analyse des tumeurs protéomiques cliniques (CPTAC-3)

cancer génomique sciences de la vie STRIDES transcriptomique

Le Clinical Proteomic Tumor Analysis Consortium (CPTAC) est un effort national visant à accélérer la compréhension de la base moléculaire du cancer grâce à l'application de l'analyse du protéome et du génome à grande échelle, ou protéogénomique. CPTAC-3 est la phase III de l'Initiative CPTAC. L'ensemble de données contient des données ouvertes de quantification d'expression génique RNA-Seq.

Exemples d'utilisation

  • Proteomic Data Commons par le National Cancer Institute
  • Portail de données CPTAC par l'Institut national du cancer
  • Genomic Data Commons par le National Cancer Institute
  • Caractérisation protéogénomique intégrée du carcinome rénal à cellules claires par Clark DJ, Dhanasekaran SM, Petralia F, Pan J, Song X, Hu Y, da Veiga Leprevost F, Reva B, Lih TM, Chang HY, Ma W, Huang C, Ricketts CJ , Chen L1, Krek A, Li Y, Rykunov D, Li QK, Chen LS, Ozbek U, Vasaikar S, Wu Y, Yoo S, Chowdhury S, Wyczalkowski MA, Ji J, Schnaubelt M, Kong A, Sethuraman S, Avtonomov DM, Ao M, Colaprico A, Cao S, Cho KC, Kalayci S, Ma S, Liu W, Ruggles K, Calinawan A, Gümüş ZH, Geizler D, Kawaler E, Teo GC, Wen B, Zhang Y, Keegan S, Li K, Chen F, Edwards N, Pierorazio PM, Chen XS, Pavlovich CP, Hakimi AA, Brominski G, Hsieh JJ, Antczak A, Omelchenko T, Lubinski J, Wiznerowicz M, Linehan WM, Kinsinger CR, Thiagarajan M, Boja ES , Mesri M, Hiltke T, Robles AI, Rodriguez H, Qian J, Fenyö D, Zhang B, Ding L, Schadt E, Chinnaiyan AM, Zhang Z, Omenn GS, Cieslik M, Chan DW, Nesvizhskii AI, Wang P, Zhang H Consortium d'analyse des tumeurs protéomiques cliniques
  • Cancer Genomics Cloud par Seven Bridges

Base de données mondiale des événements, de la langue et du ton (GDELT)

Ce projet surveille les actualités mondiales diffusées, imprimées et Web de presque tous les coins de chaque pays dans plus de 100 langues et identifie les personnes, les lieux, les organisations, les comptes, les thèmes, les sources, les émotions, les citations, les images et les événements qui animent notre monde. la société chaque seconde de chaque jour.

Exemples d'utilisation

Ensemble de données d'imagerie des catastrophes à basse altitude (LADI)

imagerie aérienne côtière vision par ordinateur intervention en cas de catastrophe observation de la terre tremblements de terre traitement d'images géospatiales infrastructure d'imagerie terrestre apprentissage automatique cartographie ressource naturelle sismologie transport urbain eau

L'ensemble de données LADI (Low Altitude Disaster Imagery) se compose d'images aériennes annotées par des humains et des machines collectées par la Civil Air Patrol à l'appui de diverses interventions en cas de catastrophe de 2015 à 2019. La version initiale de LADI se concentre sur les saisons des ouragans dans l'Atlantique et les États côtiers le long de l'océan Atlantique et du golfe du Mexique. Des annotations sont incluses pour les ouragans majeurs Harvey, Maria et Florence. Deux distinctions clés sont la basse altitude, la perspective oblique de l'imagerie et les caractéristiques liées aux catastrophes, qui sont rarement présentées dans les références et les ensembles de données de vision par ordinateur.

Exemples d'utilisation

  • Former et déployer un classificateur d'images pour les interventions en cas de catastrophe par Jianyu Mao, Kiana Harris, Nae-Rong Chang, Caleb Pennell, Yiming Ren
  • Tests vidéo au laboratoire d'innovation et de test FirstNet à l'aide d'un ensemble de données de sécurité publique par Chris Budny, Jeffrey Liu, Andrew Weinert
  • Organisation à grande échelle et inférence d'un ensemble de données d'imagerie pour la sécurité publique par Jeffrey Liu, David Strohschein, Siddharth Samsi, Andrew Weinert
  • Cours sur la télédétection pour les interventions en cas de catastrophe par l'Institut d'été de Beaver Works
  • Tutoriels LADI par Andrew Weinert, Jianyu Mao, Kiana Harris, Nae-Rong Chang, Caleb Pennell, Yiming Ren, Ryan Earley, Nadia Dimitrova

NYU Langone & FAIR FastMRI Dataset

biologie santé traitement d'images sciences de la vie imagerie par résonance magnétique neurobiologie neuroimagerie

Cet ensemble de données contient des données brutes anonymisées de l'espace k et des fichiers d'images DICOM de plus de 1 500 genoux et 6 970 cerveaux.

Exemples d'utilisation

Données d'enregistrement de trajet de la New York City Taxi and Limousine Commission (TLC)

villes transport urbain

Données des trajets effectués par les taxis et les véhicules de location à New York.

Exemples d'utilisation

  • Deep Dive sur Flink & amp Spark sur Amazon EMR par Keith Steward
  • Apprentissage automatique sur Dask distribué à l'aide d'Amazon SageMaker et d'AWS Fargate par Ram Vittal
  • Créez et exécutez des applications de streaming avec Apache Flink et Amazon Kinesis Data Analytics for Java Applications par Steffen Hausmann
  • Créez un pipeline de traitement de flux en temps réel avec Apache Flink sur AWS par Steffen Hausmann
  • Optimisation des données pour l'analyse avec Amazon Athena et AWS Glue de Manav Sehgal

MLHub rayonnant

observation de la terre environnement géospatial étiqueté apprentissage automatique imagerie satellitaire durabilité

Radiant MLHub est une bibliothèque ouverte pour les données de formation géospatiales qui héberge des ensembles de données générés par l'équipe de la Fondation Radiant Earth ainsi que d'autres catalogues de données de formation fournis par les partenaires de Radiant Earth. Radiant MLHub est ouvert à tous pour accéder, stocker, enregistrer et/ou partager leurs ensembles de données de formation pour des observations de la Terre de haute qualité. Tous les ensembles de données d'entraînement sont stockés à l'aide d'un catalogue conforme au SpatioTemporal Asset Catalog (STAC) et exposés via une API commune. Les ensembles de données d'entraînement incluent des paires d'images et d'étiquettes pour différents types de problèmes d'apprentissage automatique, y compris l'image .

Exemples d'utilisation

Données sur les tremblements de terre du sud de la Californie

observation de la terre tremblements de terre sismologie durabilité

Cet ensemble de données contient des formes d'onde sismiques de vitesse de mouvement du sol et d'accélération enregistrées par le Southern California Seismic Network (SCSN) et archivées au Southern California Earthquake Data Center (SCEDC).

Exemples d'utilisation

  • Cactus to Clouds : traitement de l'ensemble de données ouvertes SCEDC sur AWS par Tim Clements
  • Les données sur les séismes en Californie du Sud sont désormais disponibles dans le cloud AWS par Ellen Yu Aparna Bhaskaran Shang‐Lin Chen Zachary E. Ross Egill Hauksson Robert W. Clayton
  • Premiers pas avec l'ensemble de données public AWS SCEDC par Ellen Yu
  • Utilisation de Lambda pour traiter les sismogrammes par Shang-Lin Chen
  • Script pour télécharger les formes d'onde sismiques à partir de l'ensemble de données public SCEDC AWS par Aparna Bhaskaran

Nuages ​​de points LiDAR USGS 3DEP

agriculture réponse aux catastrophes élévation géospatiale lidar durabilité

L'objectif du programme d'élévation 3D de l'USGS (3DEP) est de collecter des données d'élévation sous forme de données de détection et de télémétrie par la lumière (LiDAR) sur les territoires contigus des États-Unis, d'Hawaï et des États-Unis, avec des données acquises sur une période de 8 ans. . Cet ensemble de données fournit deux réalisations des données de nuage de points 3DEP. La première ressource est une organisation d'accès public fournie au format Entwine Point Tiles, qui est un octree sans perte, pleine densité et diffusable basé sur l'encodage LASzip (LAZ). La deuxième ressource est un Demandeur Paye des mêmes données au format LAZ (Compressed LAS). Noms de ressources dans le bot.

Exemples d'utilisation

Lac de données COVID-19

bioinformatique biologie coronavirus COVID-19 santé sciences de la vie médecine MERS SRAS

Un référentiel centralisé d'ensembles de données à jour et organisés sur ou liés à la propagation et aux caractéristiques du nouveau virus corona (SARS-CoV-2) et de sa maladie associée, COVID-19. À l'échelle mondiale, plusieurs efforts sont en cours pour recueillir ces données, et nous travaillons avec des partenaires pour rendre ces données cruciales disponibles gratuitement et les maintenir à jour. Hébergé sur le cloud AWS, nous avons ensemencé notre lac de données organisé avec des données de suivi des cas COVID-19 de Johns Hopkins et du New York Times, la disponibilité des lits d'hôpital de Definitive Healthcare et plus de 45 000 articles de recherche sur COVID-19 et rela.

Exemples d'utilisation

CoMMpass de la Multiple Myeloma Research Foundation

cancer génétique génomique STRIDES séquençage du génome entier

L'étude Relating Clinical Outcomes in Multiple Myeloma to Personal Assessment of Genetic Profile est l'initiative de médecine personnalisée historique de la Multiple Myeloma Research Foundation (MMRF). CoMMpass est une étude d'observation longitudinale portant sur environ 1 000 patients atteints de myélome nouvellement diagnostiqué et recevant divers traitements standard approuvés. La vision du MMRF est de suivre le traitement et les résultats pour chaque patient CoMMpass afin qu'un jour les informations puissent être utilisées pour guider les décisions pour les patients nouvellement diagnostiqués. CoMMpass a vérifié les patients tous les 6 mois pendant 8 ans, collectant des échantillons de tissus, de gènes.

Exemples d'utilisation

  • "Analyse intermédiaire de l'essai MMRF CoMMpass : une étude longitudinale sur le myélome multiple concernant les résultats cliniques des profils génomiques et immunophénotypiques" par Keats JJ, Craig DW, Liang W, Venkata Y, Kurdoglu A, Aldrich J, Auclair D, Allen K, Harrison B, Jewell S, Kidd PG, Correll M, Jagannath S, Siegel DS, Vij R, Orloff G, Zimmerman TM, MMRF CoMMpass Network, Capone W, Carpten J, Lonial S.
  • "Identification des mutations initiatrices du tronc et des sous-types moléculaires distincts : analyse intermédiaire de l'étude Mmrf Commpass" par Jonathan J Keats, PhD, Gil Speyer, Legendre Christophe, Christofferson Austin, Kristi Stephenson, BS, Ahmet Kurdoglu, Megan Russell, Aldrich Jessica, Cuyugan Lori , Jonathan Adkins, Jackie McDonald, Adrienne Helland, Alex Blanski, Meghan Hodges, Dan Rohrer, Sundar Jagannath, MD, David Siegel, MD PhD, Ravi Vij, MD MBA, Gregory Orloff, MD, Todd Zimmerman, MD, Ruben Niesvizky, MD , Darla Liles, MD, Joseph W. Fay, Jeffrey L. Wolf, MD PhD, Robert M. Rifkin, Norma C Gutierrez, The MMRF CoMMpass Network, Jen Toups, Mary Derome, MS, Winnie Liang, PhD, Seunchan Kim, Daniel Auclair, PhD, Pamela G. Kidd, MD, Scott Jewell, PhD, John David Carpten, PhD, Sagar Lonial, MD
  • Genomic Data Commons par le National Cancer Institute
  • "Prédicteurs moléculaires des résultats et de la réponse aux médicaments dans le myélome multiple : analyse intermédiaire de l'étude Mmrf CoMMpass" par Jonathan J Keats, PhD, Gil Speyer, Austin Christofferson, Christophe Legendre, PhD, Jessica Aldrich, Megan Russell, Lori Cuyugan, Jonathan Adkins, Alex Blanski, Meghan Hodges, Dan Rohrer, Sundar Jagannath, MD, Ravi Vij, MD, Gregory Orloff, MD, Todd Zimmerman, MD, Ruben Niesvizky, MD, Darla Liles, MD, Joseph W. Fay, Jeffrey L. Wolf, MD, Robert M Rifkin, Norma C Gutierrez, MD PhD, Mmrf ComMpass Network, Jennifer Yesil, MS, Mary Derome, MS, Seungchan Kim, PhD, Winnie Liang, PhD, Pamela G. Kidd, MD, Scott Jewell, PhD, John David Carpten , PhD, Daniel Auclair, PhD, Sagar Lonial, MD FACP
  • "Analyse intermédiaire de l'essai Mmrf Compass : identification de nouveaux réarrangements potentiellement associés à l'initiation et à la progression de la maladie" par Sagar Lonial, MD, Venkata D Yellapantula, Winnie Liang, PhD, Ahmet Kurdoglu, BS, Jessica Aldrich, MSc, Christophe M. Legendre, MD , Kristi Stephenson, Jonathan Adkins, Jackie McDonald, Adrienne Helland, Megan Russell, Austin Christofferson, Lori Cuyugan, Dan Rohrer, Alex Blanski, Meghan Hodges, Mmrf CoMMpass Network, Mary Derome, Daniel Auclair, PhD, Pamela G. Kidd, MD, Scott Jewell, PhD, David Craig, PhD, John Carpten, PhD, Jonathan J. Keats, PhD

Projet d'intercomparaison de modèles couplés 6

agriculture atmosphère climat observation de la terre modèle environnemental océans simulations météo

La sixième phase de l'ensemble de modèles de circulation générale couplés océan-atmosphère. Des données supplémentaires peuvent être demandées via Google Form

Cette application est l'une des nombreuses possibilités de trouver des citations de données CMIP6. Des outils alternatifs pour trouver des références de données CMIP6 sont décrits dans cet article de blog. Des informations générales sur le Citation Service sont disponibles sur : cmip6cite.wdc-climate.de.

Exemples d'utilisation

  • Trouver des données CMIP6 à l'aide de l'apport-esm et tracer des séries chronologiques pour les points par Zac Flamig
  • Premiers pas avec les données CMIP6 par Aparna Radhakrishnan
  • Comparaison CMIP6 Zarr vs NetCDF Holdings par Aparna Radhakrishnan
  • Traitement des données CMIP6 au format Zarr avec Dask & AWS Fargate par Zac Flamig
  • Numéro spécial | Conception et organisation expérimentales de la phase 6 du projet d'intercomparaison de modèles couplés (CMIP6) par V. Eyring

Digital Earth Africa Landsat Collection 2 Niveau 2

agriculture deafrica intervention en cas de catastrophe observation de la terre géospatiale ressource naturelle imagerie satellitaire durabilité

Digital Earth Africa (DE Africa) offre un accès gratuit et ouvert à une copie des produits Landsat Collection 2 Level-2 sur l'Afrique. Ces produits sont fabriqués et fournis par le United States Geological Survey (USGS). La série Landsat de satellites d'observation de la Terre, dirigée conjointement par l'USGS et la NASA, acquiert en continu des images de la surface terrestre de la Terre depuis 1972. DE Africa fournit des données des satellites Landsat 5, 7 et 8, y compris des observations historiques remontant à la fin des années 1980 et de nouvelles acquisitions régulièrement mises à jour. De nouvelles données Landsat 7 et Landsat 8 de niveau 2 sont disponibles après 15.

Exemples d'utilisation

  • Digital Earth Africa Explorer (LS5) par les contributeurs de Digital Earth Africa
  • Digital Earth Africa Explorer (LS7) par les contributeurs de Digital Earth Africa
  • Formation Digital Earth Africa par les contributeurs de Digital Earth Africa
  • Digital Earth Africa Explorer (LS8) par les contributeurs de Digital Earth Africa
  • Services Web Digital Earth Africa par les contributeurs de Digital Earth Africa

Réanalyse ECMWF ERA5

agriculture climat observation de la terre météorologique durabilité météo

ERA5 est la cinquième génération de réanalyses atmosphériques de l'ECMWF du climat mondial, et la première réanalyse produite en tant que service opérationnel. Il utilise les meilleures données d'observation disponibles provenant de satellites et de stations in situ, qui sont assimilées et traitées à l'aide du cycle 41r2 du système de prévision intégré (IFS) de l'ECMWF. L'ensemble de données fournit tous les paramètres météorologiques atmosphériques essentiels tels que, mais sans s'y limiter, la température de l'air, la pression et le vent à différentes altitudes, ainsi que des paramètres de surface tels que les précipitations, la teneur en humidité du sol et les paramètres de la mer tels que la température de la surface de la mer.

Exemples d'utilisation

Statistiques sommaires sur les risques d'inondation de la First Street Foundation (FSF)

agriculture climat modèle statistiques durabilité eau météo

Fichiers CSV de statistiques sur les inondations pour les 48 États contigus au niveau du district du Congrès, du comté et du code postal. Le CSV pour chacune de ces étendues géographiques comprend des statistiques sur le nombre de propriétés à risque selon la FEMA, le nombre de propriétés à risque selon la First Street Foundation et la différence entre les deux.

Exemples d'utilisation

  • Validation d'un modèle d'aléa d'inondation d'une résolution de 30 m des États-Unis contigus par Oliver E. J. Wing, Paul D. Bates, Christopher C. Sampson, Andrew M. Smith, Kris A. Johnson, Tyler A. Erickson
  • Estimation des impacts locaux récents de l'élévation du niveau de la mer sur les pertes immobilières actuelles : une étude de cas sur le marché du logement à Miami-Dade, en Floride par Steven A. McAlpine, Jeremy R. Porter
  • Connaissez-vous le risque d'inondation de votre maison? par Edward Kearns, Jeremy Porter, Michael Amodeo
  • First Street Foundation Flood Lab par First Street Foundation
  • Communication d'une évaluation nationale des risques d'inondation à l'aide d'AWS par Ed Kearns, Mike Amodeo

Archive de lecture de séquence NIH NCBI (SRA) sur AWS

bam cram fastq génétique génomique sciences de la vie STRIDES transcriptomique séquençage de l'exome entier séquençage du génome entier

Le Sequence Read Archive (SRA), produit par le National Center for Biotechnology Information (NCBI) de la National Library of Medicine (NLM) des National Institutes of Health (NIH), stocke les données brutes de séquençage de l'ADN et les informations d'alignement à haut débit. plateformes de séquençage. Le SRA offre un accès ouvert à ces données de séquences biologiques pour soutenir les efforts de la communauté des chercheurs pour améliorer la reproductibilité et faire de nouvelles découvertes en comparant des ensembles de données. Les compartiments de ce registre contiennent des données SRA publiques dans le format d'origine (soumis par l'utilisateur) à partir de la valeur élevée sélectionnée et de la nouvelle valeur rel.

Exemples d'utilisation

Modèle de rafraîchissement rapide à haute résolution (HRRR) de la NOAA

agriculture climat réponse aux catastrophes environnementale durabilité météo

Le HRRR est un modèle atmosphérique NOAA en temps réel d'une résolution de 3 km, mis à jour toutes les heures, résolvant les nuages, permettant la convection, initialisé par des grilles de 3 km avec une assimilation radar de 3 km. Les données radar sont assimilées dans le HRRR toutes les 15 minutes sur une période d'une heure, ajoutant des détails supplémentaires à ceux fournis par l'assimilation horaire des données du Rafraîchissement rapide amélioré par radar de 13 km.

Exemples d'utilisation

  • Package HRRR-B Python : téléchargez et lisez les fichiers HRRR grib2 de Brian Blaylock
  • Guide de configuration de l'environnement Conda par Zach Rieck
  • Qu'est-ce que Zarr ? par Taylor Gowan
  • Exemple de visualisation Zarr par Taylor Gowan, James Powell, Zach Rieck
  • Définitions de variables de fichier Zarr par Taylor Gowan

Ensemble NOAA Rapid Refresh Forecast System (RRFS) [Prototype]

agriculture climat météorologique durabilité météo

Le système de prévision d'actualisation rapide (RRFS) est le système de prévision d'ensemble de nouvelle génération de la National Oceanic and Atmospheric Administration (NOAA) permettant la convection et rapidement mis à jour, actuellement prévu pour une mise en œuvre opérationnelle à la fin de 2023. La configuration opérationnelle comprendra une grille de 3 km couvrant Amérique du Nord et inclut des prévisions toutes les heures jusqu'à 18 heures, avec des extensions à 60 heures quatre fois par jour à 00, 06, 12 et 18 UTC. Chaque prévision est prévue pour être composée de 9 à 10 membres. Le RRFS fournira des orientations pour soutenir les intérêts des prévisions, y compris, mais sans s'y limiter, l'aviation, le temps convective sévère, les énergies renouvelables, les fortes précipitations et les conditions météorologiques hivernales à des échelles de temps où des orientations rapidement mises à jour sont particulièrement utiles.

Le RRFS est soutenu par le Unified Forecast System (UFS), une initiative communautaire de modélisation de la Terre, et bénéficie des efforts de développement collaboratif de la NOAA, des universités et des instituts de recherche.

Le S3 Bucket fournira des ensembles de données de trois des expériences de banc d'essai NOAA 2021. Au cours de chacune de ces expériences, une version prototype de RRFS en cours de développement sera exécutée. Ce qui suit est un aperçu de haut niveau des plages de dates de chacune des expériences sur banc d'essai, ainsi qu'un aperçu général de la ou des configurations prévues. Des liens sont fournis dans la section Documentation pour les configurations finalisées détaillées.

2021 Hazardous Weather Testbed Spring Forecast Experiment, du 3 mai au 4 juin Ensemble multiphysique de 9 membres avec perturbations stochastiques exécuté une fois par jour à un espacement de grille de 3 km couvrant l'Amérique du Nord jusqu'à 60 heures. Les conditions initiales et les conditions aux limites latérales sont tirées des GFS et GEFS. 2021 Banc d'essai hydrométéorologique Expérience annuelle de crues éclair et de pluies intenses (FFaIR), du 21 juin au 23 juillet, à l'exclusion de la semaine du 4 juillet Ensemble multiphysique de 9 membres avec perturbations stochastiques exécuté une fois par jour à un espacement de grille de 3 km couvrant l'Amérique du Nord jusqu'à 60 heures. Les conditions initiales et les conditions aux limites latérales sont tirées des GFS et GEFS. 2021-2022 Expérience de météorologie hivernale au banc d'essai hydrométéorologique, de la mi-novembre à la mi-mars Prévu -- Système d'assimilation de données RRFS mis à jour toutes les heures à un espacement de grille de 3 km couvrant l'Amérique du Nord. Les détails sont encore à déterminer.

Pour chaque cycle, l'ensemble de données est organisé par jour de cycle, heure de la journée et membre. Par exemple, rrfs.20210504/00/mem01/ contient la prévision du membre d'ensemble 1 initialisée à 00 UTC le 04 mai 2021. Les utilisateurs trouveront deux types de sortie au format GRIB2. Le premier est :

Cela signifie qu'il s'agit du membre 1 de l'ensemble RRFS initialisé à 00 UTC, qu'il couvre le domaine nord-américain et qu'il s'agit des données maillées post-traitées à l'heure 24. Cette sortie est sur un domaine latitude-longitude tourné à un espacement de grille de 3 km. Ce sont des fichiers volumineux et les utilisateurs peuvent souhaiter créer un sous-ensemble ou re-projeter la grille après le téléchargement. Nous vous recommandons d'utiliser l'application WGRIB2 à ces fins.

Le deuxième fichier de sortie au format grib2 est le suivant :

Ces grilles ont été sous-ensembles du domaine nord-américain beaucoup plus vaste à un domaine CONUS sur une projection conforme conique de Lambert et contiennent également beaucoup moins de champs, ce qui entraîne des fichiers plus petits. L'équipe du projet produit ces fichiers pour faciliter la participation à diverses expériences sur banc d'essai de la NOAA, telles que le banc d'essai sur les conditions météorologiques dangereuses.

Des graphiques pour des analyses sélectionnées sont également inclus dans un répertoire plots/ sous chaque jour d'expérimentation pour une visualisation rapide mais simple.

Ce travail est soutenu par le projet Unified Forecast System Research to Operation (UFS R2O) qui est financé conjointement par l'Office of Science and Technology Integration (OSTI) de la NOAA du National Weather Service (NWS) et le Weather Program Office (WPO), [Joint Technology Transfer Initiative (JTTI)] de l'Office of Oceanic and Atmospheric Research (OAR).

Exemples d'utilisation

  • Cadre de modélisation communautaire sous-tendant le RRFS - L'application météorologique à courte portée UFS par la communauté UFS
  • Prototype de système de prévision d'actualisation rapide (RRFS) basé sur UFS sur le cloud par Holt, C., D. Abdi, J. A. Abeles, J. R. Carley, C. W. Harrop, R. Panda, S. Trahan et C. R. Alexander
  • Les détails de la configuration utilisée lors de l'expérience de prévision printanière de 2021 sur banc d'essai pour conditions météorologiques dangereuses peuvent être trouvés dans le tableau 11 de l'aperçu du programme et du plan d'exploitation de la NOAA.
  • Statut de l'ensemble de nouvelle génération permettant la convection de la NOAA : le système de prévision de rafraîchissement rapide par Carley J.R., C.R. Alexander, J.K. Wolff, J. Beck, L. Wicker, E. Rogers, J.A Abeles, E. Aligo, J.A. Aravequia, B. Blake, L. Dawson, C.-H. Jeon, D. Jovic, T. Lei, J. Purser, M.E. Pyle, P. Shafran, R. Vasic, W.-S. Wu, Y. Wu, X. Zhang, D.T. Kleist et J.-W. Bao
  • Une capacité de modélisation de zone limitée pour le noyau dynamique de volume fini cubique (FV3) et une comparaison avec un nid bidirectionnel global par Black, TL, JA Abeles, BT Blake, D. Jovic, E. Rogers, X. Zhang, EA Aligo, LC Dawson, Y. Lin, E. Strobach, PC Shafran et JR Carley

Indice urbain de différence normalisée (NDUI)

observation de la terre géospatiale imagerie satellitaire durabilité urbaine

Le NDUI est combiné avec le composite Landsat Normalized Difference Vegetation Index (NDVI) sans ombre nuageuse et le DMSP/OLS Night Time Light (NTL) pour caractériser les zones urbaines mondiales à une résolution de 30 m, et il peut grandement améliorer les zones urbaines, qui peuvent ensuite être se distingue facilement des terres nues, y compris les jachères et les déserts. Avec la capacité de délimiter les limites urbaines et, en même temps, de présenter suffisamment de détails spatiaux dans les zones urbaines, le NDUI a le potentiel pour des études d'urbanisation à l'échelle régionale et mondiale.

Exemples d'utilisation

  • Une méthode robuste pour générer une série temporelle cohérente à partir des données de lumière nocturne DMSP/OLS par Qingling Zhang et Bhartendu Pandey et Keren C.Seto
  • Construire une meilleure image urbaine : combiner l'imagerie de télédétection de jour et de nuit par Qingling Zhang et Bin Li et David Thau & Rebecca Moore
  • Correction globale des images DMSP par Yifang Wang
  • Extraction automatisée d'agglomérations urbaines avec NDUI en utilisant Python et Google Earth Engine par Yifang Wang
  • Un exemple d'utilisation de données ndui avec les outils AWS sagemaker par Yifang Wang

OpenStreetMap sur AWS

intervention en cas de catastrophe cartographie géospatiale osm durabilité

OSM est une carte du monde gratuite et modifiable, créée et maintenue par des bénévoles. Les archives de données OSM régulières sont mises à disposition dans Amazon S3.

Exemples d'utilisation

Instrument de surveillance de l'ozone (OMI) / Densité de la colonne troposphérique Aura NO2

qualité de l'air atmosphère observation de la terre environnement géospatial imagerie satellitaire durabilité

Densité de la colonne troposphérique de NO2, testée pour CloudFraction < 30% composite quotidien mondial à une résolution de 0,25 degré pour la plage temporelle de 2004 à mai 2020. Les données d'archives originales en HDF5 ont été traitées dans un format GeoTiff optimisé pour le cloud (COG). Assurance qualité - Ces données ont été validées par l'équipe scientifique de la NASA au Goddard Space Flight Center. Remarque : https://airquality.gsfc.nasa.gov/caution-interpretation.

Exemples d'utilisation

Nuage de points LiDAR de la Préfecture municipale de São Paulo (PMSP)

villes élévation géospatiale terre lidar cartographie urbain

L'objectif de la Mapa 3D Digital da Cidade (M3DC) de la mairie de São Paulo est de publier des données de nuages ​​de points LiDAR. Les données initiales ont été acquises en 2017 par levés aériens et des données futures seront ajoutées. Cet ensemble de données accessible au public est fourni au format Entwine Point Tiles sous la forme d'un octree sans perte, à pleine densité, basé sur l'encodage LASzip (LAZ).

Exemples d'utilisation

Télémétrie par radiosonde SondeHub

climat environnement GPS météo

La télémétrie SondeHub Radiosonde contient des données mondiales de radiosonde (ballon météorologique) capturées par SondeHub à partir de nos stations de réception radiosonde_auto_rx participantes. radiosonde_auto_rx est un projet open source visant à recevoir et décoder la télémétrie des radiosondes aéroportées à l'aide de techniques radio définies par logiciel, permettant l'étude de la télémétrie et parfois la récupération de la radiosonde elle-même. Actuellement, 313 stations réceptrices fournissent des données pour une moyenne de 384 radiosondes par jour. Les données de ce référentiel contiennent des trames de télémétrie reçues, y compris le type de radiosonde, la position GPS, a.

Exemples d'utilisation

  • Utiliser Athena pour lire les données des radiosondes par Michaela Wheeler
  • Chargement d'exemples de blocs-notes dans SageMaker par Michaela Wheeler
  • Cartes de développement STM32 (littéralement) Falling From The Sky (Comment soumettre des données) par Mark Jessop et Michaela Wheeler
  • pysondehub par Sondehub
  • Utilisation de pysondehub pour lire les données de radiosonde par Michaela Wheeler

Projet 3000 génomes du riz

agriculture sécurité alimentaire génétique génomique sciences de la vie

Le 3000 Rice Genome Project est un effort international visant à séquencer les génomes de 3 024 variétés de riz de 89 pays.

Exemples d'utilisation

  • RiceGalaxy par l'Institut international de recherche sur le riz
  • Rice Galaxy: une ressource ouverte pour la science végétale par Juanillas V et al (2019)
  • Variantes structurelles dans 3000 génomes de riz par Fuentes RR et al (2019)
  • Suivi de l'origine de deux composants génétiques associés aux éclats d'éléments transposables dans le riz domestiqué par Chen J et al (2019)

Grand ensemble du modèle du système terrestre communautaire (LENTILLE CESM)

atmosphère climat géospatial glace terre modèle d'apprentissage automatique océans durabilité

L'ensemble de données de simulation numérique de grand ensemble (LENS) du modèle du système terrestre communautaire (CESM) comprend un ensemble de 40 simulations climatiques pour la période 1920-2100 utilisant des données historiques (1920-2005) ou en supposant le scénario de concentration de gaz à effet de serre RCP8.5 ( 2006-2100), ainsi que des cycles de contrôle plus longs basés sur des conditions préindustrielles. Les données comprennent à la fois des variables de surface (2D) et volumétriques (3D) dans les domaines de l'atmosphère, de l'océan, des terres et des glaces. Le volume total de données de l'ensemble de données d'origine est

500 To, qui a traditionnellement été stocké comme

150 000 fichiers CF/NetCDF individuels sur disque o.

Exemples d'utilisation

  • Version rendue (statique) de Jupyter Notebook par Anderson Banihirwe, NCAR
  • Jupyter Notebook et autres documentations et outils pour CESM LENS sur AWS par l'équipe NCAR Science at Scale
  • Analyse de grands ensembles de modèles climatiques dans le nuage par Joe Hamman, NCAR
  • Le projet de grand ensemble du modèle du système terrestre communautaire (CESM) : une ressource communautaire pour l'étude du changement climatique en présence de variabilité climatique interne par Kay et al. (2015), Bull. AMS, 96, 1333-1349

Digital Earth Africa Sentinel-2 Niveau-2A

agriculture deafrica intervention en cas de catastrophe observation de la terre géospatiale ressource naturelle imagerie satellitaire durabilité

La mission Sentinel-2 fait partie du programme Copernicus de l'Union européenne pour l'observation de la Terre. Sentinel-2 se compose de satellites jumeaux, Sentinel-2A (lancé le 23 juin 2015) et Sentinel-2B (lancé le 7 mars 2017). Les deux satellites ont la même orbite, mais distants de 180° pour une couverture et une livraison de données optimales. Leurs données combinées sont utilisées dans le produit Digital Earth Africa Sentinel-2. Ensemble, ils couvrent toutes les surfaces terrestres de la Terre, les grandes îles, les eaux intérieures et côtières tous les 3 à 5 jours. Les données Sentinel-2 sont hiérarchisées par niveau de pré-traitement. Les données de niveau 0, de niveau 1A et de niveau 1B contiennent des données brutes fr.

Exemples d'utilisation

  • Utiliser les données Sentinel-2 dans l'Open Data Cube par Alex Leith
  • Digital Earth Africa Explorer par les contributeurs de Digital Earth Africa
  • Services Web Digital Earth Africa par les contributeurs de Digital Earth Africa
  • Formation Digital Earth Africa par les contributeurs de Digital Earth Africa

Encyclopédie des éléments de l'ADN (ENCODE)

bioinformatique biologie apprentissage en profondeur génétique génomique sciences de la vie apprentissage automatique

L'Encyclopedia of DNA Elements (ENCODE) Consortium est une collaboration internationale de groupes de recherche financée par le National Human Genome Research Institute (NHGRI). L'objectif d'ENCODE est de construire une liste complète des éléments fonctionnels du génome humain, y compris des éléments qui agissent au niveau des protéines et de l'ARN, et des éléments régulateurs qui contrôlent les cellules et les circonstances dans lesquelles un gène est actif. Les enquêteurs d'ENCODE utilisent une variété de tests et de méthodes pour identifier les éléments fonctionnels. La découverte et l'annotation d'éléments géniques s'effectuent principalement par séquençage d'un .

Exemples d'utilisation

Données d'entrée GEOS-Chem

qualité de l'air climat environnement météorologique durabilité météo

Données d'entrée pour le modèle de transport chimique GEOS-Chem. Y compris les produits météorologiques NASA/GMAO MERRA-2 et GEOS-FP, les inventaires d'émissions HEMCO et d'autres petites données telles que les conditions initiales du modèle.

Exemples d'utilisation

Génome en bouteille sur AWS

indice de référence génétique génomique sciences de la vie vcf

Plusieurs génomes de référence pour permettre la traduction du séquençage du génome humain entier à la pratique clinique. Le 11/12/2020, ces données ont été mises à jour pour refléter la version la plus récente de GIAB.

Exemples d'utilisation

  • Le projet Github du génome dans une bouteille par le consortium Genome In A Bottle
  • Séquençage longue durée et à couverture élevée d'échantillons de référence du trio chinois Han par Wang Y et al (2019)
  • Outils d'analyse comparative GA4GH par l'équipe d'analyse comparative GA4GH
  • Séquençage extensif de sept génomes humains pour caractériser des matériaux de référence de référence par Zook J et al (2016)

JMA Himawari-8

agriculture intervention en cas de catastrophe observation de la terre géospatiale météorologique imagerie satellitaire durabilité météo

Himawari-8, stationné à 140E, détenu et exploité par l'Agence météorologique japonaise (JMA), est un satellite météorologique géostationnaire, avec Himawari-9 comme sauvegarde en orbite, qui fournit une couverture constante et uniforme de l'Asie de l'Est, et le régions du Pacifique ouest et central à environ 35 800 km au-dessus de l'équateur avec une orbite correspondant à la période de rotation de la Terre. Cela permet aux bureaux météorologiques de la JMA d'effectuer une observation ininterrompue des phénomènes environnementaux tels que les typhons, les volcans et les systèmes météorologiques généraux. Pour toute question concernant les spécifications d'imagerie Himawari-8, visitez .

Exemples d'utilisation

NA-CORDEX - Composante nord-américaine de l'expérience de réduction d'échelle régionale coordonnée

atmosphère climat géospatiale terre machine learning modèle durabilité

L'ensemble de données NA-CORDEX contient des données et des conseils sur les scénarios de changement climatique régionaux pour l'Amérique du Nord, à utiliser dans les impacts, la prise de décision et la science du climat. L'archive de données NA-CORDEX contient les résultats des modèles climatiques régionaux (MCR) exécutés sur un domaine couvrant la majeure partie de l'Amérique du Nord en utilisant les conditions aux limites des simulations du modèle climatique mondial (GCM) dans les archives CMIP5. Ces simulations s'étendent de 1950 à 2100 avec une résolution spatiale de 0,22°/25 km ou 0,44°/50 km. Cette version AWS S3 des données inclut des variables sélectionnées converties au format Zarr à partir du NetCDF d'origine. Seules les données quotidiennes a.

Exemples d'utilisation

  • Catalogue d'admission-ESM par Brian Bonnlander (NCAR)
  • Jupyter Notebook et autres documentations et outils par Brian Bonnlander, Seth McGinnis (NCAR)
  • Le jeu de données NA-CORDEX, version 1.0. NCAR Climate Data Gateway, Boulder CO (2017) par Mearns, Linda O., et al.
  • Version rendue (statique) de Jupyter Notebook par Brian Bonnlander (NCAR)

Actifs du génome de référence Refgenie

bioinformatique biologie génétique infrastructure génomique sciences de la vie transcriptomique unicellulaire transcriptomique séquençage du génome entier

Ressources de données génomiques de référence refgenie pré-construites utilisées pour aligner et analyser les données de séquence d'ADN.

Exemples d'utilisation

Données climatiques SILO sur AWS

agriculture climat observation de la terre environnement météorologique modèle durabilité eau météo

SILO est une base de données de données climatiques australiennes de 1889 à nos jours. Il fournit des produits de données temporels continus et quotidiens dans des formats prêts à l'emploi pour la recherche et les applications opérationnelles. SIL.

Exemples d'utilisation

Sentinelle-1

agriculture intervention en cas de catastrophe observation de la terre imagerie satellitaire géospatiale durabilité

Sentinel-1 est une paire de satellites européens d'imagerie radar (SAR) lancés en 2014 et 2016. Son cycle de revisite de 6 jours et sa capacité à observer à travers les nuages ​​le rendent parfait pour la surveillance maritime et terrestre, les interventions d'urgence en cas de catastrophes environnementales et les applications économiques. . Les données GRD sont disponibles dans le monde depuis janvier 2017.

Exemples d'utilisation

Sentinelle-3

observation de la terre environnement géospatial terre océans imagerie satellitaire durabilité

Cet ensemble de données se compose d'observations du satellite Sentinel-3 du programme d'observation de la Terre Copernicus de la Commission européenne. Sentinel-3 est un satellite en orbite polaire qui effectue 14 orbites autour de la Terre par jour. Il transporte l'instrument de couleur océanique et terrestre (OLCI) pour les mesures optiques marines et terrestres à moyenne résolution, le radiomètre de température de surface de la mer et des terres (SLSTR), l'altimètre radar SAR (SRAL), le radiomètre à micro-ondes (MWR) et la détermination précise de l'orbite. (POD). Le satellite a été lancé en 2016 et est entré en phase opérationnelle de routine en 20.

Exemples d'utilisation

Sentinelle-5P Niveau 2

qualité de l'air atmosphère observation de la terre environnement géospatial imagerie satellitaire durabilité

Cet ensemble de données se compose d'observations du satellite Sentinel-5 Precursor (Sentinel-5P) du programme d'observation de la Terre Copernicus de la Commission européenne. Sentinel-5P est un satellite en orbite polaire qui effectue 14 orbites autour de la Terre par jour. Il porte l'instrument de surveillance TROPOspheric (TROPOMI) qui est un spectromètre qui détecte l'ultraviolet (UV), le visible (VIS), le proche (NIR) et l'infrarouge à ondes courtes (SWIR) pour surveiller l'ozone, le méthane, le formaldéhyde, les aérosols, le monoxyde de carbone, l'azote dioxyde de carbone et de dioxyde de soufre dans l'atmosphère. Le satellite a été lancé en octobre 2017 et est entré en ro.

Exemples d'utilisation

Statistiques récapitulatives de la biobanque britannique sur la panascendance

étude d'associations à l'échelle du génome génétique sciences de la vie génomique génétique des populations

Une analyse multi-ascendance de 7 221 phénotypes à l'aide d'un cadre de test d'association de modèles mixtes généralisé, couvrant 16 119 études d'association à l'échelle du génome. Nous fournissons une méta-analyse standard pour toutes les populations et avec une approche d'exclusion d'une population pour chaque trait. Les données sont fournies au format tsv (par phénotype) et Hail MatrixTable (tous les phénotypes et variantes). Les métadonnées sont fournies dans les manifestes de phénotype et de variante.

Exemples d'utilisation

Ensemble d'objets et de modèles Yale-CMU-Berkeley (YCB)

Ce projet vise principalement à faciliter l'analyse comparative des performances dans la recherche en robotique. L'ensemble de données fournit des modèles de maillage, des images RVB, RVB-D et des nuages ​​de points de plus de 80 objets. Les objets physiques sont également disponibles via le projet de benchmarking YCB. Les données sont collectées par deux systèmes de pointe : la plate-forme de numérisation UC Berkley et le scanner Google. Les données de la plate-forme de numérisation UC Berkley fournissent des maillages générés avec une reconstruction de Poisson, des maillages générés avec l'intégration d'images de plage volumétrique, des versions texturées des deux maillages, des fichiers Kinbody pour l'utilisation des maillages avec OpenRAVE, 600 .

Exemples d'utilisation

ISDAsol

agriculture analytique conservation de la biodiversité apprentissage en profondeur sécurité alimentaire apprentissage automatique géospatial imagerie satellitaire

iSDAsoil est une ressource contenant des prédictions de propriétés des sols pour l'ensemble du continent africain, générées à l'aide de l'apprentissage automatique. Des cartes pour plus de 20 propriétés de sol différentes ont été créées à 2 profondeurs différentes (0-20 et 20-50cm). Les prédictions des propriétés du sol ont été faites à l'aide de l'apprentissage automatique couplé à des données de télédétection et à un ensemble de formation de plus de 100 000 échantillons de sol analysés. Cet ensemble de données comprend des images des propriétés prédites du sol, des erreurs de modèle et des covariables satellites utilisées dans le processus de cartographie.

Exemples d'utilisation

Atlas du cerveau de la souris Allen

biologie expression génique génétique traitement d'images imagerie sciences de la vie apprentissage automatique Mus musculus neurobiologie transcriptomique

Le Allen Mouse Brain Atlas est une collection à l'échelle du génome de profils d'expression génique de résolution cellulaire utilisant l'hybridation in situ (ISH). Des méthodes de production de données hautement méthodiques et une couverture anatomique complète via un échantillonnage dense et uniformément espacé facilitent la cohérence et la comparabilité des données entre >20 000 gènes. L'utilisation d'une souche de souris consanguine avec une variance minimale d'un animal à l'autre permet de traiter le cerveau essentiellement comme un réseau tissulaire tridimensionnel complexe mais hautement reproductible. L'ensemble de données Allen Mouse Brain Atlas et les outils associés sont disponibles via un.

Exemples d'utilisation

Bases de données BLAST (Basic Local Alignment Sequences Tool)

bioinformatique biologie génétique génomique santé sciences de la vie protéine index de référence transcriptomique

Un référentiel centralisé de bases de données BLAST pré-formatées créé par le National Center for Biotechnology Information (NCBI).

Exemples d'utilisation

  • BLAST+ Docker par NCBI BLAST
  • BLAST+ : Architecture et applications par Christiam Camacho 1 , George Coulouris, Vahram Avagyan, Ning Ma, Jason Papadopoulos, Kevin Bealer, Thomas L Madden
  • Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données de protéines par S F Altschul, T L Madden, A A Schäffer, J Zhang, Z Zhang, W Miller, D J Lipman

Battre la leucémie myéloïde aiguë (LAM) 1.0

cancer génétique génomique Homo sapiens sciences de la vie

Beat AML 1.0 est un programme de recherche collaboratif impliquant 11 centres médicaux universitaires qui ont travaillé collectivement pour mieux comprendre les médicaments et les combinaisons de médicaments qui devraient être priorisés pour un développement ultérieur au sein de sous-ensembles cliniques et/ou moléculaires de patients atteints de leucémie myéloïde aiguë (LAM). Beat AML 1.0 fournit le plus grand ensemble de données à ce jour sur les échantillons de leucémie myéloïde aiguë primaire offrant une réponse génomique, clinique et médicamenteuse. WXS) et R.

Exemples d'utilisation

Données harmonisées COVID-19

coronavirus COVID-19 sciences de la vie

Une collecte harmonisée des données de base relatives aux cas signalés de COVID-19 par géographie, dans un format préparé pour l'analyse

Exemples d'utilisation

Projet de séquençage d'essais cliniques - Lymphome diffus à grandes cellules B

cancer génomique sciences de la vie STRIDES transcriptomique séquençage du génome entier

L'objectif du projet est d'identifier des altérations génétiques récurrentes (mutations, délétions, amplifications, réarrangements) et/ou des signatures d'expression génique. Le National Cancer Institute (NCI) a utilisé le séquençage du génome entier et/ou le séquençage de l'exome entier en conjonction avec le séquençage du transcriptome. Les échantillons ont été traités et soumis à une caractérisation génomique à l'aide de pipelines et de procédures établis dans le cadre du projet d'analyse du génome du cancer (TCGA).

Exemples d'utilisation

  • Un supercomplexe multiprotéique contrôlant la signalisation oncogène dans le lymphome par Phelan JD, Young RM, Webster DE, Roulland S, Wright GW, Kasbekar M, Shaffer AL 3rd, Ceribelli M, Wang JQ, Schmitz R, Nakagawa M, Bachy E, Huang DW, Ji Y, Chen L, Yang Y, Zhao H, Yu X, Xu W, Palisoc MM, Valadez RR, Davies-Hill T, Wilson WH, Chan WC, Jaffe ES, Gascoyne RD, Campo E, Rosenwald A, Ott G, Delabie J, Rimsza LM, Rodriguez FJ, Estephan F, Holdhoff M, Kruhlak MJ, Hewitt SM, Thomas CJ, Pittaluga S, Oellerich T, Staudt LM
  • Génétique et pathogenèse du lymphome diffus à grandes cellules B par Roland Schmitz, Ph.D., George W. Wright, Ph.D., Da Wei Huang, MD, Calvin A. Johnson, Ph.D., James D. Phelan, Ph.D. .D., James Q. Wang, Ph.D., Sandrine Roulland, Ph.D., Monica Kasbekar, Ph.D., Ryan M. Young, Ph.D., Arthur L. Shaffer, Ph.D., Daniel J. Hodson, MD, Ph.D., Wenming Xiao, Ph.D., et al.
  • Genomic Data Commons par le National Cancer Institute

Ensemble de données public Deutsche Börse

marchés financiers données de marché négociation

L'ensemble de données publiques Deutsche Börse se compose de données commerciales agrégées à des intervalles d'une minute à partir des systèmes de négociation Eurex et Xetra. Il fournit le prix initial, le prix le plus bas, le prix le plus élevé, le prix final et le volume pour chaque minute de la journée de négociation et pour chaque titre négociable. Si vous avez besoin de données à plus haute résolution, y compris les mouvements de prix non négociés, veuillez vous référer à notre produit de données de marché historiques ici. N'oubliez pas non plus de consulter notre portail pour développeurs.

Exemples d'utilisation

Digital Earth Africa Sentinel-1 Correction radiométrique du terrain

agriculture deafrica intervention en cas de catastrophe observation de la terre géospatiale ressource naturelle imagerie satellitaire durabilité

Le produit de rétrodiffusion Sentinel-1 de DE Africa est développé pour être conforme aux spécifications CEOS Analysis Ready Data for Land (CARD4L). La mission Sentinel-1, composée d'une constellation de deux satellites radar à synthèse d'ouverture (SAR) en bande C, est exploitée par l'Agence spatiale européenne (ESA) dans le cadre du programme Copernicus. La mission collecte actuellement des données tous les 12 jours sur l'Afrique à une résolution spatiale d'environ 20 m. La rétrodiffusion radar mesure la quantité de rayonnement micro-ondes réfléchi vers le capteur depuis la surface du sol. Cette mesure est sensible aux rugosités de surface.

Exemples d'utilisation

Archives distribuées pour l'intégration des données de neurophysiologie (DANDI)

biologie imagerie cellulaire électrophysiologie infrastructure sciences de la vie neuroimagerie neurophysiologie neurosciences

DANDI est une archive publique d'ensembles de données de neurophysiologie, y compris les données brutes et traitées, et les conteneurs logiciels associés. Les ensembles de données sont partagés selon une licence Creative Commons CC0 ou CC-BY. Les archives de données fournissent un large éventail de données de neurophysiologie cellulaire. Cela inclut les enregistrements d'électrodes et optiques, ainsi que les données d'imagerie associées à l'aide d'un ensemble de normes communautaires : NWB:N - NWB:Neurophysiology, BIDS - Brain Imaging Data Structure et Details &rarr

Exemples d'utilisation

Données du radar météorologique de l'Institut météorologique finlandais

agriculture observation de la terre météorologique durabilité météo

Le radar météorologique à jour du réseau radar FMI est disponible en Open Data. Les données contiennent à la fois des données radar uniques ainsi que des composites sur la Finlande aux formats GeoTIFF et HDF5. Les paramètres composites disponibles comprennent la réflectivité radar (DBZ), l'intensité des précipitations (RR) et l'accumulation de précipitations de 1, 12 et 24 heures. Les paramètres radar uniques comprennent la réflectivité radar (DBZ), la vitesse radiale (VRAD), la classification de la pluie (HCLASS) et la hauteur du sommet des nuages ​​(ETOP 20). Les données de volume brutes des radars simples sont également fournies au format HDF5 avec les conventions ODIM 2.3. Les données radar deviennent disponibles.

Exemples d'utilisation

Ensemble de données cliniques sur le cancer chez l'adulte de Foundation Medicine (FM-AD)

L'ensemble de données cliniques sur le cancer de l'adulte de Foundation Medicine (FM-AD) est une étude menée par Foundation Medicine Inc (FMI). Les données de profilage génomique d'environ 18 000 patients adultes atteints d'un large éventail de cancers ont été générées à l'aide du test de profilage génomique complet FoundationeOne, FMI, disponible dans le commerce. Cet ensemble de données contient des données cliniques et biologiques ouvertes.

Exemples d'utilisation

  • Le séquençage ciblé de nouvelle génération du cancer de la prostate avancé identifie des cibles thérapeutiques potentielles et l'hétérogénéité de la maladie. par Beltran H, Yelensky R, Frampton GM, Park K, Downing SR, MacDonald TY, Jarosz M, Lipson D, Tagawa ST, Nanus DM, Stephens PJ, Mosquera JM, Cronin MT, Rubin MA
  • Le profilage génomique à haut débit des tumeurs solides adultes révèle de nouvelles connaissances sur la pathogenèse du cancer par Ryan J. Hartmaier, Lee A. Albacker, Juliann Chmieelecki, Mark Bailey, Jie He, Michael E. Goldberg, Shakti Ramkissoon, James Suh, Julia A. Elvin , Samuel Chiacchia, Garrett M. Frampton, Jeffrey S. Ross, Vincent Miller, Philip J. Stephens et Doron Lipson
  • Genomic Data Commons par le National Cancer Institute

Dictionnaires de Tokenizer japonais

traitement du langage naturel japonais csv

Dictionnaires japonais Tokenizer à utiliser avec MeCab.

Exemples d'utilisation

MIMIC-III (« Marché d'informations médicales pour les soins intensifs »)

bioinformatique santé sciences de la vie traitement du langage naturel nous

MIMIC-III (« Medical Information Mart for Intensive Care ») est une grande base de données à centre unique comprenant des informations relatives aux patients admis dans les unités de soins intensifs d'un grand hôpital de soins tertiaires. Les données comprennent les signes vitaux, les médicaments, les mesures de laboratoire, les observations et les notes consignées par les prestataires de soins, l'équilibre hydrique, les codes de procédure, les codes de diagnostic, les rapports d'imagerie, la durée du séjour à l'hôpital, les données de survie, etc. La base de données prend en charge les applications, notamment la recherche universitaire et industrielle, les initiatives d'amélioration de la qualité et les cours de l'enseignement supérieur. Le MIMIC-I.

Exemples d'utilisation

Segmentation Médicale Décathlon

tomodensitométrie imagerie médicale sciences de la vie imagerie par résonance magnétique médecine nifti segmentation

Avec les récents progrès de l'apprentissage automatique, les algorithmes de segmentation sémantique deviennent de plus en plus généralistes et traduisibles en tâches invisibles. De nombreuses avancées algorithmiques clés dans le domaine de l'imagerie médicale sont communément validées sur un petit nombre de tâches, limitant notre compréhension de la généralisabilité des contributions proposées. Un modèle qui fonctionne directement sur de nombreuses tâches, dans l'esprit d'AutoML, aurait un impact considérable sur les soins de santé. Le domaine de l'imagerie médicale manque également d'une référence entièrement open source et complète pour la validation algorithmique à usage général.

Exemples d'utilisation

NASA NEX

climat observation de la terre ressources naturelles imagerie satellitaire durabilité

Une collection d'ensembles de données sur les sciences de la Terre maintenue par la NASA, y compris des projections du changement climatique et des images satellite de la surface de la Terre.

Exemples d'utilisation

Nouvelle prévision du système de prévision d'ensemble mondial (GEFS) de la NOAA

agriculture climat météorologique durabilité météo

La NOAA a généré un ensemble de données de réanalyse et de reprévision multidécennale pour accompagner la version de nouvelle génération de son système de prévision d'ensemble, le Global Ensemble Forecast System, version 12 (GEFSv12). Les prévisions en temps réel sont accompagnées de « reprévisions » météorologiques, c'est-à-dire de prévisions rétrospectives couvrant la période 2000-2019. Ces reprévisions ne sont pas aussi nombreuses que les données en temps réel elles n'ont été générées qu'une seule fois par jour, à partir des conditions initiales 00 UTC, et seuls 5 membres ont été fournis, à l'exception suivante. Une fois par semaine, une reprévision de 11 membres a été générée, et ces ex.

Exemples d'utilisation

Réseau mondial de climatologie historique de la NOAA (GHCN-D)

agriculture climat météorologique durabilité météo

Global Historical Climatology Network - Daily est un ensemble de données de la NOAA qui contient des observations quotidiennes sur les zones terrestres mondiales. Il contient des mesures basées sur des stations provenant de stations terrestres du monde entier, dont environ les deux tiers sont uniquement destinés à la mesure des précipitations. D'autres éléments météorologiques comprennent, sans s'y limiter, la température quotidienne maximale et minimale, la température au moment de l'observation, les chutes de neige et l'épaisseur de la neige. Il s'agit d'un composite d'enregistrements climatiques provenant de nombreuses sources qui ont été fusionnés et soumis à une série commune d'examens d'assurance qualité. Certaines données sont plus.

Exemples d'utilisation

NREL Base de données nationale sur le rayonnement solaire

observation de la terre énergie géospatial météorologique solaire durabilité

Diffusée au public dans le cadre de l'initiative Open Energy Data du ministère de l'Énergie, la base de données nationale sur le rayonnement solaire (NSRDB) est une collection complète en série des valeurs horaires et demi-horaires des trois mesures les plus courantes du rayonnement solaire - horizontal horizontal , irradiance horizontale directe, normale et diffuse — et données météorologiques. Ces données ont été recueillies à un nombre suffisant d'emplacements et d'échelles temporelles et spatiales pour représenter avec précision les climats régionaux de rayonnement solaire.

Exemples d'utilisation

  • Exemples HSDS par Caleb Phillips, Caroline Draxl, John Readey, Jordan Perr-Sauer, Michael Rossol
  • Visionneuse NSRDB par Manajit Sengupta, Yu Xe, Anthony Lopez, Aron Habte, Galen Maclaurin, James Shelby, Paul Edwards
  • La base de données nationale sur le rayonnement solaire (NSRDB) par Manajit Sengupta, Yu Xe, Anthony Lopez, Aron Habte, Galen Maclaurin, James Shelby

Herbier national de NSW

agriculture biodiversité biologie climat numérique préservation écosystèmes environnemental

L'Herbier national de la Nouvelle-Galles du Sud est l'une des ressources botaniques scientifiques, culturelles et historiques les plus importantes de l'hémisphère sud. Les 1,43 million de spécimens de plantes préservés ont été capturés sous forme d'images haute résolution et les métadonnées de biodiversité associées à chacune des images capturées sous forme numérique. Les spécimens botaniques datent de 1770 à aujourd'hui et forment des collections de bons qui documentent la distribution et la diversité de la flore mondiale à travers le temps, en particulier celle de la Nouvelle-Galles du Sud, de l'Australie et du Pacifique. Les données sont utilisées dans l'évaluation de la biodiversité, le système.

Exemples d'utilisation

OuvrirEEW

apprentissage en profondeur intervention en cas de catastrophe observation de la terre tremblements de terre apprentissage automatique durabilité

Grillo a développé un système d'alerte précoce aux tremblements de terre basé sur l'IoT, avec des capteurs actuellement déployés au Mexique, au Chili, à Porto Rico et au Costa Rica, et ouvre désormais au monde entier toutes ses archives de données d'accéléromètre non traitées pour encourager le développement de nouveaux algorithmes capables de détecter et caractériser rapidement les séismes en temps réel.

Exemples d'utilisation

PoroTomo

sismologie traitement d'images géothermiques géospatiales

Diffusées au public dans le cadre de l'initiative Open Energy Data du ministère de l'Énergie, ces données représentent des données de détection acoustique distribuée verticale et horizontale (DAS) collectées dans le cadre du projet de tomographie poroélastique (PoroTomo) financé en partie par l'Office of Energy. Efficacité et énergie renouvelable (EERE), Département américain de l'énergie.

Exemples d'utilisation

  • DAS et DTS à Brady Hot Springs : observations sur le couplage et les interprétations couplées par Douglas E. Miller, Thomas Coleman, Xiangfang Zeng, Jeremy R. Patterson, Elena C. Reinnisch, Michael A. Cardiff, Herbert F. Wang, Dante Fratta, Whitney Trainor-Guitton, Clifford H. Thurber, Michelle ROBERTSON, Kurt FEIGL et l'équipe PoroTomo
  • Tutoriel sur le traitement des données PoroTomo DAS par Nicole Taverna et Ross Ring-Jarvi
  • Réponse au mouvement du sol à un tremblement de terre ML 4.3 à l'aide de réseaux de détection acoustique et de sismomètres distribués co-localisés par Herbert F Wang, Xiangfang Zeng, Douglas E Miller, Dante Fratta, Kurt L Feigl, Clifford H Thurber, Robert J Mellors

Serratus : Recherche ultra-profonde de nouveaux virus – Diffusion de données versionnées

bam COVID-19 génétique génomique sciences de la vie MERS SARS SARS-CoV-2 virus

Serratus est un projet collaboratif de science ouverte pour la découverte ultra-rapide de coronavirus connus et inconnus en réponse à la pandémie de COVID-19 grâce à une réanalyse de données génomiques accessibles au public. Les données d'alignement viral des vertébrés qui en résultent sont explorables via Serratus Explorer et directement accessibles sur Amazon S3.

Exemples d'utilisation

  • L'alignement de séquences à l'échelle de la pétabase catalyse la découverte virale par Edgar R., Taylor J., Lin V., et al (2021)
  • Tantalus : Un package R pour l'exploration des données Serratus par l'équipe Serratus
  • coronaSPAdes. Des amas de gènes biosynthétiques aux assemblages viraux à ARN par Meleshko D., Hajirasouliha I. et Korobeynikov A. (2021)
  • Classification des ribovirus par une séquence de code-barres par polymérase par Babaian A. et Edgar R. (2021)
  • Diversification des deltavirus mammifères par déplacement d'hôte par Bergner L.M., Orton R.J., et al (2021)

Sophos/ReversingLabs 20 millions de données de détection de malwares

apprentissage en profondeur de la cybersécurité étiqueté apprentissage automatique

Un ensemble de données destiné à soutenir la recherche sur les techniques d'apprentissage automatique pour détecter les logiciels malveillants. Il comprend des métadonnées et des fonctionnalités EMBER-v2 pour environ 10 millions de fichiers exécutables portables bénins et 10 millions malveillants, avec des fichiers désarmés mais complets pour tous les échantillons de logiciels malveillants. Tous les échantillons sont étiquetés à l'aide des méthodes d'étiquetage internes de Sophos, ont des fonctionnalités extraites à l'aide de l'ensemble de fonctionnalités EMBER-v2, ainsi que des métadonnées obtenues via la bibliothèque python pefile, des nombres de détection obtenus via la télémétrie ReversingLabs et des balises comportementales supplémentaires qui indiquent le comportement approximatif de l'échantillon.

Exemples d'utilisation

Storm EVent ImageRy (SEVIR)

imagerie satellitaire météorologique

Collection d'images satellitaires GOES-16 ABI alignées spatialement et temporellement, de mosaïques radar NEXRAD et de détections de foudre GOES-16 GLM.

Exemples d'utilisation

Le Projet Microbiome Humain

acide aminé fasta fastq génétique génomique sciences de la vie métagénomique microbiome

Le projet sur le microbiome humain (HMP) financé par les NIH est un effort de collaboration de plus de 300 scientifiques de plus de 80 organisations pour caractériser de manière exhaustive les communautés microbiennes habitant le corps humain et élucider leur rôle dans la santé et les maladies humaines. Pour accomplir cette tâche, des échantillons de la communauté microbienne ont été isolés à partir d'une cohorte de 300 sujets humains adultes en bonne santé sur 18 sites spécifiques dans cinq régions du corps (cavité buccale, voies respiratoires, voie urogénitale, peau et intestin). Un séquençage ciblé du gène marqueur bactérien 16S et/ou un séquençage complet du métagénome en shotgun a été effectué.

Exemples d'utilisation

  • Souches, fonctions et dynamiques dans le projet élargi du microbiome humain par Jason Lloyd-Price, Anup Mahurkar, Gholamali Rahnavard, Jonathan Crabtree, Joshua Orvis, A. Brantley Hall, et al.
  • Nouvelles variantes génomiques microbiennes dans la communauté fécale des patients après une interruption chirurgicale du tractus gastro-intestinal humain supérieur par Ranjit Kumar, Jayleen Grams, Daniel I. Chu, David K.Crossman, Richard Stahl, Peter Eipers, et al
  • Le projet du microbiome humain par Peter J. Turnbaugh, Ruth E. Ley, Micah Hamady, Claire M. Fraser-Liggett, Rob Knight et Jeffrey I. Gordon

Le prédicteur d'effet de variante (VEP) et le plug-in LOFTEE (Loss-Of-Function Transcript Effect Estimator)

étude d'association à l'échelle du génome sciences de la vie génomique loftee vep

Le VEP détermine l'effet des variantes génétiques (SNP, insertions, suppressions, CNV ou variantes structurelles) sur les gènes, les transcrits et la séquence protéique, ainsi que les régions régulatrices. L'Institut européen de bioinformatique produit l'outil/db VEP et publie des mises à jour tous les 1 à 6 mois. La dernière version contient 267 génomes de 232 espèces contenant 5567663 gènes codant pour des protéines. Cet ensemble de données héberge les 5 dernières versions pour l'homme, le rat et le poisson zèbre. En outre, il héberge les fichiers de référence requis pour le plug-in LOFTEE (Loss-Of-Function Transcript Effect Estimator) tel qu'il est couramment utilisé avec VEP.

Exemples d'utilisation

Tableaux de population du recensement de 1940, cartes des districts de dénombrement et descriptions des districts de dénombrement

1940 archives du recensement recensement démographie nara

Les tableaux de population du recensement de 1940 ont été créés par le Bureau of the Census dans le but d'énumérer toutes les personnes vivant aux États-Unis le 1er avril 1940, bien que certaines personnes aient été omises. Les listes de population du recensement de 1940 ont été numérisées par la National Archives and Records Administration (NARA) et rendues publiques le 2 avril 2012. Les cartes des districts de recensement du recensement de 1940 contiennent des cartes des comtés, des villes et d'autres divisions civiles mineures qui montrent les districts de recensement, le recensement secteurs, et les limites et les nombres associés utilisés pour chaque recensement. La couverture est nationale et inclus.

Exemples d'utilisation

Nucléome 4D (4DN)

bioinformatique biologie génétique imagerie génomique sciences de la vie

Le programme 4D Nucleome (4DN) du National Institutes of Health (NIH) Common Fund est d’étudier l’organisation tridimensionnelle du noyau dans l’espace et le temps (la 4e dimension). Le noyau d'une cellule contient de l'ADN, le « modèle » génétique qui code tous les gènes qu'un organisme vivant utilise pour produire les protéines nécessaires à l'exécution des fonctions cellulaires vitales. Comprendre la conformation de l'ADN nucléaire et comment il est maintenu ou change en réponse à des signaux environnementaux et cellulaires au fil du temps fournira des informations sur la biologie fondamentale ainsi que sur les aspects de la santé humaine.

Exemples d'utilisation

Service d'information sur les sols en Afrique (AfSIS) Chimie des sols

agriculture environnement sécurité alimentaire sciences de la vie apprentissage automatique durabilité

Cet ensemble de données contient des données spectrales infrarouges du sol et des mesures de référence des propriétés du sol appariées pour des échantillons de sol géoréférencés qui ont été collectés dans le cadre du projet Africa Soil Information Service (AfSIS), qui a duré de 2009 à 2018. Dans cette version, nous incluons les données collectées au cours de la phase I ( 2009-2013.) Des échantillons géoréférencés ont été collectés dans 19 pays d'Afrique subsaharienne à l'aide d'un plan d'échantillonnage statistiquement solide, et leurs propriétés de sol ont été analysées à l'aide de les deux méthodes conventionnelles d'analyse des sols et méthodes spectrales (spectroscopie de réflectance diffuse infrarouge). Les deux .

Exemples d'utilisation

Ensemble de données d'images Amazon Bin

amazon.science apprentissage automatique de la vision par ordinateur

L'ensemble de données d'images Amazon Bin contient plus de 500 000 images et métadonnées provenant des bacs d'un pod dans un centre de distribution Amazon en fonctionnement. Les images bin dans cet ensemble de données sont capturées car les unités robotiques transportent des pods dans le cadre des opérations normales d'Amazon Fulfillment Center.

Exemples d'utilisation

Modèles atmosphériques de Météo-France

agriculture climat réponse aux catastrophes observation de la terre environnement apprentissage automatique modèle météorologique durabilité météo

    ARPEGE World couvre le monde entier avec une résolution horizontale de base de 0,5° (

Exemples d'utilisation

Larges références du génome

bioinformatique biologie cancer génétique génomique Homo sapiens sciences de la vie index de référence

Une large référence de génome humain maintenue crée des références hg19/hg38 et leurres.

Exemples d'utilisation

Initiatives de caractérisation du génome du cancer - Lymphome de Burkitt, cancer du col de l'utérus VIH+

cancer génomique sciences de la vie STRIDES transcriptomique

Le programme Cancer Genome Characterization Initiatives (CGCI) soutient la recherche de pointe en génomique sur les cancers adultes et pédiatriques. Les chercheurs du CGCI développent et appliquent des méthodes de séquençage avancées qui examinent les génomes, les exomes et les transcriptomes dans divers types de tumeurs. Le programme comprend le projet de séquençage du génome du lymphome de Burkitt (BLGSP) et le projet de caractérisation moléculaire des tumeurs VIH+ - Cancer du col de l'utérus (HTMCP-CC). L'ensemble de données contient un supplément clinique ouvert, un supplément de biospécimen, une quantification d'expression de gène RNA-Seq, une quantification d'expression d'isoforme miRNA-Seq.

Exemples d'utilisation

Segmentation des organites cellulaires en microscopie électronique (COSEM) sur AWS

biologie cellulaire vision par ordinateur microscopie électronique apprentissage automatique organite

Images haute résolution de structures subcellulaires.

Exemples d'utilisation

  • Super-résolution tridimensionnelle corrélative et microscopie électronique à face de bloc de cellules entières congelées dans le vitré. par David P. Hoffman1, Gleb Shtengel, C. Shan Xu, Kirby R. Campbell, Melanie Freeman, Lei Wang, Daniel E. Milkie, H. Amalia Pasolli, Nirmala Iyer, John A. Bogovic, Daniel R. Stabley, Abbas Shirinifard , Song Pang, David Peale, Kathy Schaefer, Wim Pomp, Chi-Lun Chang, Jennifer Lippincott-Schwartz, Tom Kirchhausen1, David J. Solecki, Eric Betzig, Harald F. Hess.
  • Systèmes FIB-SEM améliorés pour l'imagerie 3D à grand volume par C. Shan Xu, Kenneth J. Hayworth, Zhiyuan Lu, Patricia Grob, Ahmed M. Hassan, José G. García-Cerdán, Krishna K. Niyogi, Eva Nogales, Richard J Weinberg, Harald F. Hess.

Indices Cloud pour Bowtie, Kraken, HISAT et Centrifuge

bioinformatique biologie cartographie génomique médecine index de référence séquençage du génome entier

Les outils génomiques utilisent des bases de données de référence comme index pour fonctionner rapidement et efficacement, de la même manière que les moteurs de recherche Web utilisent les index pour des requêtes rapides. Ici, nous agrégeons les index génomiques, pan-génomiques et métagénomiques pour l'analyse des données de séquençage.

Exemples d'utilisation

Modèle numérique d'élévation (MNE) de Copernicus

agriculture intervention en cas de catastrophe observation de la terre altitude imagerie satellitaire géospatiale durabilité

Le Copernicus DEM est un modèle numérique de surface (DSM) qui représente la surface de la Terre, y compris les bâtiments, les infrastructures et la végétation. Nous fournissons deux instances de Copernicus DEM nommées GLO-30 Public et GLO-90. GLO-90 offre une couverture mondiale à 90 mètres. GLO-30 Public offre une couverture mondiale limitée à 30 mètres car un petit sous-ensemble de tuiles couvrant des pays spécifiques n'a pas encore été rendu public par le programme Copernicus. Notez que dans les deux cas les zones océaniques n'ont pas de tuiles, là on peut supposer des valeurs de hauteur égales à zéro. Les données sont fournies en tant que Cloud Optimized Ge.

Exemples d'utilisation

DigitalCorpora

criminalistique informatique sécurité informatique CSI cybersécurité criminalistique numérique traitement d'images imagerie recherche d'informations Internet détection d'intrusion apprentissage automatique traduction automatique analyse de texte

Images de disque, vidages de mémoire, captures de paquets réseau et fichiers à utiliser dans la recherche et l'enseignement en criminalistique numérique. Toutes ces informations sont accessibles via le site Web digitalcorpora.org et mises à disposition à l'adresse s3://digitalcorpora/.Certains de ces ensembles de données mettent en œuvre des scénarios qui ont été exécutés par des étudiants, des professeurs et d'autres acteurs en personne. En tant que telles, les informations sont synthétiques et peuvent être utilisées sans autorisation préalable ou approbation de l'IRB. Les détails de ces ensembles de données peuvent être trouvés sur Détails &rarr

Exemples d'utilisation

Données publiques du télescope spatial Hubble

Le télescope spatial Hubble (HST) est l'un des instruments scientifiques les plus productifs jamais créés. Cet ensemble de données contient des données calibrées et brutes pour tous les instruments actuellement actifs sur HST : ACS, COS, STIS et WFC3.

Exemples d'utilisation

NAIP sur AWS

imagerie aérienne agriculture observation de la terre géospatial ressources naturelles réglementation durabilité

Le National Agriculture Imagery Program (NAIP) acquiert des images aériennes pendant les saisons de croissance agricole dans la zone continentale des États-Unis. Imagerie (RVB + NIR) au format MRF, sur le compartiment Amazon S3 source naip en tant que 4 bandes (RVB + NIR) au format Raw GeoTiff non compressé et visualisation naip en tant que format GeoTiff optimisé pour le cloud à 3 bandes (RVB). Les données NAIP sont fournies au niveau de l'État chaque année, un certain nombre d'États reçoivent des mises à jour, avec .

Exemples d'utilisation

Système de prévision climatique de la NOAA (CFS)

agriculture climat météorologique durabilité météo

Le Climate Forecast System (CFS) est un modèle représentant l'interaction globale entre les océans, les terres et l'atmosphère de la Terre. Produit par plusieurs dizaines de scientifiques sous la direction des National Centers for Environmental Prediction (NCEP), ce modèle offre des données horaires avec une résolution horizontale jusqu'à un demi-degré (environ 56 km) autour de la Terre pour de nombreuses variables. Le CFS utilise les dernières approches scientifiques pour recueillir ou assimiler des observations provenant de sources de données, notamment des observations de surface, des observations de montgolfières, des observations d'aéronefs et des observations par satellite.

Exemples d'utilisation

Réanalyse du modèle national de l'eau de la NOAA

agriculture agriculture climat réponse aux catastrophes durabilité environnementale transport météo

L'ensemble de données NOAA National Water Model Reanalysis contient les résultats de simulations rétrospectives sur plusieurs décennies. Ces simulations ont utilisé les précipitations observées comme entrée et ont ingéré d'autres champs d'entrée météorologiques requis à partir d'un ensemble de données de réanalyse météorologique. La fréquence de sortie et les champs disponibles dans cet ensemble de données NWM historiques diffèrent de ceux contenus dans le modèle de prévision en temps réel. Une application de cet ensemble de données est de fournir un contexte historique aux conditions actuelles d'écoulement fluvial, d'humidité du sol et du manteau neigeux NWM. Les données de réanalyse peuvent être utilisées pour déduire les fréquences de débit et effectuer la température.

Exemples d'utilisation

Système de prévision opérationnelle de la NOAA (OFS)

climat côtier réponse aux catastrophes environnemental météorologique océans durabilité eau météo

Le système de prévision opérationnelle (OFS) a été développé pour servir la communauté des utilisateurs maritimes. OFS a été développé dans le cadre d'un projet conjoint de la NOAA/National Ocean Service (NOS)/Office of Coast Survey, la NOAA/NOS/Center for Operational Oceanographic Products and Services (CO-OPS) et la NOAA/National Weather Service (NWS )/Centres nationaux de prévision environnementale (NCEP) Central Operations (NCO). L'OFS génère le niveau d'eau, le courant d'eau, la température de l'eau, la salinité de l'eau (sauf pour les Grands Lacs) et les prévisions immédiates et prévisionnelles quatre fois par jour.

Exemples d'utilisation

Base de données mondiale sur les océans de la NOAA (WOD)

climat océans durabilité

La base de données mondiale sur les océans (WOD) est la plus grande base de données de profils océaniques sous-marins historiques, formatée de manière uniforme, contrôlée par la qualité et accessible au public. Du deuxième voyage du capitaine Cook en 1772 aux flotteurs Argo automatisés d'aujourd'hui, l'agrégation globale des informations variables sur l'océan, y compris la température, la salinité, l'oxygène, les nutriments et autres par rapport à la profondeur, permet d'étudier et de comprendre les changements physiques, chimiques et dans une certaine mesure l'état biologique des océans du monde. Parcourez le compartiment via l'explorateur AWS S3 : https://noaa-wod-pds.s3.amazonaws.com/index.html

Exemples d'utilisation

Catalogue des archives nationales

archives documents gouvernementaux catalogue des archives nationales de nara

L'ensemble de données du catalogue des archives nationales contient toutes les notices d'autorité des descriptions numérisées et les notices et étiquettes électroniques, les transcriptions et les commentaires pour les fonds d'archives de la NARA disponibles dans le catalogue.

Exemples d'utilisation

National Cancer Institute Center for Cancer Research - Génomique et expression du lymphome diffus à grandes cellules B (DLBCL)

L'étude décrit l'analyse intégrative des lésions génétiques dans 574 lymphomes diffus à grandes cellules B (DLBCL) impliquant le séquençage de l'exome et du transcriptome, l'analyse du nombre de copies d'ADN basée sur une matrice et le reséquençage ciblé d'amplicons. L'ensemble de données contient des données ouvertes de quantification d'expression génique RNA-Seq.

Exemples d'utilisation

Modèle de ville ouverte (OCM)

Open City Model est une initiative visant à fournir des données cityGML pour tous les bâtiments aux États-Unis. En utilisant d'autres jeux de données ouverts en conjonction avec notre propre code et algorithmes, notre objectif est de fournir des géométries 3D pour chaque bâtiment américain.

Exemples d'utilisation

Ensemble de données sur la leucémie chronique à neutrophiles de l'Oregon Health & Science University

cancer génomique sciences de la vie

L'étude OHSU-CNL propose le séquençage de l'ensemble de l'exome et de l'ARN sur une cohorte de 100 cas présentant des hémopathies malignes rares telles que la leucémie chronique à neutrophiles (LNC), la leucémie myéloïde chronique atypique (LMCa) et le syndrome myélodysplasique/néoplasmes myéloprolifératifs non classés (MDS/ MPN-U). Cet ensemble de données contient des données ouvertes de quantification d'expression génique RNA-Seq.

Exemples d'utilisation

Profilage des organoïdes du cancer du pancréas

cancer génétique génomique STRIDES transcriptomique séquençage du génome entier

Cette étude a généré une collection d'organoïdes pancréatiques normaux et cancéreux dérivés de patients et elle a été séquencée à l'aide du séquençage du génome entier (WGS), du séquençage de l'exome entier (WXS) et de l'ARN-Seq, ainsi que des tumeurs et des tissus normaux correspondants, si disponibles. L'étude fournit une ressource précieuse pour les chercheurs sur le cancer du pancréas. L'ensemble de données contient des données ouvertes de quantification d'expression génique RNA-Seq et des lectures alignées WGS/WXS/RNA-Seq contrôlées, une mutation somatique annotée WXS, une mutation somatique brute WXS et une quantification de jonction d'épissage RNA-Seq.

Exemples d'utilisation

Cartes d'inondation RAPID NRT

agriculture intervention en cas de catastrophe observation de la terre environnement eau

Données d'archives et en temps quasi réel de l'ensemble de données d'inondation à haute résolution (10 m) sur les États-Unis contigus, développées sur la base des archives d'images Sentinel-1 SAR (2016-current), à l'aide d'un journal automatisé d'inondation produit par radar (RAPID) algorithme.

Exemples d'utilisation

Données ouvertes REDASA COVID-19

coronavirus COVID-19 recherche d'informations sciences de la vie traitement du langage naturel analyse de texte

L'instantané COVID-19 de la synthèse et de l'analyse des données en temps réel (REDASA) contient le résultat du protocole de conservation produit par notre communauté de conservateurs. Vous trouverez une description détaillée dans notre article. Le premier compartiment S3 répertorié dans Ressources contient une vaste collection de documents médicaux au format texte extraits de l'ensemble de données CORD-19, ainsi que d'autres sources jugées pertinentes par le consortium REDASA. Le deuxième compartiment S3 contient une série de documents présentés par Amazon Kendra qui ont été considérés comme pertinents pour chaque question médicale posée. Le bucket S3 final contient les annotations GroundTruth cr.

Exemples d'utilisation

  • Curadr - Plateforme de conservation par le consortium REDASA, Imperial College London
  • Utilisation d'un pipeline de traitement de source Web sécurisé et constamment mis à jour pour soutenir la synthèse de données en temps réel et l'analyse de la littérature scientifique : étude de développement et de validation par Uddhav Vaghela, Simon Rabinowicz, Paris Bratsos, Guy Martin, Epameinondas Fritzilas, et al.

Ensemble de données Rapid7 FDNS TOUT

analytique sécurité informatique cyber sécurité internet

Sous-ensemble de requêtes FDNS ANY contre les noms de domaine produites par Rapid7 Project Sonar, rendues disponibles dans s3. Vous trouverez plus d'informations sur le schéma sur le site Web Open Data de Rapid7.

Exemples d'utilisation

Avions Rares

vision par ordinateur apprentissage en profondeur observation de la terre apprentissage automatique étiqueté géospatial imagerie satellitaire

RarePlanes est un ensemble de données d'apprentissage automatique open source unique de CosmiQ Works et AI.Reverie qui intègre à la fois des images satellites réelles et générées synthétiquement. L'ensemble de données RarePlanes se concentre spécifiquement sur la valeur des données synthétiques AI.Reverie pour aider les algorithmes de vision par ordinateur dans leur capacité à détecter automatiquement les avions et leurs attributs dans l'imagerie satellite. Bien qu'il existe d'autres ensembles de données de combinaisons synthétiques/réelles, RarePlanes est le plus grand ensemble de données à très haute résolution librement disponible conçu pour tester la valeur des données synthétiques d'un point de vue aérien. La vraie partie.

Exemples d'utilisation

Ensemble de données Sentinel-1 SLC pour l'Asie du Sud et du Sud-Est, Taïwan, la Corée et le Japon

intervention en cas de catastrophe observation de la terre environnement géospatial imagerie satellitaire durabilité

L'ensemble de données S1 Single Look Complex (SLC) contient des données radar à synthèse d'ouverture (SAR) dans la longueur d'onde de la bande C. Les capteurs SAR sont installés sur une constellation à deux satellites (Sentinelle-1A et Sentinelle-1B) en orbite autour de la Terre avec un temps de revisite combiné de six jours, exploité par l'Agence spatiale européenne. Les données S1 SLC sont un produit de niveau 1 qui collecte des informations d'amplitude et de phase radar dans des conditions tous temps, de jour ou de nuit, ce qui est idéal pour étudier les risques naturels et les interventions d'urgence, les applications terrestres, la surveillance des déversements d'hydrocarbures, les conditions de la glace de mer, et les effets du changement climatique associés.

Exemples d'utilisation

Sons des paysages centrafricains

biodiversité biologie écosystèmes géospatial terres sciences de la vie relevé des ressources naturelles

Paysages sonores d'archives enregistrés dans les paysages de forêt tropicale d'Afrique centrale, en mettant l'accent sur les vocalisations des éléphants de forêt africains (Loxodonta cyclotis).

Exemples d'utilisation

Échantillonneur de données Terra Fusion

pérennité de l'imagerie satellitaire géospatiale

Le jeu de données Terra Basic Fusion est un jeu de données fusionné des radiances originales de niveau 1 des cinq instruments Terra. Ils ont été entièrement validés pour contenir les données originales de niveau 1 de l'instrument Terra. Chaque fichier Terra Basic Fusion de niveau 1 contient une orbite Terra complète de données et a généralement une taille de 15 à 40 Go, selon la quantité de données collectées pour cette orbite. Il contient la luminance de l'instrument en unités physiques, la géolocalisation de l'indicateur de qualité de la luminance pour chaque IFOV à son heure d'observation de la géométrie de la vue solaire de sa résolution native et d'autres attributs/métadonnées. Il est stocké en HDF5, conforme aux conventions CF et accessible par les modèles améliorés netCDF-4. Sa convention de nommage est la suivante : TERRA_BF_L1B_OXXXX_YYYYMMDDHHMMSS_F000_V000.h5. Une description concise de l'ensemble de données, ainsi que des liens vers la documentation complète et les outils logiciels disponibles, sont disponibles sur la page du projet Terra Fusion : https://terrafusion.web.illinois.edu. Terra est le satellite phare du système d'observation de la Terre (EOS) de la NASA. Il a été mis en orbite le 18 décembre 1999 et embarque cinq instruments. Il s'agit du spectroradiomètre imageur à résolution moyenne (MODIS), du spectroradiomètre imageur multi-angle (MISR), du radiomètre spatial avancé d'émission et de réflexion thermique (ASTER), du système d'énergie radiante des nuages ​​et de la Terre (CERES) et des mesures de la pollution. dans la troposphère (MOPITT). L'ensemble de données Terra Basic Fusion est un enregistrement facile d'accès des radiances de niveau 1 pour les instruments allumés.

Exemples d'utilisation

Prévisions déterministes et probabilistes atmosphériques du Met Office britannique

agriculture climat observation de la terre météorologique durabilité météo

Les réutilisateurs de données météorologiques ont désormais une opportunité passionnante d'échantillonner, d'expérimenter et d'évaluer les données du modèle atmosphérique Met Office, tout en expérimentant une méthode transformatrice de demande de données via les API Restful sur AWS. Pour plus d'informations sur les données, consultez le site Web de Met Office. Pour des exemples d'utilisation des données, consultez le référentiel d'exemples. Si vous avez besoin d'aide et d'assistance pour utiliser les données, veuillez soulever un problème sur le référentiel d'exemples. Veuillez noter: Met Office améliore et met à jour en permanence ses modèles de prévisions opérationnelles. Notre dernière mise à jour est entrée en vigueur le 04/12/2019. Veuillez trouver le détail.

Exemples d'utilisation

UniProt

bioinformatique biologie chimie enzyme graphique sciences de la vie molécule protéine RDF SPARQL

L'Universal Protein Resource (UniProt) est une ressource complète pour les données de séquence et d'annotation de protéines. Les bases de données UniProt sont la base de connaissances UniProt (UniProtKB), les clusters de référence UniProt (UniRef) et l'archive UniProt (UniParc). Le consortium UniProt et les institutions hôtes EMBL-EBI, SIB Swiss Institute of Bioinformatics et PIR se sont engagés dans la préservation à long terme des bases de données UniProt.

Exemples d'utilisation

1000 génomes

sciences de la vie génomique génétique

Le projet 1000 génomes est une collaboration internationale qui a établi le catalogue le plus détaillé de la variation génétique humaine, y compris les SNP, les variantes structurelles et leur contexte haplotype. La phase finale du projet a séquencé plus de 2500 individus de 26 populations différentes à travers le monde et a produit un ensemble intégré d'haplotypes phasés avec plus de 80 millions de variantes pour ces individus.

Exemples d'utilisation

A2D2 : Ensemble de données de conduite autonome Audi

véhicules autonomes vision par ordinateur apprentissage profond lidar apprentissage machine cartographie robotique

Un ensemble de données multi-capteurs ouvert pour la recherche sur la conduite autonome. Cet ensemble de données comprend des images segmentées sémantiquement, des nuages ​​de points sémantiques et des cadres de délimitation 3D. En outre, il contient des images de caméra à 360 degrés non étiquetées, des données lidar et de bus pour trois séquences. Nous espérons que cet ensemble de données facilitera davantage la recherche et le développement actifs dans les domaines de l'IA, de la vision par ordinateur et de la robotique pour la conduite autonome.

Exemples d'utilisation

Jeu de données de diagramme AI2 (AI2D)

4 817 diagrammes illustratifs pour la recherche sur la compréhension des diagrammes et la réponse aux questions associées.

Exemples d'utilisation

AI2 Ensemble de données de citations significatives

Exemples d'utilisation

Défi Raisonnement AI2 (ARC) 2018

apprentissage automatique csv json

7 787 questions scientifiques à choix multiples et corpus associés

Exemples d'utilisation

ARPA-E PERFORM Données prévisionnelles

énergie environnement géospatial modèle solaire durabilité

Le programme ARPA-E PERFORM est un programme financé par l'ARPA-E qui vise à utiliser la puissance et la charge coïncidentes dans le temps et cherche à développer des systèmes de gestion innovants qui représentent le risque de livraison relatif de chaque actif et équilibrent le risque collectif de tous les actifs du réseau. Un paradigme axé sur les risques permet aux opérateurs de : (i) comprendre pleinement la véritable probabilité de maintenir un équilibre offre-demande et la fiabilité du système, (ii) gérer le système de manière optimale et (iii) évaluer la véritable valeur des services de fiabilité essentiels. Ce changement de paradigme est critique pour tous les systèmes électriques et est essentiel pour les réseaux wi.

Exemples d'utilisation

AWS iGenomes

agriculture biologie Caenorhabditis elegans Danio rerio génétique génomique Homo sapiens sciences de la vie Mus musculus Rattus norvegicus index de référence

Génomes de référence communs hébergés sur AWS S3. Peut être utilisé lors de l'alignement et de l'analyse des données brutes de séquençage de l'ADN.

Exemples d'utilisation

Allen Brain Observatory - Ensemble de données publiques AWS de codage visuel

électrophysiologie traitement d'images sciences de la vie apprentissage automatique Mus musculus neurobiologie neuroimagerie traitement du signal

Le Allen Brain Observatory - Visual Coding est une étude standardisée à grande échelle de l'activité physiologique dans le cortex visuel, l'hippocampe et le thalamus de la souris. Il comprend des ensembles de données collectées à la fois avec l'imagerie à deux photons et les sondes Neuropixels, deux techniques complémentaires pour mesurer l'activité des neurones in vivo. L'ensemble de données d'imagerie à deux photons présente des réponses calciques évoquées visuellement par les neurones exprimant GCaMP6 dans une gamme de couches corticales, de zones visuelles et de lignes Cre. L'ensemble de données Neuropixels présente une activité de pointe à partir de régions cérébrales corticales et sous-corticales distribuées, c.

Exemples d'utilisation

Amazon-PQA

amazon.science machine learning traitement du langage naturel

Questions sur les produits Amazon et leurs réponses, ainsi que les informations publiques sur les produits.

Exemples d'utilisation

Reformulation de la réponse

amazon.science machine learning traitement du langage naturel

Réponses originales de StackExchange et leur reformulation vocale.

Exemples d'utilisation

Robustesse des erreurs de reconnaissance automatique de la parole (ASR)

amazon.science apprentissage en profondeur apprentissage automatique traitement du langage naturel reconnaissance vocale

Ensembles de données de classification de phrases avec erreurs ASR.

Exemples d'utilisation

CIViC (Interprétation clinique des variantes du cancer)

génétique génomique sciences de la vie vcf

La médecine de précision fait référence à l'utilisation de stratégies de prévention et de traitement adaptées aux caractéristiques uniques de chaque individu et de sa maladie. Dans le contexte du cancer, cela pourrait impliquer l'identification de mutations spécifiques permettant de prédire la réponse à une thérapie ciblée. La littérature biomédicale décrivant ces associations est vaste et croît rapidement. Actuellement, ces interprétations existent en grande partie dans des bases de données privées ou encombrées, ce qui entraîne une répétition considérable des efforts. Réaliser la médecine de précision nécessitera que ces informations soient centralisées, débattues et interprétées.

Exemples d'utilisation

GCM CMIP6 réduits à l'aide de WRF

agriculture atmosphère climat observation de la terre modèle environnemental océans simulations météo

Simulations climatiques historiques et futures à haute résolution de 1980 à 2100

Exemples d'utilisation

Ensemble de données sur la séquence du génome COVID-19

bam bioinformatique biologie coronavirus COVID-19 cram fastq génétique génomique santé sciences de la vie MERS SARS STRIDES transcriptomique virus séquençage du génome entier

Un référentiel de séquences centralisé pour tous les enregistrements contenant la séquence associée au nouveau virus corona (SARS-CoV-2) soumis au National Center for Biotechnology Information (NCBI) Sequence Read Archive (SRA). Sont incluses à la fois les séquences originales soumises par le chercheur principal ainsi que les séquences traitées par SRA qui nécessitent le SRA Toolkit pour l'analyse. De plus, les métadonnées fournies par le soumissionnaire incluses dans les enregistrements BioSample et BioProject associés sont disponibles avec les données calculées par le NCBI, telles que les résultats d'analyse taxonomique basée sur le k-mer, les assemblages contigus (contigs) a.

Exemples d'utilisation

Collection d'images de peinture cellulaire

biologie imagerie cellulaire peinture cellulaire imagerie par fluorescence imagerie à haut débit sciences de la vie microscopie

La Cell Painting Image Collection est une collection d'ensembles d'images de microscopie téléchargeables gratuitement. La peinture cellulaire est un test d'imagerie à haut débit impartial utilisé pour analyser les perturbations dans les modèles cellulaires. En plus des images elles-mêmes, chaque ensemble comprend une description de l'application biologique et un certain type de "vérité terrain" (résultats attendus).Les chercheurs sont encouragés à utiliser ces ensembles d'images comme points de référence lors du développement, des tests et de la publication de nouveaux algorithmes d'analyse d'images pour les sciences de la vie. Nous espérons que cet ensemble de données conduira à une meilleure compréhension de w.

Exemples d'utilisation

Espace conformationnel des peptides courts

acides aminés bioinformatique modélisation biomoléculaire sciences de la vie dynamique moléculaire protéine biologie structurale

Cet ensemble de données nous permet d'explorer l'espace conformationnel de tous les peptides possibles en utilisant les 20 acides aminés communs. Il se compose d'un ensemble de simulations exhaustives de la dynamique moléculaire des tripeptides et pentapeptides.

Exemples d'utilisation

CouverturesBR

surveillance des droits d'auteur couverture identification de la chanson identification de la chanson en direct musique caractéristiques de la musique ensemble de données récupération d'informations musicales reconnaissance de la musique

CoversBR est la première grande base de données audio avec, principalement, de la musique brésilienne pour les tâches de Covers Song Identification (CSI) et Live Song Identifications (LSI). En raison des restrictions de droits d'auteur, les audios des chansons ne peuvent pas être mis à disposition, mais les métadonnées et les fichiers de fonctionnalités sont accessibles au public. Les flux audio capturés à partir des chaînes de radio et de télévision pour la tâche d'identification des chansons en direct seront rendus publics. CoversBR est composé de métadonnées et de fonctionnalités extraites de 102298 chansons, réparties en 26366 groupes de reprises/versions, avec une moyenne de 3,88 versions par groupe. L'ensemble de la collection.

Exemples d'utilisation

Bathymétrie participative

observation de la terre océans durabilité

La communauté a fourni des données bathymétriques recueillies en collaboration avec l'Organisation hydrographique internationale.

Exemples d'utilisation

DialoGLUE : une référence de compréhension du langage naturel pour un dialogue axé sur les tâches

amazon.science données de conversation apprentissage automatique traitement du langage naturel

Ce bucket contient les points de contrôle utilisés pour reproduire les résultats de référence rapportés dans le benchmark DialoGLUE hébergé sur EvalAI (https://evalai.cloudcv.org/web/challenges/challenge-page/708/overview). Les scripts associés à l'utilisation des points de contrôle se trouvent ici : https://github.com/alexa/dialoglue. Le document associé décrivant le benchmark et les points de contrôle est ici : https://arxiv.org/abs/2009.13570. Les points de contrôle fournis incluent le modèle CONVBERT, un modèle BERT-esque formé sur un grand ensemble de données conversationnelles à domaine ouvert. Il comprend également la description des points de contrôle CONVBERT-DG et BERT-DG.

Exemples d'utilisation

Raisonnement discret sur le contenu des paragraphes (DROP)

apprentissage automatique traitement du langage naturel

L'ensemble de données DROP contient 96 000 paires de questions et réponses (QA) sur 6,7 000 paragraphes, répartis entre le train (77 000 QA), le développement (9,5 000 QA) et une partition de test cachée (9,5 000 QA).

Exemples d'utilisation

Ensemble de données de discussion thématique enrichi pour les systèmes de dialogue fondés sur les connaissances

amazon.science données de conversation apprentissage automatique traitement du langage naturel

Cet ensemble de données fournit des annotations supplémentaires en plus de l'ensemble de données Topical-Chat publié publiquement (https://github.com/alexa/Topical-Chat) qui aideront à reproduire les résultats de notre article "Policy-Driven Neural Response Generation for Knowledge-Grounded Systèmes de dialogue " (https://arxiv.org/abs/2005.12529?context=cs.CL). L'ensemble de données contient 5 fichiers : train.json, valid_freq.json, valid_rare.json, test_freq.json et test_rare.json. Chacun de ces fichiers aura des annotations supplémentaires au-dessus de l'ensemble de données Topical-Chat d'origine. Ces annotations spécifiques sont : les annotations des actes de dialogue a.

Exemples d'utilisation

Ensemble de données saisonnières multi-AV Ford

véhicules autonomes vision par ordinateur cartographie lidar robotique transport météo urbaine

Cette recherche présente un ensemble de données saisonnières multi-agents difficiles collectées par une flotte de véhicules autonomes Ford à différents jours et heures en 2017-18. Les véhicules Les véhicules ont été conduits manuellement sur un parcours moyen de 66 km dans le Michigan qui comprenait un mélange de scénarios de conduite comme l'aéroport de Detroit, les autoroutes, les centres-villes, le campus universitaire et le quartier de banlieue, etc. Chaque véhicule utilisé dans cette collecte de données est une Ford Fusion équipée d'une unité de mesure inertielle (IMU) Applanix POS-LV, de quatre scanners lidar 3D HDL-32E Velodyne, de caméras 1,3 MP grises à 6 points disposées sur le.

Exemples d'utilisation

Données de test GATK

bioinformatique biologie cancer génétique génomique sciences de la vie

L'ensemble de ressources de données de test GATK est une collection de fichiers pour le reséquençage des données génomiques humaines avec le Broad Institute's Genome Analysis Toolkit (GATK).

Exemples d'utilisation

Geosnap Data, Centre des sciences géospatiales

démographie géospatiale urbaine

Ce bucket contient plusieurs ensembles de données (sous forme de packages Quilt) créés par le Center for Geospatial Sciences (CGS) de l'Université de Californie-Riverside. Les données de ce compartiment contiennent les éléments suivants : 1) Données tabulaires et géographiques du recensement américain 2) Images de la couverture terrestre collectées par le Consortium multi-résolution des caractéristiques des terres 3) Données du réseau routier traitées à partir d'OpenStreetMap

Exemples d'utilisation

Phrases utiles tirées des avis

amazon.science recherche d'informations json traitement du langage naturel analyse de texte

Une collection de phrases extraites des avis des clients étiquetées avec leur score d'utilité.

Exemples d'utilisation

Centre de développement de modèles de cancer de la Human Cancer Models Initiative (HCMI)

cancer génomique sciences de la vie STRIDES séquençage du génome entier

La Human Cancer Models Initiative (HCMI) est un consortium international qui génère de nouveaux modèles de culture dérivés de tumeurs de nouvelle génération annotés de données génomiques et cliniques. Les modèles développés par HCMI et les données associées sont disponibles en tant que ressource communautaire. Le NCI contribue à l'initiative en soutenant quatre Cancer Model Development Centers (CMDC). Les CMDC sont chargées de produire des modèles de cancer de nouvelle génération à partir d'échantillons cliniques. Les modèles de cancer incluent des types de tumeurs qui sont rares, proviennent de patients issus de populations sous-représentées, manquent de traitement de précision ou manquent d'environ.

Exemples d'utilisation

Projet de pangénomique humaine

cram fast5 fastq génétique génomique sciences de la vie

Cet ensemble de données comprend des données de séquençage, des assemblages et des analyses pour la progéniture de dix trios parent-progéniture.

Exemples d'utilisation

Détection de l'humour à partir des systèmes de réponse aux questions sur les produits

amazon.science machine learning traitement du langage naturel

Cet ensemble de données fournit une détection d'humour étiquetée à partir des systèmes de réponse aux questions sur les produits. L'ensemble de données contient 3 fichiers csv : Humorous.csv contenant les questions humoristiques sur les produits, Non-humorous-unbiased.csv contenant les questions non humoristiques sur les produits des mêmes produits que l'humour, et Détails &rarr

Exemples d'utilisation

IDEAM - Réseau de radar colombien

agriculture observation de la terre météorologique ressource naturelle durabilité météo

Données historiques et de retard d'un jour du réseau radar IDEAM.

Exemples d'utilisation

Classification des images - ensembles de données fast.ai

vision par ordinateur apprentissage en profondeur apprentissage automatique

Certains des ensembles de données les plus importants pour la recherche sur la classification des images, notamment CIFAR 10 et 100, Caltech 101, MNIST, Food-101, Oxford-102-Flowers, Oxford-IIIT-Pets et Stanford-Cars. Cela fait partie de la collection d'ensembles de données fast.ai hébergée par AWS pour la commodité des étudiants fast.ai. Voir le lien de documentation pour les détails de la citation et de la licence pour chaque ensemble de données.

Exemples d'utilisation

Observations LOFAR ELAIS-N1 cycle 2 sur AWS

Ces données correspondent aux observations du télescope international LOFAR du champ céleste ELAIS-N1 (16:10:01 +54:30:36) durant le cycle 2 d'observations. Il y a 11 passages d'environ 8 heures chacun plus l'observation correspondante des cibles d'étalonnage avant et après le champ cible. Les données sont des ensembles de mesures (MS) contenant les données et métadonnées croisées divisées en 371 sous-bandes de fréquences par cible centrées sur


Blog de Michael Sandberg sur la visualisation de données

Avec la sortie de MicroStrategy Analytics Enterprise 9.4.1, la logique du moteur analytique a été améliorée en ce qui concerne la jointure des données de plusieurs ensembles de données dans un document Report Services. L'une des fonctionnalités disponibles avec cette version est la possibilité d'utiliser des objets (par exemple, des attributs, des mesures) à partir de plusieurs ensembles de données dans une seule grille dans un document.

Si un attribut sur une grille a des éléments qui peuvent être obtenus à partir de plusieurs jeux de données utilisés dans le document, les éléments affichés proviendront de la table de recherche globale. De plus, si un ou plusieurs des ensembles de données contenant l'attribut ont des données de forme d'attribut manquantes ou ont une forme d'attribut différente des autres ensembles de données, le moteur analytique suivra les règles notées ci-dessous pour composer la sortie finale :

Règle 1:

S'il existe une forme d'attribut avec une valeur nulle, le moteur analytique utilisera la valeur de forme non nulle d'autres ensembles de données au lieu de la forme nulle.

Règle 2 :

Si plusieurs ensembles de données ont des informations de forme d'attribut différentes pour l'élément d'attribut, le moteur analytique utilisera la forme d'attribut du plus grand ensemble de données.

Règle 3 :

Si plusieurs ensembles de données ont des informations de forme d'attribut différentes pour l'élément d'attribut et que ces ensembles de données ont le même nombre de lignes, le moteur analytique utilisera le premier ensemble de données du document pour la valeur de la forme d'attribut (selon la séquence d'ajout de l'ensemble de données).

REMARQUE: Les utilisateurs doivent noter que les règles sont appliquées pour chaque élément d'attribut individuel dans le résultat au niveau de la ligne plutôt qu'au niveau de l'ensemble de données.

Exemple 1:

Les utilisateurs peuvent considérer les ensembles de données suivants – C01 est un ensemble de données avec Customer City, Customer et Order :

C02 est un ensemble de données avec Client, Commande et une métrique de profit. Les utilisateurs peuvent noter qu'il manque le formulaire DESC dans l'attribut Customer dans le deuxième ensemble de données :

Si un document Report Services est créé avec ces deux ensembles de données et que les attributs sont placés sur une grille, les résultats suivants peuvent être observés. Comme noté dans Règle 1 , le moteur analytique affichera les valeurs non nulles de C01 pour les éléments d'attribut Client :

Exemple 2 :

Désormais, les utilisateurs peuvent considérer un ensemble de données différent comme C02 – similaire à l'ensemble de données initial, mais ici, le formulaire Nom du client (DESC) contient des valeurs au lieu de valeurs NULL. Cette fois, les valeurs des attributs ne sont pas cohérentes – voir que l'ID client 𔃱’ a des valeurs différentes pour le formulaire DESC pour différentes commandes (1 & 6).

Nom du client N ° de client Commander Profit
Client D 1 1 100
Client B 2 2 200
Client C 3 3 300
Xia D 4 4 400
Kris Du 5 5 500
Client A 1 6 610
Client E 2 7 720
Client F 6 8 860
Client G 7 9 970
Client H 8 10 1080

Si un rapport est créé pour cet ensemble de données, les utilisateurs observeront que la valeur du premier élément d'attribut dans l'ensemble de données est utilisée comme formulaire DESC pour les commandes 1 et 6, même si la valeur est différente dans les lignes suivantes (c'est la même chose que l'analyse précédente Comportement du moteur).

Lorsque ces ensembles de données sont utilisés dans la grille d'un document Report Services, le moteur analytique choisit les valeurs d'élément d'attribut de l'ensemble de données C02 à afficher dans les valeurs d'élément d'attribut. C'est à cause de Règle 2 expliqué ci-dessus.

Exemple 3 :

Considérez l'ensemble de données suivant :

Nom du client N ° de client Commander Profit
Client D 1 1 100
Client E 2 7 720
Xia D 4 4 400
Kris Du 5 5 500
Client G 7 9 970

Un rapport construit à partir de cet ensemble de données apparaît comme suit :

Après avoir remplacé l'ensemble de données ‘C02‘ de l'exemple précédent avec le nouvel ensemble de données, les résultats suivants sont affichés. Comme noté dans Règle 3 , parce que les deux C01 un C02 ont le même nombre de lignes, les éléments affichés pour l'attribut Customer seront renseignés à partir du premier dataset à ajouter au document – dans ce cas C01. Cependant, pour la première ligne des résultats, où il n'y a pas de client correspondant dans l'ensemble de données C01, Règle 1 sera appliqué et au lieu d'une valeur NULL, le champ Nom du client non nul ‘Customer G’ est sélectionné à partir de C02. (Les règles sont appliquées au niveau de l'élément individuel).

Suivant : Pourquoi certaines valeurs de métriques sont-elles vides dans les documents utilisant plusieurs ensembles de données dans MicroStrategy Analytics Enterprise 9.4.1

[1] Base de connaissances MicroStrategy, Comportement du moteur pour les grilles sur un document ou un tableau de bord Report Services avec plusieurs ensembles de données où certains formulaires d'attribut sont manquants ou ont des valeurs différentes des ensembles de données dans MicroStrategy Analytics Enterprise 9.4.1 et versions plus récentes, TN Key : 45463, 03/ 13/2014, https://resource.microstrategy.com/support/mainsearch.aspx.

REMARQUE : Vous devrez peut-être vous inscrire pour afficher la base de connaissances de MicroStrategy.


Voir la vidéo: La faune marine Antarctique: origine, diversité et potentiel face au réchauffement climatique (Janvier 2022).