这个发表在 Nature Genetics的水稻全基因组关联数据库 RHRD,很赞!!!

2023-09-20 21:01:55

历经半个世纪的发展,杂交水稻育种取得了巨大的成就,培育出了大量的高产、优质、适应环境变化的品系。本数据库是一个综合性的杂交水稻数据库(http://ricehybridresource.cemps.ac.cn/#/),涵盖了从1976年至2017年间发布的486个商业杂交水稻品种信息、基因组变异、表型与全基因组关联数据信息,共计3,325 个样品,5 百万+变异位点和 17 套表型数据,为现代杂交水稻育种提供了宝贵的资源。

30495b448375be41026836e242429d68.png

Figure 2.1: 首页设计采用平面式布局,网站Logo + 题目 + 菜单导航、特色轮播图 + 数据库描述、色块统计信息(点击可跳转对应的数据浏览页面)

2.1 数据库的特色功能

2.1.1 品种关键信息及关键表型数据可视化 (点击导航的Samples)

样品浏览页面按照不同的生态型(Hybrid ecotypes)、家系(Pedigree of hybrids)和繁育期(Breeding periods of hybrid)对所有品系的3,325个样本进行统计展示。饼图、表格联动展示,且均具备数据筛选的功能。表格下面交互式箱线图默认展示当前选择的所有样本的表型(17种)数据。

d918e8d55f783c0d791edb8e1fa09d35.png

Figure 2.2: 普通表格太枯燥,这里对表格的关键信息用饼图展示,一目了然样品的关键属性信息;每个属性有多少类,每类样品相对多少,增加了页面的丰富性,且方便筛选某一类样品。表格可筛选显示多少列,适应小屏幕展示。为了方便用户理解数据,对于缩写部分的含义在表头增加了信息提示(问号符号)。表格采用分页表格,按需向后台访问数据,单次加载数据少,加快了加载速度,且可全局搜索,方便查看特定类型样品。

6846305e80402c37de57bdb275e088da.png

Figure 2.3: 交互式箱线图展示单个表型信息,可通过下拉选择切换表型。箱线图提供 padding 调整功能,以获得合适大小的可视化结果和防止文字重叠或溢出图片。

交互式筛选。例如,在饼图中点击Hybrid,则第二个和第三个饼图仅展示Hybrid类群的数据,数据表中仅列出属于Hybrid2839个样本,同时boxplot只展示Hybrid的表型(如抽穗期)数据,通过下拉框选择不同的表型,进一步查看选定的表型的统计数据分布。

972f0a66d49bda6034dc996f2cc10000.png

Figure 2.4: 交互式筛选后的相关数据结果展示。

2.1.2 变异信息查询 (点击导航的Variant search)

2.1.2.1 输入查询条件

查询条件包括数据集(dataset)、类群(population)、染色体(chromosome)起始位置 或 基因ID。

Dataset分为三类All、Indel和SNP,如下图所示,用户可根据需求选择,仅支持单选;

9c17ae6382845e5edb6710b0d0672631.png

Figure 2.5: 简单的用户自定义选项进行数据筛选。该工具的复杂版本在我们开发的另一个网站[https://www.cmnpd.org/]有展示,支持逻辑组合筛选。

Population分为7个,如下图所示,用户可以根据需求选择,支持多个population同时查询;

1cbae3ede0c4cb75c5a17c94a5648024.png

Figure 2.6: 下拉集成搜索功能,方便快速定位样品。且提供 Select All快速多选。对于下拉项很多(超过 1000 的情况),支持分页下拉。传统的下拉下拉项有限,而生物网站样品多、基因多,下拉项会很多,全部加载会直接卡死页面,这里选择优化后的集成搜索的分页下拉形式,返回部分数据。但集成的搜索功能可以全局搜索,便于获取一类下拉值供用户选择。

染色体及起始位置,如下图所示,用户可输入感兴趣的染色体编号及起始位置;染色体编号可通过下拉选择(单选);

c8f21bd88e597f73f72c15aa1be99e2c.png

Figure 2.7: 下拉集成搜索功能,方便快速定位染色体编号。

基因,用户可通过下拉选择目标基因,支持选择多个基因;

0e90235eb5163ef3b5bd45cfd7ef621d.png

Figure 2.8: 下拉集成搜索功能,方便快速定位基因。对于下拉项很多(超过 1000 的情况),支持分页下拉。传统的下拉下拉项有限,而生物网站样品多、基因多,下拉项会很多,全部加载会直接卡死页面,这里选择优化后的集成搜索的分页下拉形式,返回部分数据。但集成的搜索功能可以全局搜索,便于获取一类下拉值供用户选择。

各项查询条件填写完成后,点击Submit

2.1.2.2 查询结果

以查询条件:Dataset=ALL、Population=Hybrid_indica*indicaRoster、Position=chr05: 5450000-5459999,结果如下:

第一部分:饼图展示查询的基因组区域变异的注释信息统计即当前搜索出的变异对基因组功能的影响(分为High、Low、Moderate、Modifier等)。该搜索下的编译绝大多数(注意不是全部; 如果全部都是 Modifier 类型,后面只会跟着一个饼图)是 Modifier 类型,所以看上去都是绿色。后面是对 3 种功能影响类型的细分,鼠标悬浮可查看具体信息。

6b162b011b691faaf2669353c6ab30be.png

Figure 2.9: 交互式饼图展示筛选出的突变位点的功能影响。饼图为 1 拖 n 的联动模式,第一个饼图为总览,第 2-4 个饼图为第一个饼图各个分类的细节展示,其数目取决于第一个饼图有多少个分类。

第二部分:展示每个基因组位点的变异信息,每一行是一个样品,每一列是一个位点,绿色代表SNP/Indel。表格可以左右拖动展示所有位点。

4aba1b96df26f35526c6abe5d6e5447a.png

Figure 2.10: 变异展示表格采用特定的可变表格列宽(前 4 列)+ 固定表格列宽(后面所有列)的形式最大限度的利用网页空间呈现更多和更紧凑的突变信息。表格中未显示全的 indel 信息,鼠标悬浮可显示全部信息。

第三部分:展示不同population在相同基因组位点的基因频率。以堆积柱状图的形式展示,可以清楚的看到不同population的差异。例如在chr05:5454075位点,Roster种群中碱基C的比例为83%Hybrid_indica*indica种群中碱基C65%。注:堆积柱状图可通过下方的标尺拖动缩放或移动展示特定的区域。

cdb1b4347975c86908e7d150ef280bb5.png

Figure 2.11: 堆积柱状图展示基因型。该图存在 3 点特色,1. 显示位点很多时增加拖动定位功能,方便查看关键位点;2. 部分位点碱基组成复杂,导致图例很长,这里图例上移,展示清晰明了;3. 图例分组:同时展示多个群体的基因型。图的右上角依然存在我们的特色标记:结果下载和 padding 调整。我们开发擅长的是可视化效果。

第四部分:单倍型分析。用户可通过多选框,选择用于分析单倍型的基因组位点,指定缺失率(missing rate),提交后可以获得单倍型信息,如饼图与表格所展示的内容。饼图展示了不同单倍型的分布,表格中展示了每种单倍型的major allele(红色标记)。

6efb3837f87d487f248c3c4cb9c2f3d2.png

Figure 2.12: 多位点框选是这部分的一个特色功能,如何快速选择多个位点进行单体型分析。这里采用组合框选的形式,用户可以拖动矩形框选择关注的一个多个区域。单体型表格采用特定的可变表格列宽(第 1 列)+ 固定表格列宽(后面所有列)的形式最大限度的利用网页空间呈现更多和更紧凑的突变信息。表格中未显示全的 indel 信息,鼠标悬浮可显示全部信息。

2.1.3 表型与基因组关联分析(Phenotype & GWAS)

2.1.3.1 表型数据查询

所有17个表型被分成4个大类,如下图所示,用户根据需求选择表型组及特定的表型,进而查看相应的数据及GWAS结果。

29f1b2617e654c724779ba78e61e20fd.png

Figure 2.13: 下拉集成搜索功能,方便快速选择表型组及对应的表型,更精准的查询数据库中的表型数据。

2.1.3.2 查询结果

表格展示了所选表型的数据及GWAS分析结果,以Morphological characteristics中的Tiller Angle为例,共检索到3197个样本具备这个表型数据,GWAS分析显示,该表型与chr09的变异信息具有显著的相关性。

3ee753f020eeb1ec540c1fa7bfcd83e8.png

Figure 2.14: 交互式曼哈顿图展示 GWAS 结果。

2.1.4 数据库成果

该数据库为中国科学院分子植物科学卓越创新中心团队委托易汉博基因科技团队开发,于2023年9月7日发表在《Nature Genetics》,题为Structure and function of rice hybrid genomes reveal genetic basis and optimal performance of heterosis。

4a3705ac387561347efb533e4338ccbc.png

Figure 2.15: 在线发表论文。

4 篇 NAR | 生物大数据时代,如何做好数据管理和再利用,发IF10+的数据库文章?如果你也有数据库开发需求,欢迎联系!

往期精品(点击图片直达文字对应教程)

a26de43edb91ffc72c02e860652cd417.jpeg

b2a4b33dbc61408d6899ac4d780eb4f5.jpeg

93bb6cd73625aca1c4b3dae775c8423b.jpeg

b86499dbdbdbe23200789e301ffbb2bb.jpeg

3c387255a556049b4cedbc2385cf539c.jpeg

f9b340baadf18d3d2533d141bbe96736.jpeg

cd29c9d3983e614c92c31bf85461795c.jpeg

97fc16ff234268e9b88cceff0a972775.jpeg

3cb1ac1d73bf02490a1648b3deaab327.jpeg

6d1ee06a1494b76e9bbc3f8f39dcf94e.jpeg

e4e0bf5aa5153176e0102212ad31a94d.jpeg

aceb12621719fbbbb5b36822c80ca58d.jpeg

e457680dc913e8e7ae41831c66b5e692.png

29386d6c65950a1ac887a201999b656e.png

fd3e82e37ba905d16de36cc5b7818cd7.png

ea94a333f3c62e7ccf44c38b9a0c7ad6.png

ea8084b43596022d951d27b2f64f85fb.jpeg

ab39b40401244d28d26c412894bb0e06.jpeg

44214a85c8ba79234a3542adc995708a.jpeg

3dc372c5df2721067958b80bd10a0b02.jpeg

7813c2d79cfdb5c79da130b603a9315f.png

7e13ec783f915095a636c296dd6b4780.png

334049ba468f5c6b9daaa10f42f57dc4.jpeg

a456cd896bc0270bf8a3a91c11dc53e6.png

0c1da83bd4d4dcf1c48086448502541d.png

3448621eec1d1f29c6fadf735c53207e.jpeg

ff97b327b32983f4ea50e7bfe7afcbe5.png

2cc8b3abb21b7d290b9ad853e0114e1b.png

机器学习

e1748b00479ef9b84c86950bc641875d.png

c602c31eb8599844c42fa4ac22abbee4.jpeg

c40144ef5fc397990dc2a461dae2c718.jpeg

8b7770f4dea1423798394ff460f17b44.png

更多推荐

如何用ate自动测试设备对DC-DC电源模块负载调整率进行测试?

电源模块负载调整率测试是功能测试之一,是电源模块非常重要的一项指标,它的大小直接影响着电源模块的整体质量。因此使用ate自动测试设备对DC-DC电源模块负载调整率进行测试是制造生产过程中至关重要的一环。电源模块负载调整率计算公式:负载调整率=(满载输出电压-空载输出电压)/额定输出电压*100%测量电源模块的负载调整率

解决高并发问题

在处理项目中的高并发问题时,可以采取以下几种方法:后端处理:大部分的高并发处理是在后端进行的。可以通过优化数据库查询、增加缓存机制(如集成Redis)、使用分布式技术(如分布式缓存、分布式锁)、使用消息队列等方式来提高系统的并发处理能力。此外,还可以通过水平扩展(增加服务器数量)或垂直扩展(增加服务器的硬件配置)来提高

Kafka【命令行操作】

Kafka命令行操作Kafka主要包括三大部分:生产者、主题分区节点、消费者。1、Topic命令行操作也就是我们kafka下的脚本kafka-topics.sh的相关操作。常用命令行操作参数描述--bootstrap-server<String:servertoconnectto>连接的KafkaBroker主机名称和

【Android Framework系列】第15章 Fragment+ViewPager与Viewpager2相关原理

1前言上一章节【AndroidFramework系列】第14章Fragment核心原理(AndroidX版本)我们学习了Fragment的核心原理,本章节学习常用的Fragment+ViewPager以及Fragment+ViewPager2的相关使用和一些基本的源码分析。2Fragment+ViewPager我们常用

腾讯mini项目-【指标监控服务重构】2023-07-19

今日已办OpenTelemetryLogs通过日志记录API支持日志收集集成现有的日志记录库和日志收集工具Overview日志记录API-LoggingAPI,允许您检测应用程序并生成结构化日志旨在与其他telemertydata(例如metric和trace)配合使用,以提供统一的可观测性解决方案结构化日志记录,允许

预处理代码

一、缺失值处理删除缺失值:data1=data.dropna()#丢弃缺失值#dropna()删除缺失值所在行(axis=0)或列(axis=1),默认为axis=0补全示例数据:importpandasaspdimportnumpyasnpdata=pd.DataFrame({'name':['Bob','Mary'

一篇搞定,Kettle详细教程

文章目录第一章Kettle概述1.1Kettle发展历程1.2Kettle简介1.3Kettle相关俗语1.4Kettle设计与组成1.5Kettle功能模块1.6Kettle的执行Transformation(转换)1.7Kettle商业和社区版区别1.8数据集成与ETL1.9ETL工具比较第二章Kettle安装部署

【python基础】编写/运行hello world项目

1.编写helloworld项目编程界每种语言的第一个程序往往都是输出helloworld。因此我们来看看,如何用Python输出helloworld。1.如果你是初学者,main.py中的代码暂时是无法看懂的,所以可以把main中的源代码直接删除。如下所示这里我们要学习python的第一个知识点,print输出函数。

机器学习(14)---逻辑回归(含手写公式、推导过程和手写例题)

逻辑回归一、逻辑回归概述二、模型、策略和优化(手写)三、w和b的梯度下降公式推导四、例题分析4.1题目4.2解答一、逻辑回归概述1.逻辑回归也称作logistic回归分析,是一种广义的线性回归分析模型,属于机器学习中的监督学习。其推导过程与计算方式类似于回归的过程,但实际上主要是用来解决二分类问题(当然也可以解决多分类

项目实战— pytorch搭建CNN处理MNIST数据集

项目文件夹介绍项目文件夹CNN_MNIST_practice文件夹是整个项目的文件夹,里面存放了六个子文件夹以及四个.py程序,接下来我们分别来介绍这些文件的内容。其中minist_all_CPU.py是CPU版本的模型训练+测试程序,而minist_all_GPU.py则是GPU版本的模型训练+测试程序。minist

Spring MyBatis【一篇搞定】

SpringMyBatis​SpringMyBatis在Spring中是一个非常重要的知识,将前端传递的数据存储起来,或者查询数据库⾥⾯的数据;简单来说MyBatis是更简单完成程序和数据库交互的⼯具,也就是更简单的操作和读取数据库⼯具。文章目录SpringMyBatis一、MyBatis简介二、学习MyBatis重要

热文推荐