蛋白质组学数据上传保姆级教程

在蛋白质组学研究论文发表过程中,期刊通常要求作者将原始数据上传至指定的第三方数据库。那么,原始数据应该上传到哪个数据库?如何完成上传呢?本期,小医呕心沥血地整理一些目前国内外主流的蛋白组学原始数据上传平台,并以国内常用平台为例,为大家提供了详细的上传方法。

平台简介

近年来,越来越多的期刊杂志要求蛋白质组学研究在发表时同步公开原始数据,不仅可供审稿人检查数据与数据处理流程,确保实验得可重复性与真实性;同时,每次投稿时也不再需要单独再上传海量数据给期刊,文章中标注在公共平台的数据项目ID就行,节省本地资源,使投稿变得简单快捷。再者,数据公开后,方便学术界进行数据成果的存储和共享,节约科研经费;此外,数据共享还可促进同行进行多角度验证与数据的二次挖掘,提升研究影响力与引用率;最后,数据公开符合伦理规范,可督促研究者提供真实可靠数据,避免学术不端。因此,选择一个公认和可靠的数据公共平台是非常有必要的。

ProteomeXchange(由European Molecular Biology Laboratory(EMBL)主导的国际蛋白质组学数据共享联盟)是目前使用最多的蛋白质组学数据储存平台,旨在为全球研究者提供标准化、高质量的蛋白质组学数据存储与共享服务。作为目前收录蛋白质组数据集最多的平台,ProteomeXchange通过其全球节点网络,实现了数据的无缝整合与跨平台访问,为蛋白质组学研究者提供了高效、可靠的数据共享平台(图1)。无论是数据提交还是检索分析,用户均可根据自身需求选择最适合的节点。随着蛋白质组学技术的快速发展,ProteomeXchange将继续推动全球科研数据的开放共享与合作。

《蛋白质组学数据上传保姆级教程》
图1. ProteomeXchange联盟成员全球分布图

ProteomeXchange联盟由六大核心成员组成,各平台在功能定位上各有侧重,详细内容如下:

(1)PRIDE Archive(EMBL-EBI,剑桥,英国):ProteomeXchange的创始节点,主要负责欧洲地区的数据存储与共享,支持多种数据格式(如mzML、mzIdentML、prideXML),可提供强大的数据检索与分析工具(如PRIDE Inspector);

(2)MassIVE(UCSD,圣地亚哥,加利福尼亚州,美国):面向大规模蛋白质组学数据存储与分析,支持超大规模数据集(如临床队列研究),可提供开源分析工具(如MassIVE.quant);

(3)PeptideAtlas(ISB,西雅图,华盛顿州,美国):专注于肽段水平的数据整合与注释,提供基于肽段序列的标准化数据库;支持大规模数据集的比对与验证。

(4)jPOST(多机构联合,日本):亚洲地区的重要节点,专注于日本及亚太地区的数据共享,支持日语界面,便于本地用户使用;提供数据可视化工具(如jPOSTrepo);

(5)Panorama Public(华盛顿大学,西雅图,华盛顿州,美国):专注于靶向蛋白质组学数据的存储与共享,提供靶向蛋白质组学数据分析工具(如Skyline),支持实验室间数据比对与标准化。

(6)iProX(国家蛋白质科学中心,北京,中国):ProteomeXchange的中国节点,服务于亚洲及全球用户,支持中英文双语界面,提供高速数据传输服务(基于Aspera),符合中国人类遗传资源管理规范。

从ProteomeXchange各大核心成员的功能定位上,我们不难看出,iProX是国内学者上传数据的最好选择,尤其适合涉及人类遗传学等敏感数据的研究者。接下来我们一起看下利用iProX进行蛋白组原始数据提交的详细流程。

iProX数据上传流程

1、数据准备

《蛋白质组学数据上传保姆级教程》

注:文件命名格式为研究缩写_数据类型_日期(例:HCC_RAW_20231001),避免使用特殊符号。

2、账号注册与登录

(1)若上传数据前未注册iProX账号,进入iProX官网(https://www.iprox.cn/)后,点击网页右上角“Register”,按要求填写个人信息(姓名、单位、职称、密码、邮箱、选择地区等带*项目为必填项,其余为选填项),注册账号(图2-4)。邮箱确认账号激活,完成账号注册后,点击“Sign in”登录(图5)。

《蛋白质组学数据上传保姆级教程》
图2 iProX首页
《蛋白质组学数据上传保姆级教程》
图3 iProX注册界面
《蛋白质组学数据上传保姆级教程》
图4 邮箱确认界面

(2)若上传数据前已注册过iProX账号,进入iProX官网(https://www.iprox.cn/)后,则点击右上角“Sign in”,输入账号、密码即验证码后,点击“LOGIN”登录。

《蛋白质组学数据上传保姆级教程》
图5 iProX登录界面

注:由于网页问题,小医演示时,右上角的中英文切换区无法切换中文界面,因此截图内容为英文格式,两种界面的操作方式相同,大家在填写前,可自行尝试网页是否可转为中文版,若无法转换,也可自行下载网页翻译插件,进行网页翻译哟!小医是不是很贴心呢,嘻嘻!

《蛋白质组学数据上传保姆级教程》

3、项目创建

iProX提交系统是以项目数据管理单位的(相当于一次完整的研究实验),一个项目下可以有多个子项目(多次实验结果)。登录后,可通过页面下方“Submit Data By Web”(图6)或页面上方“Submit->New Project”(图7)或“Project-New Project”(图8)或点击页面上方“My Space”,待页面跳转后,选择“New SubProject+”(图9)这4种方式进行项目创建。

值得注意得的是,若在页面操作过程中网页提示安装或升级IBM Aspera插件(图10),则需按提示步骤进行插件安装或升级,若安装或升级错误,可在IBM Aspera官网自行下载。

《蛋白质组学数据上传保姆级教程》
图6 Submit Data By Web端口
《蛋白质组学数据上传保姆级教程》
图7 Submit->New Project端口
《蛋白质组学数据上传保姆级教程》
图8 Project-New Project端口
《蛋白质组学数据上传保姆级教程》
图9 New SubProject+端口
《蛋白质组学数据上传保姆级教程》
图10 IBM Aspera插件的升级与安装

4、项目信息填写

上述4种方式任选其一均会进入项目信息填写界面(图11),*为必填项,将提前准备好的项目内容按要求填写即可。项目信息填写完后点击“Continue”保存当前填写的信息,进入下一步,若无法进入下一步,页面提示有填写错误,则依据提示逐一修改后,在进行下一步即可。

《蛋白质组学数据上传保姆级教程》
图11 项目信息填写

注:

(1)“Access Level”即访问权限的下拉菜单可以选择三种方式。Public:即刻就公开;To be public:自定义公开的时间;Private:暂不公开。当文章发表后,该项目的数据会自动修改为公开。

(2)实验室老板信息、出版信息填写后,需将滑动条右移至最后,点击“save”进行信息保存,否则无法进行下一步操作。

《蛋白质组学数据上传保姆级教程》

▲ 记得信息保存哟

5、填写子项目信息

子项目信息填写的内容主要是针对具体蛋白组学实验中的一些信息,如物种、组织类型、定量方法(如:Label-free、iTRAQ/TMT和PRM可选择“Shotgun proteomics”;DIA可选择“SWATH MS)、质谱仪型号等*必填项,按照项目的实际情况填写即可(图12)。

《蛋白质组学数据上传保姆级教程》
图12 子项目信息填写

值得注意的是,“Species”物种信息需点击“Choose”,点击“Commonly used values”进行搜索(图13);若选项里没有需要的物种词汇,则点击“CV terms Search”,输入物种英文名或拉丁文学名,如“mouse”或“Mus musculus”点击“Search”即可搜索(图14)。而后出现搜索结果点击“Choose”即可完成选择。“Add to list”为添加成为日常使用。如果样本涉及多个物种,可选择“New”进行添加。

《蛋白质组学数据上传保姆级教程》
《蛋白质组学数据上传保姆级教程》
图13 物种选择
《蛋白质组学数据上传保姆级教程》
图14 物种添加

同样的方法,需对“MS instrument”质谱仪进行添加与选择,子项目信息填写完后,点击“Continue”保存当前填写的信息,进入下一步。

6、数据上传

目前,iProX提供Complete submission(完整提交)和Partial submission(部分提交)两种数据上传方法(图15)。

《蛋白质组学数据上传保姆级教程》
图15 数据上传的两种方式

(1)Complete submission要求提交的数据文件类型为RESULT(prideXML或mzldentML格式,其中mzldentML文件还需要有对应的PEAK文件)以及RAW(质谱仪导出的原始文件),即原始数据文件和结果文件均要求标准格式。

(2)Partial submission虽然也要求原始数据文件和结果文件,但是对文件的类型不作要求,即适合所有的数据上传。不过由于其数据格式问题会导致数据的可见度和重复利用度明显降低。实际使用中,Partial submission用得比较多。因此,小医将以Partial submission为例进行数据上传演示。

Partial submission途径又分Upload by Browse(网页上传)与upload by Aspera(Aspera插件上传)两种数据上传方法。其中,网页上传适合少量并且文件大小不超过4Gb的数据,而Aspera插件上传不受文件大小和数量的限制,Aspera插件大家自行百度下载安装即可。

确定好好数据提交的形式和上传方式后(推荐Partial submission中的upload by Aspera方式),点击“Add file”,添加准备好的数据文件(图16)。

《蛋白质组学数据上传保姆级教程》
图16 数据上传

文件添加后,点击“Start upload”,浏览器会自动启动Aspera,会弹出登录Aspera,按照提示登录即可。上传成功后在“Data File”出现上传成功的文件名称,如果没有,可刷新页面。

点击”Continue”,进入下一步,勾选要提交的项目和子项目,点击下方“Submit”提交数据(图17)。之后就可以等待iProX官方管理员进行审核啦!审核结果会通过邮件和站内信的方式进行通知(一般需3-5个工作日),审核通过后,就获得了数据iProX ID号。值得注意的是,提交成功时,“Project status”和“Subproject status”状态会立刻从“Save”变为“Check”,再变为“Submit”,并在“Show log”中记录提交时间。

7、数据分享与iProX ID查寻

如果需要分享iProX中的数据,可选择相应的Project后,点击“Share”,生成一个含有密码的链接,发给对方即可。文章中需要提供质谱原始数据时,将iProX ID列出即可。

《蛋白质组学数据上传保姆级教程》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注