NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)

一、NCBI数据库简介

NCBI,全称为美国国家生物技术信息中心(National Center for Biotechnology Information),是美国国立卫生研究院(National Institutes of Health)的一个部门。NCBI成立于1988年,旨在促进生物医学研究,通过收集、存储和提供生物医学信息来加速科学和健康进步。

NCBI提供多种数据库和工具,用于研究遗传学、分子生物学和生物信息学等领域。其中最著名的数据库包括GenBank(一个公开的核酸序列数据库)、PubMed(一个医学文献数据库)、Protein(蛋白质序列数据库)和SNP(单核苷酸多态性数据库)等。

NCBI还开发了多种在线工具,如BLAST(基本局部对齐search工具),用于比较生物序列,当你只有一段DNA、RNA或蛋白序列的时候,你想知道它是什么,这时候BLAST:Basic Local Alignment Search Tool (http://nih.gov)就是一个很好的工具,BLAST能够快速比较核酸或蛋白质之间的相似性,帮助你快速找到相似的基因或者蛋白。这些资源对于研究人员、医生、学生和公众来说都是免费可用的,极大地促进了生物医学研究和教育。

二、NCBI数据库怎么用呢?

NCBI数据库是一个提供广泛生物医学信息的综合资源库,涵盖了基因、RNA、蛋白质序列等多个领域。NCBI收录了70000多种生物的核苷酸序列,每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。与专注于基因组检索的Ensembl数据库相比,NCBI的数据库内容更为广泛和综合。NCBI提供了多达36种不同的数据检索及分析工具,其主页面显示了不同的功能分区,以下是一个简要的使用教程:

1.访问NCBI官网:首先,打开浏览器并输入http://www.ncbi.nlm.nih.gov,进入NCBI的主页。

2.search文献:在主页的search框中输入您感兴趣的关键词,例如疾病名称、基因名称或特定的生物化学物质等。点击“Search”按钮进行search。

3.浏览search结果:search结果会列出相关的文献、基因、蛋白质等信息。您可以点击相应的链接查看详细信息。

4.使用PubMed:PubMed是NCBI提供的一个免费的文献检索系统。在主页上点击“PubMed”链接,进入PubMed search界面。您可以使用布尔运算符(AND,OR,NOT)来组合关键词进行更精确的search。

5.查找基因信息:在主页上点击“Gene”链接,进入基因数据库。在这里您可以search特定的基因,并获取其序列、功能、表达等信息。

6.查找蛋白质信息:点击“Protein”链接,进入蛋白质数据库。您可以search特定的蛋白质,了解其结构、功能、相互作用等信息。

7.使用BLAST:在主页上点击“BLAST”链接,选择合适的BLAST程序进行序列比对。

8.注册账号:为了使用一些高级功能,如保存search历史、创建个性化的工作区等,您可以在主页上注册一个NCBI账号。

9.学习资源:NCBI提供了许多学习资源,包括教程、视频、FAQ等,帮助用户更好地使用数据库。您可以在主页上找到这些资源。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

三、如何查找CDS和蛋白序列?

进入NCBI网站,选择“Gene”,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以“P53”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击“search”按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以“human”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击对应物种基因名,系统会显示与您的查询相关的数据库条目列表。包括基因的Summary、Genomic context和Genomic regions, transcripts, and products等。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

在search结果中,找到“Genomic regions, transcripts, and products”条目,该页面显示了基因所有对应的转录本ID和蛋白ID,根据需求选择对应转录本,一般推荐MANE Select(MANE数据旨在收录和整理人类基因的转录本注释信息,并且提供编码基因最具代表性转录本和相应的蛋白质。)鼠标悬浮在转录本上,在转录本信息里可以看到“Status:MANE Select”。

另外,转录本的选择一般有两种思路,一种是一般认为每个基因在“NCBI Reference Sequences(RefSeq)”条目里显示的转录本1是研究最多的,可以从转录本编号后边的“.几”来判断该转录本更新的次数,更新的次数越多代表该转录本研究的越多;另一种则是选择众多mRNA转录本中最长的转录本(longest isoform)。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

鼠标悬浮在第一个转录本上,会出现该转录本的详细信息,如Location:complement(7,668,421..7,687,490)、CDS length:1182 nt和Protein length:393 aa等。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

您可以在页面上找到“Links & Tools”条目,点击“CCDS:CCDS11118.1”,进入相应的详细页面,找到“Nucleotide Sequence(1182 nt)即CDS序列”,找到“Translation(393 aa)即蛋白序列”。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

另外,在基因相关信息页面,下拉找到“NCBI Reference Sequences(RefSeq)”条目,在“mRNA and Protein(s)”里可以看到有不同的转录本,其中mRNA一般是“NM”开头,非编码RNA一般以“NR”开头,还有一种“XM”开头是生物信息预测的转录本。“NP”开头表示蛋白质,“NC”开头表示基因。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

找到想要的“NM”开头的转录本号和“NP”开头的蛋白号,点击进入,即可看到基因详细信息。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

下滑找到“CDS”,点击,即可看到CDS序列,可以直接复制或者点击右下角“FASTA”再复制。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

蛋白序列同理,下滑找到“Protein”,点击即可直接复制或者点击右下角“FASTA”再复制。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

四、如何查找启动子序列?

进入NCBI网站,选择“Gene”,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以“P53”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击“search”按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以“human”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

向下翻动页面,找到“Genomic context”条目,此时注意查看基因的方向,P53基因方向为反向。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

向下翻动页面,找到“Genomic regions, transcripts, and products”条目,点击FASTA。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

进入基因序列详情页,在右侧“Selected region”选项中把from7668421to7687490改为from7687491to7689491(启动子序列一般默认为基因上游2000bp,由于P53基因方向为反向,而NCBI默认的基因方向为正向,故选择在基因位置最大值上加2001,若基因方向为正向,则选择在基因位置最小值上减2001)。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击“Update View”,所得序列即为P53基因启动子区域序列。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

五、如何查找基因的5’UTR和3’UTR序列?

进入NCBI网站,选择“Gene”,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以“GAPDH”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击“search”按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以“human”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

向下翻动页面,找到“Genomic regions, transcripts, and products”条目,点击“Tools”。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

选择“Tools”中的“sequence text view”选项,点击后能看到基因的序列信息。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

显示出来的结果应该怎么看?(这里标记的颜色是网站自动给出来的。)

蓝色标记序列代表的是5’UTR或3’UTR。红色标记序列代表的是外显子,因为外显子要翻译成氨基酸,所以下面会给出对应的氨基酸序列。绿色标记序列代表的是内含子,内含子不翻译,所以下面没有氨基酸序列。若没有显示出来完整的5’UTR或3’UTR,可以点左上角的“Prev page”或“Next page”。

因此,GAPDH这个基因的5’UTR序列如下:

GCTCTCTGCTCCTCCTGTTCGACAGTCAGCCGCATCTTCTTTTGCGTCGCCAG

3’UTR序列如下:

GACCCCTGGACCACCAGCCCCAGCAAGAGCACAAGAGGAAGAGAGAGACCCTCACTGCTGGGGAGTCCCTGCCACACTCAGTCCCCCACCACACTGAATCTCCCCTCCTCACAGTTGCCATGTAGACCCCTTGAAGAGGGGAGGGGCCTAGGGAGCCGCACCTTGTCATGTACCATCAATAAAGTACCCTGTGCTCAACCA

六、如何查找lncRNA序列?

进入NCBI网站,选择“Gene”,在search框中输入感兴趣的lncRNA名称、基因ID或相关的生物物种,以“MALAT1”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

点击“search”按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以“human”为例。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

向下翻动页面,找到“NCBI Reference Sequences(RefSeq)”条目,在“RNA”里可以看到有很多转录本,根据需求选择对应的转录本,一般推荐RefSeq Select(RefSeq的Select转录本通常有良好的存档数据支持,表达良好,保守,代表基因的生物学特性。)

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》

向下翻动页面,找到“gene”条目点击,所得序列即为lncRNA“MALAT1”的序列。

《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
《NCBI保姆级使用教程(包含如何查找CDS、启动子、5'UTR和3'UTR、lncRNA序列)》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注