基因表达与组学测序
虽然生物体的生命活动很复杂,但却是受到基因表达的有序调控的。基因表达过程是指基因信息被转录和翻译成蛋白质或其他功能性RNA分子的过程,这一过程是遗传信息流的核心,也是生命活动的基础。在表观遗传学中,“基因是否表达”是一个很重要的关键词。如果基因被转录到mRNA并被翻译成蛋白质的话,基因就会发生作用,因此基因表达为开启状态,如果没有被翻译成蛋白质,则基因表达为关闭状态。而基因是否表达,取决于DNA上的基因序列能否被复制转录,而能否被复制,却又取决于DNA的双链能否被打开,结构是否足够松散等等一些因素。
组学可以高通量地获得特定样品在特定时空下不同层面上相关的一些数据,不同组学可以获得不同层面比如可能发生的、正在发生的、如何发生的、最终的表达结果等信息。单一组学技术仅能提供某一层面的信息,往往只能揭示复杂调控机制的冰山一角。为了更全面地揭示基因表达调控机制,采用多组学联合分析的方法显得尤为重要。多组学技术能够阐述分子调控与表型间的关联机制,系统地解析生物分子功能和调控机制。而且多组学数据资源之间也可以进行相互验证,减少单一组学分析带来的假阳性,提高研究的可靠性,通过多组学联合分析获得更全面、更准确的转录调控信息。
目前这种多组学研究思路已被广泛应用于很多课题研究中,今天伯小医带大家主要从DNA层面出发,一起看看常用的表观多组学联合分析常用组合以及它在高分文章中是如何挖掘数据的。
表观多组学常用组合
图1 表观多组学技术(Image from Duke University Center for Genomic and Computational Biology)。
1. ATAC-seq
在全基因组范围内分析染色质开放性以及开放程度,开放性程度其实就是跟转录相关的。通过Motif分析可以帮助筛选调控生物学过程的关键转录因子,找到基因启动子、增强子和其他调控元件,并且可以鉴定转录因子的结合位点,揭示基因转录调控的机制。
2. ChIP-seq/CUT&Tag
ATAC测序之后可以通过做ChIP-seq来做进一步的验证,通过ChIP的测序结果,来进一步对ATAC所预测到的一些转录因子结合区域进行验证。开放染色质区域是转录因子(TF)结合的必备条件,因此ATAC-seq的信号峰往往与TF ChIP-seq的信号峰有重叠现象,ATAC-seq的峰通常更宽。此外,将ATAC-seq与组蛋白修饰标记ChIP-seq相结合,可以发现ATAC-seq信号与活跃染色质标记一般呈正相关,而与非活跃染色质标记一般呈负相关。
3. mRNA-seq
如果有不同处理的差异样本,建议可以考虑与mRNA-seq联合分析。不是所有染色质构象变化都会发生基因表达改变,也不是所有基因表达改变都是由染色质构象引起的。ATAC-seq可以鉴定不同处理中染色质开放区域差异并获得相关的关联基因,mRNA-seq可以鉴定不同处理中发生差异表达的基因。为了进一步筛选可能受染色质可及性影响发生差异表达的基因,可以以ATAC差异peak全部关联基因与mRNA差异表达上下调基因分别做交集获得受染色质可及性影响发生差异表达的基因。进而对筛选得到的基因进行GO功能富集和KEGG pathway 分析以考察基因的生物学功能和参与的主要生化代谢途径和信号转导途径。同时通过联合ATAC-seq获得的转录因子-靶基因调控网络筛选得到关键的转录因子-靶基因模块。
4. WGBS
研究在DNA碱基位点上发生修饰的情况,甲基化程度的不同也会影响基因表达的改变。当然它与前面的ATAC-seq与ChIP-seq/CUT&Tag以及mRNA-seq都是紧密相连的,比如染色质不可及状态时一般是高甲基化状态,当需要转录时一般是低甲基化状态,正向调控的组蛋白修饰分布多染色质可及状态等等。
5. Hi-C
Hi-C技术可以用于研究染色质的三维结构,包括染色质环(loop)、拓扑关联域(TADs)和染色质区域的A/B compartmentalization,这些结构对基因表达和调控有重要影响。比如在癌症研究中,Hi-C、ATAC-seq和ChIP-seq的联合应用可以揭示肿瘤发展过程中染色质结构和基因表达的变化,识别关键的致癌基因和调控机制。案例1:ChIP-seq+mRNA-seq+ATAC-seq+Hi-C解析膀胱癌亚型调控机制
发表期刊:Genome Biology
影响因子:10.1
研究思路:确定了腔型和基底型膀胱癌中独特的表观基因组特征和3D基因组结构,并提出了转录因子NPAS2与临床膀胱癌症亚型之间的新联系。
图2 研究思路
研究内容:
膀胱癌(BLCA)是美国第二大最常见的泌尿系统恶性肿瘤。作者通过ChIP-seq(H3K27ac)和RNA-seq分析发现两种BLCA的转录表达差异与表观遗传水平上独特启动子和远端增强子活性有关,它们在BLCA的管腔亚型和基底亚型中都有显著特征。并通过ATAC-seq分析发现了BLCA亚型与转录因子之间的关系。转录因子motif分析表明腔型细胞中“先锋因子”forkhead TFs和GATA TFs的motifs在四个细胞系中呈富集状态。FOXA1蛋白和GATA3蛋白的ChIP-seq进一步证实了FOXA1和GATA3在调节远端增强子的管腔开放染色质处结合,从而驱动管腔特异性基因的表达。该研究不仅确定了膀胱癌腔内亚型和基底亚型中FOXA1和GATA3的全基因组转录组、增强子图谱和转录因子结合谱,还首次通过Hi-C在膀胱癌细胞系和患者原发性肿瘤中绘制了全基因组染色质相互作用图谱。并且在腔内膀胱癌中发现了一种新的临床相关转录因子NPAS2,它可以调节其他亚型特异性基因并影响癌细胞增殖和迁移。
图3 腔型和基底型BLCA中转录因子motif分析。案例2:mRNA-seq+ChIP-seq+Hi-C+ATAC-seq描绘儿童高级别胶质瘤的表观基因组图谱和三维基因组结构
发表期刊:Sci Adv
影响因子:11.7
研究思路:儿童高级别胶质瘤(pHGG)是一种高度致病的脑肿瘤,pHGG包括多形性胶质母细胞瘤(GBM)和弥漫性内在性脑桥胶质瘤(DIPG)。该研究分析了pHGG的3D基因组特征,并发现3D结构的改变可能促进肿瘤的生成。
研究内容:
图4 ChIP-seq数据揭示了导致特定基序和TF富集的肿瘤特异性增强子景观。
小医叨叨
以上两篇文章都是通过表观多组学联合分析讲述了完整的生物学故事,揭示了生物体内的调控机制或绘制了生物学图谱。伯远生物可以提供:
Hi-C+ATAC-seq+ChIP-seq
CUT&Tag+mRNA-Seq+WGBS
等表观多组学联合检测和分析的服务,欢迎您随时咨询。
参考文献
[1] Iyyanki T, Zhang B, Wang Q, et al. Subtype-associated epigenomic landscape and 3D genome structure in bladder cancer[J]. Genome biology, 2021, 22: 1-20.
[2] Wang J, Huang T Y T, Hou Y, et al. Epigenomic landscape and 3D genome structure in pediatric high-grade glioma[J]. Science advances, 2021, 7(23): eabg4126.