全长转录组测序技术算不算生物信息学
全转录组的数据分析我们一直没有分享过笔记,因为确实也没有这方面直接项目机会,仅仅是跟公众号粉丝交流过一些小问题。全转录组不是全长转录组,全转录组说的是检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而全长转录组说的是测序的时候采取三代测序等技术这样可以把基因的转录产物的全部长度的碱基一次性测序到,这样很方便知道不同可变剪切转录本的区别。
那,为什么我们很少涉及到全转录组的数据分析,主要是因为它有 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而众所周知,非编码基因的名声比较差,都知道很重要,但是它的重要性又不是直接证据,也没有系统性的go和kegg等生物学数据库的整理,所以大家研究它和交流它的时候通常是一个符号而已。
但无论是普通mRNA,还是 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,它们最后都是会得到表达量矩阵,其实就是常规差异分析啦,相关流程的公众号推文在:
解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
GSEA分析一文就够(单机版+R语言版)
根据分组信息做差异分析- 这个一文不够的
如果是普通mRNA可以直接去映射到go和kegg等生物学数据库,如果是非编码基因需要先定位到它的靶基因,然后去给靶基因进行go和kegg等生物学数据库注释。
全转录组的测序
比如NPJ Breast Cancer . 2021 Dec 的文章:《Plasma extracellular vesicle long RNA profiles in the diagnosis and prediction of treatment response for breast cancer 》,是两个队列的全转录组的测序:
队列1:纳入患者172例,包括乳腺癌患者112例、乳腺良性疾病患者19例和健康对照组41例。(肿瘤诊断模型)
队列2:纳入接受新辅助治疗的患者58例,pCR(病理完全缓解)组24例,non-pCR组34例。(疗效预测模型)
其转录组测序在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001985 ,可以看到:
转录组测序
虽然文章写的是对172例入组患者的血浆样本进行exLR测序(exLR-seq),发现良性组和乳腺癌组中的mRNAs、lncRNAs、假基因和circRNA较健康组丰富。
这个文章里面的每个样品的测序数据量并不多,就是常规的mRNA的转录组测序的数据量, 它并没有专门的去针对每个样品进行检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因得到独立的fastq文件。
所以我们把目光转到另外两个《Molecular Cancer》杂志的文章;
《 circPARD3 drives malignant progression and chemoresistance of laryngeal squamous cell carcinoma by inhibiting autophagy through the PRKCI-Akt-mTOR pathway 》
《Circular RNA circCORO1C promotes laryngeal squamous cell carcinoma progression by modulating the let-7c-5p/PBX3 axis》
这个是真正的全转录组学测序及数据分析,喉鳞癌(LSCC)和 ANM(癌旁正常黏膜) 组织的两个分组,可以获得差异表达的miRNA、circRNA、lncRNA、mRNA,预测关键分子主要参与的信号通路及生物学过程。
全转录组的芯片
我记得2019年讨论的全转录组学测序及数据分析还是8000一个样品,因为要获得差异表达的miRNA、circRNA、lncRNA、mRNA的4种信息,还得关联分析。目前(2022)应该是不到4000一个全转录组学测序及数据分析样品了,但是全转录组学信息获得并不是只有测序这个手段,另外一个比较成熟的商业解决方案就是芯片技术,比如 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE175962
GPL20712 Agilent-070156 Human miRNA [miRNA version]
GPL21825 074301 Arraystar Human CircRNA microarray V2
GPL26963 Agilent-085982 Arraystar human lncRNA V5 microarray
它就有3款芯片,组合起来也算是全转录组啦。只不过是Agilent的芯片数据分析起来比较麻烦。
学徒作业
下载上面提到的GSE175962数据集的3个芯片表达量矩阵, 各自独立差异分析后,参考上面提到的两个《Molecular Cancer》杂志的文章对差异表达的miRNA、circRNA、lncRNA、mRNA的关联分析,出几个网络图。
生信服务
目前ngs组学已经深入的生命科学领域研究的方方面面,但是绝大部分普通实验设计,比如癌症和癌旁的差异,药物处理前后,病人疗效好坏的差异,都已经是被多组学层面检测过了差异,也就是说,如果你的思维就到此为止,多组学也不能为你加持了。但是如果你的粗浅的实验设计功底并没有在全转录组的测序技术这个点被抢先一步,毕竟要对对每个样品进行检测普通
鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!