< 返回文章列表
【开发相关】数据挖掘—NCBI中获取某基因序列和转录起始位点
发表时间:2025-01-16 01:32:56 小编:主机乐-Yutio
数据挖掘—NCBI中获取某基因序列和转录起始位点
记录下从NCBI数据库中获取某基因序列和转录起始位点,以MYC基因为例
1 基因序列
- NCBI中搜到MYC基因,选择物种为人类。检索结果中包含MYC在基因组上的位置信息,知道位置其实就已经可以获取该基因的具体序列了
- 点击选项,下拉页面到Genomic regions,transcripts,and product,点击Tools --> Sequence Text View可以看到具体的序列信息。橙色区域为CDS区域,可以点击Prev Page或Next Page找到第一个起始密码子区域“ATG”。MYC基因较为特殊,这里看到的第一个起始密码子是“CTG”。还需要注意目标基因是在正向链还是反向脸中。如果是反向链,则起始密码子是反向互补的“ATG”,即为"CAT",这样的基因需要逆向找转录起始位点
- 找转录起始位点,若染色体上目标基因和前一个基因相聚太近,如只有几百bp,则需要这些序列都应该关注;若目标基因和前一个基因相聚很远,则只需要专注起始密码子前2000bp的区域(正向链基因)
- 因为我这次分析只关注该基因的转录起始位点TSS和TSS前2000bp的区域,因此我选择了127,735,500~127,743,291这段区域。点击关闭“Sequence View”,点击“FASTA”,这里会显示目标基因所在染色体的部分序列。输入127,735,500~127,743,291,获取这段区域的序列
- 下载的fasta格式文件,可通过snapgene打开进行更细致的序列探索
#序列涵盖
约2500bp ---- MYC TSS ---- MYC CDS----
2 转录起始位点确认
- TSS和CDS的概念易混淆
- Transcription Start Site,RNA聚合酶开始合成 mRNA 的第一个碱基在基因组上的位置,即TSS 是 mRNA 序列的第一个碱基
- Coding DNA Sequence,编码蛋白质的起始(通常从 ATG 开始)到终止密码子的区域。在 mRNA 中,CDS 是从 真正翻译成蛋白质的地方开始的
- 一个基因可以包含多个转录起始位点。在真核生物中,很多基因的启动子区域比较复杂,可以使用 不同的启动子(Promoters) 来启动转录,导致:不同的转录起始位点(TSS);不同的转录本(Transcript variants)产生不同的 mRNA 变体;
- MYC基因包含多个转录本,如NM_002467 是 MYC 的主转录本,最广泛研究的版本;NM_001354870 是次要转录本,可能在某些细胞或组织中表达较高。NCBI中直接检索NM_002467,其第一个碱基的位置极为MYC的主要TSS,可在上述得到的MYC基因序列中检索部分序列,确定转录起始位点
参考教程:
https://www.bilibili.com/video/BV1fM411q7tV/?spm_id_from=333.1387.homepage.video_card.click&vd_source=7e83cb2510516bdff59ccf808d022aa0
https://zhuanlan.zhihu.com/p/605854452