生物信息学复习

国科大生物信息学期末考点

一、什么是生物信息学

  • 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面
  • 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测
  • 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合

生物研究和生物信息学的重要性和实例

  • 人类基因组计划:生物信息学在人类基因组计划中扮演了关键角色。这一项目成功解析了人类基因组,帮助科学家识别数千个基因以及与各种疾病相关的遗传变异
  • 疫苗开发:生物研究在新兴病原体如COVID-19病毒的疫苗开发中起着关键作用。科学家通过研究病毒的生物学特性,例如其蛋白质结构和传播机制,能够设计疫苗,如mRNA疫苗,来防止病毒传播
  • 更多:
    • 怎样从新测得的DNA序列中找到编码区?
    • 非编码区与编码区的差别是什么?
    • 非编码区有什么具体功能?
    • RNAi现象对于细胞来说有着很重要的意义,包括基因表达的调控等等,那么都有哪些具体机制可以诱导正常细胞产生RNAi现象?
    • SARS病毒的比较基因组研究
    • 治疗SARS的RNAi设计
    • SARS蛋白的结构预测和模拟

怎么理解:

生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。

其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程的生理生化信息结合,阐明其分子机理,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

二、发现新基因的两种方法是什么?算法的本质是?

1、通过大规模基因测序,查找具有编码特征的序列。

通过大规模基因测序得到完整序列的数据出发,然后理论上识别和预测在这个基础序列里面有哪些特定的序列段具有编码序列特征。实际上是通过基因组序列去找到具有编码序列特征的区域。

一般可分为:

(1)基于信号,如剪切位点、序列中的promoter与terminator

(2)基于组分,即基因家族、特殊序列间比较,complexity analysis,neutral network

本质

以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

2、通过EST序列(EST数据库),拼接组装。

ESC系列( Expression Sequence Tag) 都是归属于编码序列的,无需去识别,你只需要把它组装就好。

国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index

数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略:

主要步骤:

  • 构建数据库;
  • 将序列纯化格式标准化;
  • 从种子库中取序列和大库序列比对;
  • 延长种子序列,至不能再延长;
  • 放入contig库

三、利用核酸或蛋白序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的重要困难是什么?有何解决途径?

1、计算步骤:

  1. 序列相似性比较。可以找到和目标序列相似的序列,但无法确定序列间的同源关系。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用分析有BLAST等
  2. 序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等
  3. 构建系统进化树。一般单独一种方法是不够的,通常需要多种方法才能构建反映物种间进化关系的进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,例如PYLIP、MEGA等
  4. 稳定性检验(分支的确定)。只有稳定的分支才有意义,为了检验构建好的进化树的可靠性,通常构建过程要随机成百上千次,大概率(70%以上)出现的分支点才是可靠的,通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中

2、当前的主要困难

基因的横向迁移(LGT,Lateral gene transfer)现象。即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。

3、解决方法:

  1. maker去掉横向迁移的的gene;在所有序列中筛选出有垂直进化关系的序列数据集,如COG数据库
  2. 用完整的基因组和蛋白质组比较:
    • 以whole genome为单位,进行基因组水平上的比对
    • 利用生物体的蛋白质组构建进化树

选取特征比对,不用长度的序列字符串进行比对后,对照其genome进行归一化

ORF对比,将all predicted ORF采用COG的分类规则进行分类,再构建进化树

进化树方法研究古生物时的问题:

样品测序是在几千万年前被固定的,而对比库则是现存的,故两者时间差是无法避免的,所以必须采取方法使两者的时间差尽可能的缩短,可采用的方法有两种:

  • 建立与样品同时代的database
  • 构建模型,使样品序列模拟进化

四、什么是 SNP? 为什么SNP的研究是重要的? 你能给出2到3个SNP 相关的 web sites吗?

1、定义:

SNP(single nucleotide polymorphisms)是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。

2、重要性:

SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁。

3、SNP网站:

  • NCBI SNP database:将这些数据进行整理,去掉冗余,使每个 SNP 都是唯一的。此时的SNP 被称为 reference SNP 或 refSNP
  • The Human Genic Bi-Allelic Sequences Database(HGBASE):收录了人基因组中所有已知的序列变化,包括:SNPs、Indels、简单重复序列等
  • Database(ALFRED):它是人类群体等位基因频率数据库。
  • Breast Cancer Mutation Data Base (BIC):它收录了与乳腺癌相关的基因突变和SNP

五、什么是系统生物学? 系统生物学对生物功能实现的理解有何本质变化?

1、系统生物学定义

包含三个相互衔接的组成:

  • 整合各个层次、各个元件的信息:整合从所有不同生物水平获得的信息——DNA信息、RNA信息、蛋白质信息、蛋白质相互作用信息、途径等等
  • 基于信息建立模型:利用这些信息编写数学模型,能够预测评估中的生物系统的结构
  • 用模型去预测系统未来的发展:在特定种类的刺激或扰动下预测其性质。

2、本质变化

传统生物学是:序列→结构→功能,只考虑单个个体,单个 gene,单个蛋白质。

系统生物学是:相互作用→网络→功能,除考虑单个个体,单个 gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。 所以,系统生物学认为真正实现生物学功能的是一组相互作用形成网络的蛋白质集合,不仅考虑单个分子元件而且要考虑其相互作用,以相互作用的网络来研究其功能,基因组是网络中的一部分,只有通过相互作用的网络才能体现功能。

六、什么是contig和scaffold,L50和N50是什么

1、contig

A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA.

重叠群(来自连续的)是一组重叠的、完整连续的DNA片断

2、scaffold:

A scaffold is a portion of the genome sequence reconstructed from end-sequenced whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.

支架是从末端测序的全基因组鸟枪克隆重建的基因组序列的一部分。脚手架由重叠部分和间隙组成。

3、N50

把contig或scaffold按照从大到小的顺序排列,长度达到基因组大小(所有contig或scaffold的长度)的50%时,那条contig/scaffold的长度,即为contig/scaffold N50. N50越大,说明基因组组装的质量越高。

4、L50

长度总和产生N50的contig/scaffold的数量。

七、大数据分析需要注意的问题

  • 角度的正确性
  • 参照的合理性
  • 采样的代表性
  • 结论的正确性

八、真阳性,真阴性,假阳性,假阴性,灵敏度,特异性

1、真阳性,真阴性,假阳性,假阴性

  • True Positive (真阳性, TP)被模型预测为正的正样本;可以称作判断为真的正确率
  • True Negative(真阴性, TN)被模型预测为负的负样本 ;可以称作判断为假的正确率
  • False Positive (假阳性, FP)被模型预测为正的负样本;可以称作误报率
  • False Negative(假阴性, FN)被模型预测为负的正样本;可以称作漏报率

2、灵敏度Sensitivity:

\[ TPR = \frac{TP}{TP + FN} \]

正样本预测结果数 / 正样本实际数

3、特异性Specificity:

\[ TNR = \frac{TN}{TN + FP} \] 负样本预测结果数 / 负样本实际数

九、基因组相关概念

  • Genotype:the genetic constitution of the organism
  • Phenotype:the composite of an organism's observable characteristics or traits
  • Trait(性状):is a distinct variant of a phenotypic characteristic of an organism that may be inherited, be environmentally determined or be a combination of the two
  • Locus:a chromosomal location
  • Alleles(等位基因):also called allelomorph, refers to any one of two or more genes that may occur alternatively at a given site (locus) on a chromosome
  • Mutation:a change in the genetic material, usually rare and pathological
  • Polymorphism(多态性):a change in the genetic material, usually common and not pathological
  • Homozygote(纯合子):an organism with identical pair of alleles for a specific trait.
  • Heterozygote(杂合子):an organism that has different alleles at a particular gene locus on homologous chromosomes.
  • Hemizygote(半合子):an organism that has only one allele for a specific trait
    • Males are hemizygous for most genes on the sex chromosomes
  • Dominant trait(显性性状):a trait that shows in a heterozygote
  • Recessive trait(隐性性状):a trait that is hidden in a heterozygote
  • Karyotype(核型分析):A karyotype is the number and appearance of chromosome in the nucleus of an eukaryotic cell
  • Population Genetics(群体遗传学):Population genetics is the study of variation within populations of individuals, and the forces which shape it. This involves studying changes in the frequencies of genetic variation in populations over space and time
  • Population(种群):An interbreeding group of the same species in a given geographical area
  • Population genetics:The study of the genetics of a population and how the alleles vary with time
  • Gene pool:The collection of all alleles in the members of the population
  • Gene flow:Movement of alleles between populations when people migrate and mate
  • Allele Frequencies(等位基因频率):特定等位基因/所有等位基因。Count both chromosomes of each individual. affect the genotype frequencies
    • The frequency of the two homozygotes and the heterozygote in the population
  • Cohort(队列):a group of people who share a common characteristic or experience within a defined period (e.g., are born, are exposed to a drug or vaccine or pollutant, or undergo a certain medical procedure).
  • Pedigree chart(谱系图):A chart showing the genetic connections between individuals
  • Microevolution(微进化):The small genetic changes due to changing allelic frequencies in populations
    • Five factors can change genotypic frequencies:
      • Nonrandom mating
      • Migration
      • Genetic drift
      • Mutation
      • Natural selection
  • Genetic drift(基因漂移):(also known as allelic drift or the Sewall Wright effect after biologist Sewall Wright) is the change in the frequency of a gene variant (allele) in a population due to random sampling of organisms.
  • Linked Genes(连锁基因):Genes located together on a chromosome. Linked genes can assort separately from one another only through crossing over
  • Missense mutation(错义突变):A point mutation in which a single nucleotide change results in a codon that codes for a different amino acid
  • Nonsense mutation(无义突变):A point mutation that results in a stop codon (nonsense codon) in a transcribed mRNA, which encodes incomplete and usually nonfunctional protein product

生物信息学复习
https://www.aye10032.com/2024/01/08/2024-01-08-bioinfo/
作者
Aye10032
发布于
2024年1月8日
许可协议