零基础学生物信息学(精选12篇)
1.零基础学生物信息学 篇一
生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。
生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。
生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。
总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
2 生物信息学主要研究内容
从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。
2.1 序列比对
在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2.2 序列分析
随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。
2.3 功能基因组
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。
2.4 基因表达数据的分析
对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2.5 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。
2.6 药物设计
基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。
3 结束语
生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。
参考文献
[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.
[2]http://www.wikipedia.org/[Z].
[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.
2.零基础学生物信息学 篇二
基金项目:黑龙江省高等学校教改工程项目(JG2014011152)
中图分类号:Q811.4-4
在现代生物学高通量方法发展的前景下,海量数据的产生不仅使得生物医学研究模式发生了巨大转变,同时在科学家对数据的管理操作以及挖据分析方面也产生了极大的需求。对于生命科学相关领域研究者来说,不仅要学会获得及使用生物信息学工具和资源,还要了解其基本的理论和实践应用。因此,为生命科学专业学生提供生物信息学培训,能够为其未来有效的分析处理数据以及跟进研究提供必要的帮助。在课程设置上,除了传统的讲座及资源演示外,使用交互性及以问题为中心的合作式教学方式,可以大大提高学习的质量和成果。在这样的背景下,本文将讨论并确定课程需求和学习目标等各种务实的标准,选择合适的授课对象和授课教师,开发课程质量评估标准。遵守这些标准可能不仅有助于指导课程组织者和教师在生物信息学课程中出色完成任务,而且,重要的是,还可以提高生命科学专业学生的学习效果。
1 课程需求
生物信息学课程的开设应该使得生命科学专业学生具有能够完整的完成一项数据分析任务的能力。目前,在生命科学研究领域,对于生物信息方法掌握的需求在不断提升,特别是在高通量测序技术产生大量数据的今天,数据量及复杂度也在成指数趋势上升,这种研究趋势变化的速率如此之大,以至于用于处理、存储、分析及整合这些数据的工具和技术的发展很难跟上步伐,这就使得如何从数据中获得可靠的生物学发现更加困难。
而如果为这些人能够掌握必要的或者与其研究领域高度相关的生物信息学技能,就更容易在各自的领域取得研究成果。例如,在技术角度,如果生命科学专业学生熟悉Linux命令行、R等编程语言,他们就会很容易掌握新一代测序数据的分析方法。
1.1 设定学习目标
生物信息学课程的设计需要考虑教师和学生双方的目标。因此,在课程中设置明确的整体或部分知识点的学习目标是十分必要的。学习目标会告诉学生在学习后他们将会掌握何种技能或知识。在课程目标的设置时,需要考虑学生的背景及能力。在描述学习目标时,应该使用如“产生”,“应用”,“预测”或“比较”等动词,而不是仅仅用“了解”来进行阐述。这样就会让学生很容易将这些程式化的文字转化成实践和练习中应具备的能力。
2 提供合适的课程内容
2.1 选择适合的授课对象
大多数课程设计和个人培训计划是在一个特定的训练需求的前提下。如何判断学生是否适合所提供的课程本身是一个巨大的挑战。例如,部分学生可能需要了解新一代测序数据分析:他们的最终目标可以是相同的,但是,如果有一个是生物化学的学生,需要更熟悉计算生物学,而另一个是偏临床专业,需要识别基因,那么他们很可能需要采取不同的教学路线,以完成他们的目标。因此,在条件允许时,建议建立选择标准,整理课程申请人的信息,关于:(1)相关的课程主题,以及他们的科学需求;(2)他们对课程的期望(如这些是现实吗?);(3)对于他们的职业生涯阶段的适用性;(4)他们掌握了哪些前提知识及其掌握情况(如他们是否会Perl编程?)。这些信息可以通过包括在课程申请时提交的简要调查表中找到。了解这些信息后,在课程开始前,可以对课程做相应的教学调整。
2.2 恰当地选择授课教师
好的授课教师不仅要有相应的学科知识,而且要掌握教学和沟通技巧,有引人注意的个人学习风格和步伐,并必须具有确保课程参与者互动并能维护他们的利益的能力。一般而言,以方法掌握为主的短期课程与学科教学有着根本的不同,具有实践经验的青年研究员可能比大学教授更适合作为课程的授课教师。
3 授课准备
生物信息学的课程应具有灵活性,以适应不同类型的内容、时间、实践,学习的速度和技能水平。一个共同的主题是需要选择合适的内容量,选择合适的教学方法和课程准备材料也是课程准备的一部分。
3.1 确定课程形式
选择合适的课程形式,主要取决于课程的持续时间,级别和参与者的背景以及它们之间的平衡关系。在决定课程形式时,往往需要考虑:教师-学生比例、参加的人数、可用的时间、所拥有的设施和经验、学员的期望。
3.2授课方法的多样性
在进行实践训练时,有很多方法可满足授课的需求。根据我们的经验,有三个黄金规则:(1)教师应该给出一个引人入胜的内容;(2)应刺激学生积极思考和练习;(3)在进行互动和讨论时应予以鼓励。
3.生物信息学 篇三
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一 熟悉生物信息学网站及其数据的生物学意义
实验目的:
培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:
利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息
学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。
实验内容:
1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描
述网站特征;
2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;
3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。实验报告:
1.各网站网址及特征描述;
2.代表性数据的下载和生物学意义的描述;
3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学
研究所利用。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验二 利用BLAST进行序列比对
实验目的:
了解BLAST及其子程序的原理和基本参数,熟练地应用网络平台和Linux计算平台进行本地BLAST序列比对,熟悉BLAST结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。
实验原理:
利用实验一下载的核算和蛋白质序列,提交到NCBI或者其他拥有BLAST运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入BLAST命令进行计算,获得结果文件。
实验内容:
1.向网上BLAST服务器提交序列,得到匹配结果;
2.本地使用BLAST,格式化库文件,输入命令行得到匹配结果;
3.对结果文件进行简要描述,阐述生物学意义。
实验报告:
1.阐述BLAST原理和比对步骤;
2.不同类型BLAST的结果及其说明;
3.讨论:不同平台运行BLAST的需求比较。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验三 利用ClustalX(W)进行
多序列联配
实验目的:
掌握用Clustal X(W)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。
实验原理:
首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过UPGMA方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用Myers和Miller算法实现。
实验内容:
1.明确软件所支持的输入文件格式,搜集整理出合适的数据;
2.在Windows环境运行Clustal X,在Linux环境运行Clustal W;
3.实验结果及分析,用TREEV32或Njplotwin95生成NJ聚类图。
实验报告:
1.整理好的符合Clustal的序列数据;
2.提交数据网页记录和各步骤记录;
3.提供聚类图和多序列联配图,并说明意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验四 ESTS分析
实验目的:
熟悉使用一系列生物信息学分析工具对测序得到ESTs序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计RACE引物获得全长基因,以及进一步的功能注
释和代谢途径分析做好准备。
实验原理:
首先用crossmatch程序去除ESTs原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。
实验内容:
1.运行CodonCode Aligner程序,并用它建立工程文件,导入例子文件
夹里面的数据;练习对序列的各种查看方式。
2.使用CodonCode Aligner程序里的Clip Ends, Trim Vector, Assemble
等功能,完成序列的剪切、去杂质、组装工作。
实验报告:
1.实验各步骤记录和中间结果文件;
2.举例简要说明结果文件中数据的生物学意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《基因表达序列标签(EST)数据分析手册》 胡松年 等著,浙江大学出版社,2005。
实验五 利用Primer Premier5.0设计
RACE引物
实验目的:
熟悉PCR引物设计工具Primer Premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计PCR引物。
实验原理:
PCR实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ESTs分析结果,对于其中需要获得全长的基因进行RACE引物的设计,及5’和3’RACE引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因CDS序列。最后设计已知全长基因序列的PCR扩增引物。
实验内容:
1.从网站下载并安装Primer Premier5.0;
2.从 GenBank 中任意获取一个 DNA 序列,设计出该序列的合适引物; 实验报告:
1.实验各步骤使用的数据、运算平台、结果文件记录;
2.比较不同引物设计平台和不同PCR实验的差别;
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验八 perl程序的安装、编写、调试 实验目的:
培养学生能在windows和Linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。
实验原理:
Perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。
实验内容:
1.下载perl程序在Windows和Linux下的安装包并进行安装;
2.编写简单的perl程序,并学会debug;
3.编写具有简单功能的碱基处理perl程序。
实验报告:
1.perl解释器安装方法;
2.perl解释器debug方法;
3.讨论:perl语言在生物信息学研究中所起到的积极作用。
参考书目:
《PERL 编程24学时教程》(美)皮尔斯著 王建华等译,机械工业出版社,2000;
4.生物信息学考试重点 篇四
叉学科;它综合运用了数学、计算机学和生物学的各种工具来进行研究;目的在于阐明大量生物学数据所包含的生物学意义。
2.BLAST直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工
具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3.PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特
定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹
配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:对于最大简约法来说没有意义的点。
8.标度树:分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:只表示亲缘关系无差异程度信息。
10.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其
他任何节点。
11.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12.注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基
因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。样品溶
解后从高电压控制下的细针中喷出,形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中,在其钟被一股惰性气体干燥形成气态离子,这些气态离子从分析仪向探测器加速(飞行)。
15.机制辅助的激光解析/离子化(MAIDI):这一技术通过质谱产生离子,这适合于没有降
解的大蛋白质的分析。基本原理是将分析物分散在机制分子中并形成晶体,当用激光照射晶体时,基质分子吸收激光能量,样品解吸附,基质-样品之间发生电荷转移使样品电子分离。
16.质谱(MS):是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质
量的准确确定成为可能。基本原理:将分析物分散在基质分子中并形成晶体,当用激光照射晶体时,基质分子吸收激光能量,样品解吸附,基质—样品之间发生电荷转移使样品分子电离。
17.微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通
过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
18.虚拟消化:是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由
计算机进行的一种理论上的蛋白裂解反应。
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致
药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22.权重矩阵(序列轮廓):是一种描绘蛋白质结构域家族相序列的方法。它们表示完全
结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。(课件定义)基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24.系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26.进化树:物种的进化被表现成为一系列的分叉,并符合分类理论,这些树就叫做进化树。
27.DBGET/LinkDB:由日本的化学研究所和人类基因组中心所开发的在线数据检索工具。
也见Entrez,SRS。
28.肽指纹图谱:蛋白质注释的一种方法,用质谱技术确定肽分子量(由蛋白酶消化产生)
并用来搜索蛋白质数据库找到与“虚拟消化”蛋白质相匹配项。
29.E值:对某个已识别出的相似度值S,E值是分值大于等于S的期望频率,改值可以被
理解为期望随机得到等于S或大于S值的分值数目。
30.相似度表和距离表:使显示物种间一套选定字符的相关性的表格,采用匹配的百分比(相
似度表)或者差异的百分比(距离表)来表示。
31.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法
和数据本身的分析方法。有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
32.距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得
出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
33.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理
和注释; 二级数据库:对原始生物分子数据进行整理、分类的结果,即非原始的实验数据,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
1.常用的三种序列格式:NBRF/PIR,FASTA和GDE
2.三个核算序列数据库:GenBank,EMBL和DDBJ
3.蛋白质序列数据库:SWISS-PROT和TrEMBL
4.提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)5.目前由NCBI维护的大型文献资源是PubMed
6.数据库常用的数据检索工具:Entrez,SRS,DBGET
7.常用的序列搜索方法:FASTA和BLAST
8.高分值局部联配的BLAST术语是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:Clustal10.蛋白质结构域家族的数据库有:Pfam,SMART
11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:PHYLIP
14.检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
16.查找简单基因的程序:NCBI ORF finder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:α螺旋,β折叠和β转角
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS——MODEL网站
21.蛋白质质谱数据搜索工具:SEQUEST(原理:经试验确定的肽或肽片段的质谱与数据库中预测的质谱进行匹配)。22.分子途径最广泛数据库:KEGG
23.Entrez搜索:PubMed的文献数据库MEDLINE。SRS搜索方式:标准搜索,扩展搜索。
1.FASTA序列格式: 第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。
NBIR/PIR序列格式: 第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。GDE序列格式: 与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)
2.BLAST的五个子程序(1)Blastp,用蛋白质查询蛋白质序列,可以找到具有远源进化关系的匹配序列,方法是用待搜索蛋白序列与蛋白数据库比较。(2)Blastn,用核苷酸 查询核苷酸序列,适合寻找分值较高的匹配,不适合远源关系,待搜索核酸序列与核酸数据库比较(3)Blastx,用蛋白质查询已翻译核苷酸序列,适合新DNA序列和EST序列的分析,将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较。(4)Tblastn,用已翻译核苷酸查询蛋白质,适合寻找数据库中尚未标注的编码区,将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比。(5)Tblastx,用已翻译核苷酸查询已翻译核苷酸序列。适合分析EST序列,无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列。
4.PSI-Blast的原理:是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAST搜索。接着把这次查找得到的每一击中项(高于选择的E值的选项)作为BLAST搜索第二次迭代的查询序列。第二次迭代应该找到比最初查询序列更多的进化关系,重复(迭代)这个过程直到找不到有意义的相似序列为止。
5明该树是可信的。第二,数据可以被重新取样,来检测他们系统上的重要性。在一种被称为bootsrapping的技术中,数据被随机从多序列联配的任何位置取样,接着被整合进入新的人工联配,这些联配之后通过构建树来检测。由于取样是随机的,一些位置可能被多次取样,而另一些则没由被取样过。Jack-knifing是一种和上述相似的过程,其中50%的原始数据被重新取样构成一个新的矩阵,再从该矩阵重新构建系统发育关系。
7. 原核生物和真核生物基因组中的注释所涉及的不同问题:在原核生物中,基因密度很高
(也就是说,只有很少的基因组DNA)并且绝大多数基因不含内含子。在真核生物中,基因密度下降并且由于物种自身复杂的增高而使基因复杂度也增高。因此,在高等真核生物基因组中寻找基因可能会非常困难。
9.预测蛋白质三级结构的三种方法 1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型; 2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型; 3)从头预测法:根据序列本身从头预测蛋白质结构。
11.先导化合物的来源有四种来源:1)通过偶然性观察发现的先导化合物(这个方法最
著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12.简述DNA计算机的基本原理: 1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。.DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。
13.简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?
试管方式:就是在一个或多个试管的溶液里进行生化反应;
表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。优点:(1)操作简单,易于实现自动化操作;(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍;(5)结果易于纯化。
14.简述PCR引物设计的基本原则及其注意要点原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。注意要点:
1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。
2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。
3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。
4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。
5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。
6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。
7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。
8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。
15.假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设
计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)
1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。
2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。
3、最后用距离法构建系统发育树。
16.假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。
1、用该序列进行BLASTP搜索。
2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。
3、再用ClustW进行多序列比对。
4、用人工神经网络的方法对其结构进行结构预测。
5.多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;
3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。
6.系统发育学的研究方法: 1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到; 2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列; 3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
8.简述人工神经网络预测蛋白质二级结构的基本步骤。
(1)输入数据(来自PDB)(2)产生一个神经网络(一个计算程序)(3)用已知的蛋白质二级结构来训练这个模型(4)由训练好的模型来给出未知蛋白的一个可能的结构
(5)最后从生物角度来检验预测的一系列氨基酸是否合理
5.北大生物信息学硕士培养计划 篇五
(试 行)
一、培养目标
1.较好地掌握马克思主义、毛泽东思想和邓小平理论,拥护党的基本路线,热爱祖国,遵纪守法,学风严谨,品行端正,有较强的事业心和献身科学的精神,积极为国家现代化建设服务;
2.掌握一门外国语,具有坚实宽广的与生物信息学跨学科研究相关的生物学以及计算机与信息科学方面的理论基础;
3.在生物信息学跨学科研究的某一领域掌握较系统的专门知识、技术与方法,能够运用所掌握的基础理论与专门知识解决科学研究或实际工作中的问题,具有从事教学与科学研究工作和其他实际工作的能力。
二、研究方向与指导教师(暂略)
三、招生、入学考试和学习年限
1.招生对象
生物学、数学、化学、物理学、计算机与信息工程科学类大学本科毕业生或同等学力者,以及具备较好相关知识背景的其它学科的大学本科毕业生。
2.入学考试
参加全国研究生招生统一考试。考试科目为政治理论课(理)、外语、专业基础课和专业课(专业基础课和专业课考试科目,包括生物学、数学、计算机科学与技术、物理学、化学等相关学科的课程,可根据报考者的学历背景及其报考导师的专业领域等情况进行选择)。
3.学习年限
三年
四、课程设置
生物信息学跨学科研究方向硕士研究生课程设置包括以下四个部分:
(一)公共必修课
(1)科学技术哲学与政治理论课
(2)第一外国语
(二)专业必修课(核心课程)
概率论与数理统计
数据库概论
普通生物学
生物信息学概论
生物化学与分子生物学
遗传学与细胞生物学
生物信息学研究中的数学方法
(三)讨论班与前沿讲座课(必修课)
生物信息学跨学科研究方向硕士研究生须参加讨论班与前沿讲座课程的学 1
习达四学期。每学期参加讨论班与前沿讲座课学习至少7次以上,记1学分;四学期共计4学分。
(四)选修或补修课
1.计算机科学
数据结构
数据库原理与技术
数据库进展与新技术
程序设计语言
(一)程序设计语言
(二)计算机程序设计与技巧
操作系统概论
2.数学
高等概率论与数理统计
高等统计学
随机过程论
组合数学
信息论与信号处理
算法设计与分析
算法研究
3.生物学与医(药)学
现代生物学概论
生物统计学
分子和细胞生物学
现代生物化学与分子生物学研究技术
蛋白质化学与工程
分子免疫学
生物英语
4.物理学
群论
量子力学
5.化学
量子化学
统计热力学
分子设计方法的原理及应用
生物信息学跨学科研究方向硕士研究生须依照培养方案修满39学分。其中:公共必修课7学分,专业必修课(核心课程)10学分,讨论班与前沿讲座课4学分(必修),选修或补修课16学分;学位论文选题报告2学分。
如果生物信息学跨学科研究方向硕士研究生按照培养方案所修课程为学校面向本科生开设的主干基础课程,成绩合格,则计入学分。
五、科学研究与学位论文工作
生物信息学跨学科研究方向硕士研究生在入学一年到一年半时间内,应按照培养方案修完除讨论班与前沿讲座课程以外的其它所有必修课、选修或补修课,并完成学位论文选题报告,用一年半到二年的时间从事与其专业研究方向相关的科学研究与学位论文工作。科学研究与学位论文工作可大致分为三个阶段:学位论文选题报告;科学研究工作的开展;学位论文写作与申请答辩。
六、其它
6.生物信息学数据库及运用分析 篇六
1 生物信息学数据库
生物信息学是建立在应用数学、计算机科学以及生命科学等多学科基础之上的交叉学科, 这门学科的主要任务就是探究如何高效地获取生物学信息, 对信息进行处理与分析, 存储信息以及应用生物学信息。数据库技术主要解决了将世界海量的生物学数据、已有的研究成果以及技术信息等收纳并存储在数据库中, 这样可以大大方便人们的生物研究与信息的查询与借鉴。
2 数据库的分类与特点
生物信息学数据库中的数据种类极为多样, 其数据库中的信息覆盖面也极为广泛, 数据信息很全面;数据库的信息更新速度快, 信息的内容更新的也很丰富;数据库的规模在不断地扩大, 数据库的复杂性也在不断增加;在使用上更加地网络化、便捷化。
2.1 一级数据库 (一次数据库)
在生物信息学数据库中的一级数据库主要包括了核酸和蛋白质一级结构序列数据库, 基因组数据库以及生物大分子 (主要为蛋白质) 的三维空间结构数据库, 通常称为基本数据库。一级数据库的明显优势就是在这个数据库中数据的信息量很大, 海量信息存储在数据库中并且数据每天都在增加, 数据的信息也会及时更新并且更新速度很快, 一级数据库的用户量也很多并且用户面也很广泛。因此以及数据库的建立是需要性能高的、磁盘的容量很大的并且拥有专门的数据库信息管理系统的计算机作为载体来支撑这些功能的完成。另外, 数据信息还需要一些大型的商业软件作为数据管理的支撑。例如, 在我国的生物信息学研究所中使用的是Oracle数据库系统, 这种软件管理系统可以较好地将数据进行管理与分类。研究所中针对基因组的数据库进行管理以及运行则主要是基于Sybase数据库系统来完成的。
2.2 二级数据库
所谓的二级数据库主要是以一级数据库以及文献资料为基础建立起来的数据库, 也称专业数据库。二级数据库相较于一级数据库, 其数据信息的容量也小得多, 数据信息的更新速度也相对要慢一些。二级数据库不需要大型的商业软件来支撑数据库的管理, 可以直接使用一些基本的浏览器, 如web浏览器。二级数据库有很多种类, 例如, 基于核酸数据库建立的二级数据库中有真核基因顺式调控元件和反式作用因子数据库的Trans Fac数据库, 以及真核基因启动子数据库EPD, 密码子使用表数据库CUTG等。基于三维空间结构为基础构建的数据库有蛋白质二级结构构象参数数据库DSSP, 已知空间结构的蛋白质家族数据库FSSP等。
3 生物信息学数据库的应用
3.1 序列的比较
所谓的序列的比较主要是指将两个序列中的各个元素放在一起然后按照对应等同的关系对元素进行有关的排列。对于两个序列中共有的那些排列顺序表示的是这两个序列的相似程度是较高的, 是对序列的一种较为定性的描述。对于最优的排列主要是反应在这两个序列中的最大相似程度以及最少相异处, 现在较为普遍寻找最优排列的方法是通过动态的规划算法来寻找最优序列。一般来说, 对于一个新的序列以及数据库中的某个序列的比较是可以在非常短的时间内就可以比较出来的, 但是由于基因数据库中的数据极为繁多, 因此在这个序列中的比较会相对花费较长的时间才可以比较出来, 尤其是逐个对比的时候, 所需要的时间更长。所以, 现在对于基因数据库中的序列的比较主要是使用搜索计较算法来进行序列的比较。另外, 关于序列的搜索主要是有两种使用较为普遍的使用程序, 一个是BLASR程序, 另外一个是FASTA程序, 这两个程序在实践应用中是比较成功的, 其可以根据给定的序列, 然后在基因数据库中快速地找出一些同源的序列, 进而提高搜素与比较的速度。例如, 在BLASR这个程序中主要使用的是一种对于序列的数据进行局部的对比与分析, 这可以较快找出一些同源的序列, 然后进行比较找出较优的序列, 因为这种程序可以较快提高比较速度, 软件的使用性能也不错, 因而在实践中应用度较广。
3.2 数据挖掘技术
随着生物信息学的数据库的数据在飞速增长, 怎样在海量的信息中提取出用户需要的信息成为一个问题的关键, 也是在生物技术信息数据库的应用中需要解决的一个问题。另外, 如何在已有的数据信息中以及从基因数据库中识别出编码的蛋白质的基因, 如何对识别的基因进行多种信息的表达与控制, 如何解读出生物的遗传密码, 分析出蛋白质的相关结构以及功能等都是需要面对以及解决的问题, 也在当下生物信息学数据库中面临着的比较棘手的困难。针对上述问题, 在实践应用中比较常用的是一种数据的挖掘技术。这种信息挖掘技术可以高效地从数据库的海量信息中挖掘出有效的信息或者生物知识。这种数据挖掘的技术主要就是从数据库中这些海量的信息、随机的信息数据中提取出一些人们以前不知道的但确实是有用的信息来提供给用户使用。用户通过这种技术可以高效地找出自己需要的信息与知识, 因此这种技术具有很强的应用性, 值得推广与应用。
4 结束语
关于生物信息学数据库以及应用方面还有很多需要探究的方面, 本文主要是对其进行了一些简单的介绍, 并没有很详细的延展开来, 需要在今后继续分析与研究。但可以肯定的是很多的生物技术的研究都是需要数据库的支撑来促进世界生物技术的发展与进步。
参考文献
[1]赵屹, 谷瑞升, 杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志.2012, 33 (5) :2-6.
7.伦敦大学国王学院生物信息学硕士 篇七
伦敦大学国王学院生物信息学硕士 课程简介:生物信息学是一个多学科的课程,包括与储存,组织和分析大量可用的生物分子数据相关的计算机工具的研究,开发和应用,为生物技术,医药行业和更高级的研究工作培养优秀人才。课程特色1:由生物医学和健康科学院,医学院和自然科学及数学科学学院的优秀老师教学的跨学科课程。课程特色2:均衡整合计算机,生物和医药各方面的课程。课程特色3:在生物信息学在自然与数学科学院和生物医学和健康系的生物信息学专家监管下,本课程可以使用先进设施并进行尖端项目研究 适合群体:适合准备从事生物技术和医药行业或进一步深造的学生。课程设置(基本模块):• Algorithm Design and Analysis 运算设计和分析,Algorithms for Computational Molecular Biology计算机分子生物学运算 课程设置(特色模块):Fundamentals of Genetics and Biomolecular Structure for Bioinformatics*生物信息学中的遗传学和生物分子的基本结构(此课程对有计算机科学专业背景的学生是必修课程),Statistics for Bioinformatics*生物信息统计学,Data Analysis of Large-Scale Experiments in Molecular Biology* 大型分子生物实验数据分析,Structural Bioinformatics and Protein Structure Predictions* 生物信息结构和蛋白质结构预测,Genetic Data Analysis in Medicine*医学中的遗传数据分析 奖学金及申请条件: 考核方式:8个教学模块通过书面考试考核,小组作业之类的课程以最终报告为评估依据,课程作业,个人项目作业(个人项目作业为获得MSc学位的必要条件,未完成项目作业的学生将获得硕士文凭)。就业方向:生物技术行业,学界和业界的生物工程研究;通用软件咨询公司,特殊软件开发公司,国企或私企等大型机构的IT部门。学生还可以决定继续攻读计算机科学或生物信息学博士学位。最佳申请时间:建议入学前一年开始申请 学习课程收益:学会了计算分子生物学,蛋白质结构分析和预测的运算设计和分析,生物信息统计,技术数据分析,蛋白质/基因相互作用关系;系统生物。此外,具有生物学背景的学生将引进学习编程和计算机科学,而具有计算机背景的学生将引进学习分子生物学知识。是否可雅思豁免:否 内部语言测试:无
8.零基础学生物信息学 篇八
四川大学生物信息学考研复习冲刺经验总结
在漫长的考研长跑比赛中,如果你穿着一双合脚而又便利的跑鞋,那么你注定要比别人跑得轻松、跑得愉快。为了帮助新闻与传播硕士考研的同学更好地复习,切实地利用好第一轮复习这个考研过程中关键的时间点。下面说说四川大学生物信息学该怎么复习。
初试: 考研中除了需要斗志,还要坚持,坚持着自己的目标,坚持着每天按部就班的学习,坚持着忍受一些不可回避的痛苦或者寂寞等等,只要坚持了,相信天道酬勤。我的考研分为几个阶段,我认为虽然计划赶不上变化,但是考研复习整个的计划还是需要思考的,比如要复习几轮,每轮做些什么,达到什么样的效果这些都是需要心中有数的,即使每天的计划有时会更改,但是大的方向需要把握住。
以下主要谈谈专业课的复习,公共课各个学校都是一样,可以广泛参考经验。4到6月第一轮复习,生化我是先找了一本薄的看了一遍并简单做一些习题,主要是一些选择填空,以巩固知识;细胞大体上进行一遍,也是做王金发老师的习题集,主要是小题。同时在复习专业课的时候做了一些笔记,整理出框架加深印象。7到10进行第二轮复习,由于其中一些事情的影响,放慢了复习进度,其实我觉得暑假7和8月份就可以把第二遍进行完,第二遍是在第一遍的基础上进一步熟悉课本,并进一步做习题,将一些基础性的习题进一步做做,并开始思考一些大题,细胞是王金发老师和翟中和老师的书兼顾,生化这个时候就是简要看一下薄本的,后来就开始看王镜岩的两本厚书,因为对生化的知识有了初步的了解,所以此时看生化会看得很快,而且收获很大;11到1月第三轮复习,做真题并多研究真题整理答案,真题我是用《四川大学计算机基础考研复习精编》这本书的历年真题,对于答案有重点解析,方便理解,当然有人会问,你读生物怎么会看计算机呢?那是因为生物信息学的生物软件需要懂一些计算机专业知识,很麻烦的。然后在真题的基础上再看一遍书,同时完善答案,注重细节,相应的做一些笔记,第三轮的时候看了一些基础生物化学这两本,这两本书重点很突出,都有相应的标记,而且与川大的生化真题是相接轨的,可以对王镜岩的书作一定的补充,同时一部分真题的答案可以在上面找到相关知识。
考研前一个月时我们就要反复的做题和看教材,而且要对自己进行模拟考试,按照考试时间进行模考,检测自己的实力,也能更快的进入到考试的状态。临近考试,复习方法应当有所调整,不能再继续题海战术,要在记忆知识点的同时掌握学习方法。建议大家使用提纲记忆法,将所学知识点以提纲的形式列出,再把内容填充进去。一来列提纲的过程本身就是对知识点的整合梳理的过程,二来填充的过程是对知识点的又一次强化。同时,考生在记忆时可以记忆关键词,这样减少了记忆的量,使记忆由多变精。
9.零基础学生物信息学 篇九
生物信息学是在生命科学的研究中, 生物学与计算机科学及应用数学等多学科相互交叉而形成的一门新兴的综合性学科。它以海量生物学实验数据为基本研究对象, 进行数据的获取、加工、存储、检索与分析, 从而实现揭示相关生物学意义的目的。在人类基因组计划的推动下, 各种类型的生物数据, 如核酸序列、蛋白质序列和蛋白质结构的生物信息数据, 呈现指数增长的迅猛趋势。为了对这些规模庞大、结构复杂的生物数据进行有效的管理和使用, 早在七、八十年代, 世界各地的科研人员就建立了大量的生物信息数据库。[1]
1、生物信息学数据库的分类及特点
生物信息学的重要内容之一就是生物信息学数据库, 1 9 6 0年左右, Ma rga re t D a yh o ff创立国际蛋白质序列数据库 (P S D) 。1 9 8 2年, L o s A l a m o s建立第一个核酸序列数据库G e n B a n k。现在这些数据库中的数据已经是天文数字, 而且每日都在增长。[2,3]现在, 生物信息学各级各类数据库几乎覆盖了生命科学的各个领域, 大部分是免费的。这些数据库基本上可以分为两类:一次数据库和二次数据库。其中, 核酸和蛋白质一级结构序列数据库、基因组数据库生物大分子 (主要是蛋白质) 三维空间结构数据库构成一次数据库, 以上述3类数据库和文献资料为基础构建的二次数据库
1.1 一次数据库
一般说来, 一次数据库的数据库量大, 更新速度快, 用户面广, 通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如, 欧洲生物信息学研究所用O r a c l e数据库软件管理、维护核酸数据库EMBL。而基因组数据库GDB的管理、运行则基于S y b a s e数据库系统, 即使是安装其镜像。也需要有S y b a s e支撑。O r a c l e和S y b a s e均为流行的数据库管理商业软件。而二次数据库的容量则要小得多, 更新速度也不像一次数据库那样快, 也可以不用大型商业数据库软件支撑。许多二次数据库的开发基于Web浏览器, 使用超文本语言HTML和Java程序编写的图形界面, 有的还带有搜索程序。这类针对不同问题开发的二次数据库的最大特点是使用方便, 特别适用于计算机使用经验并不丰富的生物学家。
1.2 二次数据库
二次数据库种类繁多, 以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库Trans Fac, 真核生物启动子数据库EPD, 克隆载体数据库V e c t o r, 密码子使用表数据库C U T G等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库P r o s i t e, 蛋白质功能位点序列片段数据库P r i n t s, 同源蛋白家族数据库Pfam, 同源蛋白结构域数据库Blocks。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat, 蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具, 如蛋白质二级结构构象参数数据库DSSP, 已知空间结构的蛋白质家族数据库FSSP, 已知空间结构的蛋白质及其同源蛋白数据库HSSP等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。此外, 酶、限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等, 也属于二次数据库或专门数据库。
生物信息数据库具有以下特点: (1) 数据库种类的多样性。生物信息各类数据库几乎覆盖了生命科学的各个领域。 (2) 数据库的更新和增长快。数据库的更新周期越来越短, 有些数据库每天更新, 数据的规模以指数形式增长。 (3) 数据库的复杂程度不断增加。数据库中除了基本数据之外, 还包括大量的注释、链接、参考文献等信息。 (4) 数据库使用网络化。几乎所有的数据库都可以在互联网上访问, 并且公共数据库之间相互链接, 使用户可以迅速得到大量的相关生物分子信息。
2、生物信息学数据库的应用
2.1 序列比较
序列比较的一个基本操作就是序列比对 (Alignment) , 即将两个序列的各个元素按照对应等同关系进行排列, 其结果是两个序列共有的排列顺序, 这是序列相似程度的一种定性描述, 它反应了在什么部位两个序列相似, 在什么部位两个序列存在差别。最优排列反应了两个序列的最大相似程度和最少的不同之处, 寻找最优排列的一般算法就是动态规划算法。一个新序列与数据库中的某个序列的比较在很短的时间内就可以完成, 但由于DNA序列数据库的数据量巨大, 逐个比较需要很长的时间。因此, 对于D N A序列搜索比较算法, 要求具有较高的速度。目前在序列搜索方面有多种不同的实用程序, 但较成功的两个程序是B L A S r和F A S T A, 它们能够根据所给定的目标序列, 快速地从DNA序列数据库或蛋白质序列数据库中找出同源序列。它们采取专门的技术以加快搜索速度, 如BLAST采用的是局部序列比对技术。现在, 这两个程序已被广泛地应用于DNA或蛋白质序列分析。
2.2 数据挖掘技术
生物信息学的诞生及发展使得核酸、蛋白质结构和功能的数据, 各种疾病相关数据及生物文献数据都飞速增长。但由此也带来一系列问题:一方面, 日益增长的数据对信息的采集和处理提出了空前的要求;另一方面, 如何从已经积累的海量数据和知识出发, 从DNA序列中识别编码蛋白质的基因, 以及调控基因表达的各种信号, 预测蛋白质的功能和结构, 解读生物的遗传密码, 进行药物设计等, 都是目前面临的巨大挑战。而数据挖掘技术是解决上述问题强有力的工具, 它能够有效地从大量数据中提取潜在的信息与知识。数据挖掘就是从大量不完全的、有噪声的、模糊的或随机的数据中, 提取潜在的、人们事先不知道但又是有用的信息和知识。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术, 它能开采出潜在的知识, 找出最有价值的信息, 指导商业行为或辅助科学研究。目前, 序列分析、基因表达、同源性研究、蛋白质结构预测以及药物设计等领域都为数据挖掘提供了广阔的研究空间, 也显示出了数据挖掘在这些方面的发展潜力。
3、生物信息学数据库应用展望
生物信息学是一门新兴学科, 作为一种生物学数据处理、分析的工具, 已经成为生命科学研究中必可不少的研究手段, 目前各相关数据库通过信息资源整合, 逐步形成了构架于这类数据库之上的数据整合平台, 为生物信息学的研究构建信息平台。网络技术飞速发展, 为生物信息学数据库网络化提供了极大的便利, 目前基本所有的生物信息学数据库均已经和网络连接, 随着网络信息检索工具、搜索引擎功能的逐步完善, 为分子生物学家利用这些信息资源提供了前所未有的机遇。结合基因组学、蛋白组学、转录组学、比较基因组学等新兴生物学分支的兴起, 生物信息学数据库的进一步完善, 数据量的日益增多, 生物信息数据库必将在生命科学各个领域的研究中起到重要的支撑作用。
目前我国的许多科研人员非常重视对国际生物信息学数据库的利用以开展自己的研究工作。很多高校和科研机构已经开展了生物信息学的研究和建立生物信息学数据库以及开发相应的软件。这些都充分说明了我国对利用国际生物信息学数据库以及开展生物信息学研究的重视。有理由相信, 我国的生物信息学研究在21世纪将取得更大的进展。
摘要:随着生物信息学的发展, 生物信息数据库日趋完善。本文阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库以及对生物信息学数据库的展望。
关键词:生物信息学,数据库,数据挖掘
注释
1[1]Cantor C R and Lim H A.Electrophoresis, Supercomputing and the Human genomes[M].New Jersey:World Scientific Publishing Co.1991 58-6 2.
2[2]欧洲分子生物学实验室 (EMBL) 的核酸序列数据库[DB/OL].[2009-10-12].http://www.ebi.ac.uk/embl.
10.零基础学生物信息学 篇十
对生物多样性信息学做了简要介绍,并说明了其在生物学与地质学交叉领域研究中的.应用现状,指出了生物多样性信息学发展过程中存在的困难及其在地质学研究中的应用前景.生物多样性信息学在生物多样性信息数据库和生物多样性信息处理程序2方面取得了很大的进展,而古生物学、生物与环境协同演化、地质生态学等研究领域的一些课题已经应用了生物多样性信息学的成果.
作 者:程丹丹 赖旭龙 张克信 CHENG Dan-dan LAI Xu-long ZHANG Ke-xin 作者单位:程丹丹,CHENG Dan-dan(中国地质大学,环境学院,武汉,430074)
赖旭龙,张克信,LAI Xu-long,ZHANG Ke-xin(中国地质大学,地球科学学院,武汉,430074)
11.从零开始学艾灸学习艾灸的心得 篇十一
从事冷库经营至今十年,虽然休闲自得,但环境温差大,对身体伤害很大,有缘认识了刘全军老师讲艾灸养生,随着岁月的流逝困扰着,什么湿疹,腰椎间盘突出等,朋友介绍到艾灸馆调理身体,通过艾灸自己的身体得到很大的改善,腰痛得到了缓解,真心很神奇,特受益。就萌生自己要学艾灸的想法,不仅自己受益,爱出者爱返,福往者福返,让我身边的每一位亲朋好友都知道艾草,喜欢艾灸养生。下面分享一下来刘全军艾灸学习的原因。
我要自己开艾灸馆,利用现有五年合同期,提前转行过渡,进军养生行业,作为自己一生要干的事业,马上行动,装修房屋改造„„上网再学习了刘老师的艾灸养生,同时了解其他学习培训机构,毅然决然来到了北京,刘全军艾灸学习,来了真是不虚此行,一个字值。不仅了解艾灸的起源和艾灸的文化形成,中国艾灸发展史及文化传承,中国艾灸发展状况简介,以及传统养生和灸材、灸具、灸法、配穴和项目经营及发展方向和将来会面临的状况。
12.零基础学生物信息学 篇十二
一 生物信息学的学科特点
生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科。它主要包括两重含义:一是对海量数据的收集、整理与服务, 即管理好这些数据;二是从中发现新的规律, 即利用好这些数据。生物信息学的实质就是利用计算机科学和网络技术来解决生物学问题。它的出现极大地推动了分子生物学等相关学科的发展。它不仅是一门新学科, 更是一种重要的研究开发工具。生物信息学几乎是今后所有生物 (医药) 研究开发所必需的工具。
生物信息学与其他的生物医学学科相比, 有很大的不同, 主要有以下三大特点:
第一, 以生物医学数据库为基础, 数据极其庞大复杂。随着组学时代的来临与深入, 生物医学数据正呈现指数级别的增长。根据权威的《Nucleic Acids Research》统计, 截止2014年, 全球共有约2100个主要的生物医学数据库, 涵盖了生物医学研究的诸多领域。从研究层次上看, 包括核酸、蛋白质、结构、基因组、蛋白质组、人类基因和疾病、细胞器官、免疫学等14类数据库。从研究种类上说, 包括动物、植物、真菌、原核生物、病毒等30余万种生物。仅登录在美国Gen Bank数据库中的核酸序列就超过1亿条, DNA序列总量超过1000亿碱基对;在Uni Prot中, 共收录蛋白质序列约1000万条;在PDB中, 共收录蛋白质结构数据超过8万个。
第二, 生物信息的操作分析主要以计算机为工具, 在互联网环境中运行, 通过网络强大的搜索功能完成数据收集、储存、管理与提供。
第三, 生物信息学是一门生物医学、数学、信息科学以及计算机科学等诸多学科综合交叉的前沿产物, 与其他学科相比, 综合交叉性强、难度大、发展时间短、还在不断完善与更新中。因而目前还没有成熟的生物信息学教学模式, 各高校, 尤其是医学院校, 尚处于摸索探讨的阶段。
二 生物信息学现有教学模式的不足之处
目前, 国内的生物信息学教学基本沿用以“教师讲授为主”的传统教学模式。以课堂为中心、以理论教学为主, 进行“满堂灌”式教育, “照本宣读”的方式也比较常见。缺乏与生物信息学交叉前沿性特点相适应的新型教学模式。同时, 实验教学方式比较单一, 常以验证性为目的, 有些甚至成为了“文献检索”课程, 缺乏和专业相适应的综合性、设计性实验, 结果出现了理论和实践相脱节的现象。
三 关于 PBL 应用于生物信息学教学的探索
1 PBL 教学法的优势
“基于问题的学习 (Problem based learning) ”, 简称PBL[2,3,4], 是美国广泛采用的一种探究性、任务驱动式学习模式。此方法与传统以学科为基础的教学法有很大的不同, 强调以学生的主动学习为主, 而不是传统教学中强调的以教师讲授为主, 比如将学习与更大的任务或问题挂钩、使学习者投入于问题中、设计真实性任务、鼓励自主探究、激发和支持学习者的高水平思维、鼓励争论、鼓励对学习内容和过程的反思等。在医学教育中, PBL教学强调以设置问题的方式为学生创造一种特定的疾病发生的情境和诊治的氛围, 通过学生的相互协作来共同解决实际问题, 最终实现培养学生独立处理和解决实际问题的能力的目标。这种教学模式很好地解决了理论与实际脱节的矛盾。
2 PBL 教学法在生物信息学教学中的实际应用
(1) 分组。根据能力和兴趣分组, 选择能力互补且有共同兴趣的学生组成不同学习小组, 一般以3~4人为一组, 对于总体能力特别强的小组可以适当减少人数。
(2) 提出教学目标, 布置真实性任务。首先, 布置基础性教学任务, 这类教学任务的目的是为了巩固学生的基础知识, 培养学生的基础能力。例如, 该类任务可由四个子科目组成:“生物医学数据库识别与理解”、“通过Entrez和SRS系统进行生物医学数据的检索利用”、“blast序列比对”、“clustalw多序列比对”。这是必选任务, 每个小组都必须完成, 为下一步实行探究性任务打下基础。
然后, 根据不同小组的兴趣和特点, 分配不同的探究性任务。例如, “新基因的发现与鉴定”、“某某疾病基因的分析与鉴定”等。这类问题并无现成答案, 学生必须自己查阅资料、进行归纳分析、确定实验步骤、完成任务。例如, 对于“新基因的发现与鉴定”这项任务, 最终可由如下步骤组成:1利用EST数据库获得基因重叠群;2新基因的拼接获得;3所得基因的性质分析;4启动子分析;5编码区分析;6新基因的人工翻译;7所得蛋白质的功能分析。这些步骤和每一步的实现方法都将由学生在已有的知识基础上, 通过查找文献、互相讨论、探索获得, 最终完成该项任务, 写出任务报告。
(3) 定期讨论。定期安排学生集中讨论。每次讨论主要完成两方面工作:一是对任务进展进行报告, 二是对所遇到的问题进行互相交流。教师全程参与, 对疑难问题作出提示和建议。
(4) 成果汇报。任务完成后, 进行集中汇报。让学生对任务期间所做工作、获得的结果进行汇报。
(5) 教师评价、反馈。由指导教师对任务完成过程及结果进行点评, 对学生掌握知识的程度及学生的科研、应用能力进行评价, 并提出进一步的提高方向。
(6) 延伸阶段。鉴于生物信息学都是在临近毕业时进行教学, 对于有兴趣的学生, 可以将探究性任务扩展成毕业设计, 进行模块化分流教学。
3 在生物信息学中运用 PBL 教学法的优势
(1) 生物信息学的学习是一个运用生物医学、数学、信息科学以及计算机科学等诸多学科知识进行分析、判断、推理、综合的实践过程, PBL教学法的应用可充分调动和发挥学生的主观能动性, 着重培养学生解决实际问题的综合分析、判断及实践动手能力。
(2) 在保证教学质量的前提下, 可明显减少传统的灌输式教学工作和学习的负担, 同时能让学生在短时间内熟悉多种生物医学数据库、掌握多种生物信息软件的使用方法、了解生物信息手段在生物医学中的各种应用。
(3) 在相互合作的过程中, 学生不仅学到了获取知识的方式, 更重要的是提高了学生的兴趣、交流意识和团队责任感等科研必备素质和能力。
(4) 在完成真实性任务的过程中, 可让学生熟悉完成科研工作的方法步骤, 培养学生完成科研任务的能力。
(5) 小组讨论时, 可培养学生捕捉有价值信息及质疑能力, 同时也充分发掘教师的创造潜能, 真正做到教学相长。
四 PBL 在生物信息学教学中应用面临的问题
虽然PBL模式符合解决生物信息学问题在医学领域中的特点, 但也存在实际操作问题。首先对教师提出了更高的要求。例如, 要求指导老师在整个教学过程中要启发学生思考, 引导他们发现问题、提出问题、找到答案、获得解决问题的能力和技巧, 而不是直接给学生提供参考答案。其次是学习资源必须充足, 主要包括网络资源、图书资料等教学硬件设施和相关的教学软环境。另外, 在教学过程中, 个别学生对教学模式的误解, 采取消极参与的方式, 甚至抵触;个别学生会过分依赖指导教师的总结, 不能独立思考、讨论和总结;个别学生讨论只抓表面问题等等, 都是不可回避和忽视的问题。
尽管PBL模式还存在着一定的问题和难度, 但随着知识和经验的积累, 将成为生物信息学的有效教学模式。
参考文献
[1]陈铭, 包家立.生物信息学[M].北京:科学出版社, 2013.
[2]Hussain R, Mamat W, Salleh N.Problem-based learning in Asian universities[J].Studies in Higher Education, 2007, 32 (6) :761-772.
[3]刘忠秀.医学教育中PBL教学模式应用的探讨[J].中国高等医学教育, 2008 (1) :1, 16.
【零基础学生物信息学】推荐阅读:
生物信息学电子资料总汇08-15
生物信息学复习资料10-22
高二生物贾学设计07-19
高二生物上学期学什么07-25
高二生物基础知识总结06-10
中医基础经络学06-26
领导学基础选择11-13
八年级生物《遗传的物质基础》教案06-16
没有音乐基础学吉他11-02
作文基础语言描写学案06-10