首页

蛋白质组学及其研究方法与进展

生物信息网www.biowww.com.cn

蛋白质组学及其研究方法与进展

蛋白质是生命活动的体现者,基因的表达最后是通过蛋白质来体现的,在这个过程中,蛋白质起了连接基因与表现的功能。蛋白质是有氨基酸组成的,组成蛋白质的氨基酸的种类及排列顺序构成了蛋白质的一级结构,而在一级机构基础上的多肽链本身的折叠和盘绕方式构成了蛋白质的二级结构,考虑到多肽链上原子在空间的分布,由二级结构进一步形成了蛋白质的三级结构,对于有多个亚基的蛋白质还存在四级结构。

蛋白质的一级结构决定了高级结构,而高级结构则决定着蛋白质的生物学功能。质组学,在蛋白质的研究中发挥着很重要的作用,基本内容及研究进展。

一.产生背景[1]

在20世纪中后期 随着DNADNA和生命功能的体现者蛋白质的研究,成为了其主要内容。9010多种低等模式生物的基因组序列测定L三完成;DNA全序列测定也在1998(EST)已经完成;2003年完成。生命科学已跨入了后基因组时代。在后基因组时代,mRNA 水平上,通过DNA 芯片和微阵列(Microarray)法等技术检测大量基因的表达mRNA的表达水平(包括mRNA的种类和含量)由于均无法从在基因此,对生物功能的主要体现者或执行者一蛋白质的表80年代中期,国际上葫发了一门研究细胞内垒部蛋白质的组成及其活动规律的新兴学科- 蛋白质组学(Proteomic)。

蛋白质组(proteome)一词是马克.威尔金斯(Marc Wilkins)最先提出来的, 最早见诸于1995年7月的“Electrophoresis”杂志上它是指一个有机体的全部蛋白质组成及其活动方式。 蛋白质组研究虽然尚处于初始阶段, 但已经取得了一些重要进展。 当前蛋白质组学的主要内容是, 在建立和发展蛋白质组研究的技术方法的同时, 进行蛋白质组分析。 对蛋白质组的分析工作大致有两个方面。 一方面, 通过二维凝胶电泳得到正常生理条件下的机体、组织或细胞的全部蛋白质的图谱, 相关数据将作为待检测机体、组织或细胞的二维参考图谱和数据库。 一系列这样的二维参考图谱和数据库已经建立并且可通过联网检索。 二维参考图谱

生物信息网www.biowww.com.cn

建立的意义在于为进一步的分析工作提供基础。 蛋白质组分析的另一方面, 是比较分析在变化了的生理条件下蛋白质组所发生的变化。 如蛋白质表达量的变化, 翻译后修饰的变化, 或者可能的条件下分析蛋白质在亚细胞水平上的定位的改变等。

细胞或组织的蛋白质不是杂乱无章的混合物, 蛋白质间的相互作用、相互协调是细胞进行一切代谢活动的基础。 蛋白质间的相互作用及作用方式同样也是蛋白质组研究所面临的问题。 研究蛋白质间的相互作用有多种方法, 常用的如酵母双杂交系统、亲和层析、免疫沉淀、蛋白质交联等。 其中, 酵母双杂交系统是当前发展迅速、应用广泛的主要方法。

二.发展趋势[2]

层出不穷。1996Australia Proteome Analysis Facility ( APAF )质组的研究阵容。去年在瑞士成立的GeneProt“SWISSPROT” Human Protein Index 的美国科学家Normsn 也成立了类似的蛋白质组学公司,继续其多年未实现的梦想。月,在美国成立了国际人类蛋白质组研究组织(Human Proteome HUPO),随后欧洲、亚太地区都成立类蛋白质组计划(Human Project)。

三.研究技术[7]

(2-DE)

. 双向电泳由O’Farrell’s于19751 000个E.coli蛋白,并表明蛋白质谱不是稳定. 双向电泳原理简明,第一向进行等电聚焦,蛋白质沿pH至各自的等电点;随后,再沿垂直的方向进行分子量的分离. 目前,随着技术的飞速发展,已能分离出10 000个斑点(spot). 当双向电泳斑点的全面分析成为现实的时候,蛋白质组的分析变得可行.

样品制备(sample prepareation)和溶解同样事关2-DE的成效,目标是尽可能扩大其溶解度和解聚,以提高分辨率. 用化学法和机械裂解法破碎以尽可能溶解和解聚蛋白,两者联合有协同作用. 对IEF(isoelectric focusing)样品的预处理涉及溶解、变性和还原来完全破坏蛋白间的相互作用,并除去如核酸等非蛋白物质. 理想的状态是人们应一步完成蛋白的完全处理. 近来, 在“变性剂鸡尾酒”中,含14~16个碳的磺基甘氨酸三甲内盐(ASB14~16)的裂解液效果最好. 而离液剂2 mol/L硫脲和表面活性剂4%CHAPS的混合液促使疏水蛋白从IPG(immobil

生物信息网www.biowww.com.cn

ized pH gradients)胶上的转换. 三丁基膦(Tributyl phosphine,TBP )取代β-巯基乙醇或DTT完全溶解链间或链内的二硫键,增强了蛋白的溶解度,并导致转至第二向的增加. 两者通过不同的方法来增加蛋白的溶解度,作为互补试剂会更有效. 在保持样品的完整性的前提下,可利用超离和核酸内切酶去除核酸(DNA). 除此之外,机械力被用来对蛋白分子解聚,如超声破碎等. 另外,添加PMSF等蛋白酶抑制剂,可保持蛋白完整性. 由于商品化的IPG胶条是干燥脱水的,可在其水化的过程中加样,覆盖整个IPG胶,避免在样品杯中的沉淀所致的样品丢失. 此外,低丰度蛋白(low abundance protein)在细胞内可能具有重要的调节功能,代表蛋白质组研究的“冰山之尖”,故分离低丰度蛋白是一种挑战. 亚细胞分级和蛋白质预分级、提高加样量(已达到1~15 mg级的标准)、应用敏感性检测,可以提高其敏感性. 如一种多肽免疫2-DE印迹(MI-2DE)是利用几种单克隆抗体技术来分析和检测. 提高组蛋白和核糖体蛋白等碱性蛋白(basic 是另一难点. 由于碱性pH范围内凝胶基质的不稳定及逆向电渗流对PI(等电点)超过10的碱性蛋白,通过产生0~10%16%的异丙醇可减少之.

2-DE面临的挑战是高分辨率和重复性. 高重复性允许进行凝胶间配比(match). 对2-DE种方法分离蛋白:1)ISO-DALT(isoelectric focus)以O’Farrell’s质(carrier ampholyte, CA),在管胶内建立pHpH梯度不稳,易产生阴极漂移. 2) pH gradient electrophoresis)用于分离碱性蛋白(pH>7.0). 基质而丢失. . 3)IPG-DALT发展于80年代早期. pH梯度(Immobilized pH gradient, IPG)的出现解决了pH通过immobiline共价偶联于丙烯酰胺产生固定的pH. 目前可以精确制作线性、渐进性和pH梯度. 新的酸性pH 3~5或碱性pH 6~11的pH 4~7的梯度可对蛋白质形成蛋白质组重叠群从而有效分离.

(spot detection)亦很重要. 所采用的检测策略和分离后所. 此外,还需考虑反应的线性、饱和阈/动态范. 目前,没有一种PI及分离后分析技术. 银染已成为一种检测2-DE的流行方法,可检测少到2~5ng的蛋白,因此较考马斯亮蓝R-250敏感. 多数糖蛋白不能被考马斯亮蓝染色,一些有机染料不适于PVDF膜. 放射性标记不依赖其代谢的活性,并仅适于对合成的蛋白质检测. 另有一种改良的2-DE(差异凝胶电泳),即应用两种不同的染料荧光标记两个样品,使在同一凝胶上电泳后的凝胶图象为两个,避免了几种2-DE的比较,可在纳克级进行检测.

较早期相比,2-DE有两个主要的进步:首先,极高的重复性使有机体的参考图谱,可通过Internet获得,来比较不同组织类型、不同状态的基因表达;其次,高加样量使得2-DE成为一项真正的制备型技术.

生物信息网www.biowww.com.cn

鉴定技术(Identification)

如果目前分离蛋白质组的最好技术是2-DE,那么随之而来的挑战是数百数千个蛋白如何被鉴定. 在这里,我们不考虑传统的蛋白鉴定方法,如免疫印迹法、内肽的化学测序、已知或未知蛋白的comigration分析,或者在一个有机体中有意义的基因的过表达. 并不是因为这些方法无效,而是因为它们通常耗时、耗力,不适合高流通量的筛选. 目前,所选用的技术包括对于蛋白鉴定的图象分析、微量测序;进一步对肽片段进行鉴定的氨基酸组分分析和与质谱相关的技术.

(1) 图象分析技术(Image analysis). “满天星”式的2-DE ,那么随之而来的挑战是数百数千个蛋白如何被鉴定. 在这里,我们不考虑传统的蛋白鉴定方法,如免疫印迹法、内肽的化学测序、已知或未知蛋白的comigration分析,或者在一个有机体中有意义的基因的过表达. 它们通常耗时、耗力,不适合高流通量的筛选. 白鉴定的图象分析、微量测序;质谱相关的技术.

(1) 图象分析技术(Image analysis). “满天星”式的. 在一系列高质量的2-DE凝胶产生(检测、背景消减、斑点配比和数据库构建. 荷耦合CCD(charge coupled device)(laser densitometers)和Phospho或Fluoroimagers,. 并成为以象素(pixels)为基础的空间和网格. 测. 利用Laplacian,of Gaussians) opreator使有意义. 图象分析检测的. 在这一原则下,多数系统以控制斑点的重心或最高峰来分析,并进行边缘检测和邻近分析,以增加精确度. . 以PC机为基础的软件Phoretix-2D正挑战古老的Unix为基础的. 第三,一旦2-DE图象上的斑点被检测,许多图象需消减或均值化. 由于在2-DE中出现100%的重复性是很困难. IPG技术的出现. 因此,较大程度的相似性可通过斑点配比向量算法在长度和平行度观测. 用来配比的著名软件系统包括Quest,Lips,Hermes,Gemini等,计算机方法如相似性、聚类分析、等级分类和主要因素分析已被采用,而神经网络、子波变换和实用分析在未来可被采用. 配比通常由一个人操作,其手工设定大约50个突出的斑点作为“路标”,进行交叉配比. 之后,扩展至整个胶. 例如:精确的PI和MW(分子量)的估计通过参考图上20个或更多的已知蛋白所组成的标准曲线来计算未知蛋白的PI和MW. 在凝胶图象分析系统依据已知蛋白质的pI值产生PI网络,使得凝胶上其它蛋白的PI按此分配. 所估计的精确度大大依赖于所建网格的结构及标本的类型. 已知的未被修饰的大蛋白应该作为标志,变性的修饰的蛋白的PI估计约在±0.25个单位. 同理,已知蛋白的理论分子量可以从数据库中计算,利用产生的表观分子量的网格来估计蛋白的分子量.

生物信息网www.biowww.com.cn

未被修饰的小蛋白的错误率大约30%,而翻译后蛋白的出入更大. 故需联合其他的技术完成鉴定.

(2) 微量测序(microsequencing). 蛋白质的微量测序已成为蛋白质分析和鉴定的基石,可以提供足够的信息. 尽管氨基酸组分分析和肽质指纹谱(PMF)可鉴定由2-DE分离的蛋白,但最普通的N-末端Edman降解仍然是进行鉴定的主要技术. 目前已实现蛋白质微量测序的自动化. 首先使经凝胶分离的蛋白质直接印迹在PVDF膜或玻璃纤维膜上,染色、切割,然后直接置于测序仪中,可用于subpicomole水平的蛋白质的鉴定. 但有几点需注意:Edman降解很缓慢,序列以每40 min 1个氨基酸的速率产生;与质谱相比,Edman降解消耗大;试剂昂贵,每个氨基酸花费3~4$. 这都说明泛化的Edman降解蛋白质不适合分析成百上千的蛋白质. 术无法测定而克隆其基因是必需的,则需要进行泛化的Edman

近来,应用自动化的Edman降解可产生短的N-的序列标签概念用于Edman. 当对Edman的硬件进行简单改进,以迅速产生N-20个/d,序列检签将适于在较小的蛋白质组中进行鉴定.. 选择BLAST程序,可与数据库相配比. Tagldent的检索程序,.

(3) 与质谱(mass spectrometry). 质谱已成为连接蛋白质与基因的重要技术,. 用来分析蛋白质或多肽的质谱有两个主要的部分,1)2)测量被介入离子的分子量的装置. (MALDI-TOF)为一脉冲式的离子化技术. . 其次是电喷雾质谱(ESI-MS),联合四极质谱或在. 近年来,质谱的装置和技术有了长足的进展. 在(ion reflectron)和延迟提取(delayed ion . 在ESI-MS中,纳米级电雾源(nano-ele的出现使得微升级的样品在30~40 min内分析成为可能. 将反(tandem MS)联用,可在数十个picomole的水平检测;若picomole到高femtomole水平检测;当利用毛细管电泳与串联质谱连用时,可在小于femtomole的水平检测[25]. 甚至可在attomole水平进行. 目前多为酶解、液相色谱分离、串联质谱及计算机算法的联合应用鉴定蛋白质. 下面以肽质指纹术和肽片段的测序来说明怎样通过质谱来鉴定蛋白质.

1)肽质指纹术(peptide mass fingerprint, PMF)是由Henzel等人于1993年提出. 用酶(最常用的是胰酶)对由2-DE分离的蛋白在胶上或在膜上于精氨酸或赖氨酸的C-末端处进行断裂,断裂所产生的精确的分子量通过质谱来测量(MALDI-TOF-MS,或为ESI-MS),这一技术能够完成的肽质量可精确到0.1个分子量单位. 所有的肽质量最后与数据库中理论肽质量相配比(理论肽是由实验所用的酶来

生物信息网www.biowww.com.cn

“断裂”蛋白所产生的). 配比的结果是按照数据库中肽片段与未知蛋白共有的肽片段数目作一排行榜,“冠军”肽片段可能代表一个未知蛋白.若冠亚军之间的肽片段存在较大差异,且这个蛋白可与实验所示的肽片段覆盖良好,则说明正确鉴定的可能性较大.

2)肽片段(peptide fragment)的部分测序. 肽质指纹术对其自身而言,不能揭示所衍生的肽片段或蛋白质. 为进一步鉴定蛋白质,出现了一系列的质谱方法用来描述肽片段. 用酶或化学方法从N-或C-末端按顺序除去氨基酸,形成梯形肽片段(ladder peptide). 首先以一种可控制的化学模式从N-末端降解,可产生大小不同的一系列的梯形肽片段,所得一定数目的肽质量由MALDI-TOF-MS测量. 另一种方法涉及羧基肽酶的应用,从C-末端除去不同数目的氨基酸形成肽片段. 化学法和酶法可产生相对较长的序列,其分子量精确至以区别赖氨酸和谷氨酰胺(128.06). 或者,在质谱仪内应用源后衰变(post-source 和碰撞诱导解离(collision-induced dissociation, CID)氨基酸残基质量的一系列肽峰的质谱. 肽片段PSD的分析在MALDI反应器上能产生部分序列信息. . 之后,一个有意义的肽片段在质谱仪被选作“母离子”,解为“子离子”. 段. 但经常产生不完全的片段. 70年代末的CID,可以一个三联四极质谱ESI-MS或联合碰撞器内来完成. 在ESI-MS义的肽片段被送至第二个四极质谱中,所得产物在第三个四极质谱中测量. 与CID稳定、强健、普遍,肽离子. 连续的片段间差异决定此序列在那一点的氨基酸的质量. 由CID图谱还可获得的几个序列的残基,叫做“N-、C.

(4) 年首次作为鉴定蛋白质的一种工具,是一种独特的“脚印”性,. Latter首次表明氨基酸组分的数据能用于从2-DE. 通过放射标记的氨基酸来测定蛋白质的组分,或者将蛋白质膜上,在155℃进行酸性水解1 h,通过这一简单步骤的氨基酸的40min内自动衍生并由色谱分离,常规分析为100个蛋白质/周. 依据代表两组分间数目差异的分数,对数据库中的蛋白质进行排榜,“冠军”蛋白质具有与未知蛋白质最相近的组分,考虑冠亚军蛋白质分数之间的差异,仅处于冠军的蛋白质的可信度大. Internet上存在多个程序可用于氨基酸组分分析,如AACompIdent,ASA,FINDER,AAC-PI,PROP-SEARCH等,其中,在PROP-SEARCH中,组分、序列和氨基酸的位置被用来检索同源蛋白质. 但仍存在一些缺点,如由于不足的酸性水解或者部分降解会产生氨基酸的变异. 故应联合其他的蛋白质属性进行鉴定.

生物大分子NMR技术

生物信息网www.biowww.com.cn

与X一光衍射不同,可在溶液中测定大分子三维结构的高场NMR仪,不要求提供晶体样品,仅需将很小体积高浓度蛋白溶液放置于强磁场中。因此,该技术已成为结构蛋白质组学研究的关键性技术。NMR法也可用于测定溶液中接近于生理状态的蛋白质构象, 如有人用”C,-5N,2H标记NMR,研究小于40kD的蛋白质小分子,蛋白质作用的动力学过程, 以及与蛋白质活性功能紧密相关的可变尾部构蒙。NMR法虽对样品无破坏作用,然而仍有一些/1 足之处,如实验时间长,蛋白质标记过程复杂,无法鉴定较大蛋白质结构。

四.研究新前沿―――定量蛋白质组学[5]

定量蛋白质组学(quantitmlive proteomics),即对蛋白质的差异表达进行准确的定量分析。这一概念的提出,标志着蛋白质组技术的不断改进和完善,蛋白质组学研究已从对蛋白质简单的定性向精确的定量方向发展。渐成为了蛋白质组研究的新前沿。随着2DE—MS究方案也不断提出,如多维LC-MS/MS对功能蛋白质组研究显得更为重要。低丰度的蛋白质,如何检测这些蛋白质,学研究中必须解决的一大难题,一。通过放射性同位素或 N代谢标记蛋白,而后经途径,可以大范围地对蛋白质表达定量分析。但由于2DE2DE的上样量至多达到nag级)分困难。相比而言,ICATICAT方法对低丰度的蛋白质(密码子偏依值小于0.

五.数据库介绍[6]

随x 海生松数据库以及拟南芥质膜蛋白质组数

PDB(Protein Data Bank,http://WWW.rcsb.org/pdb/)是国Brookhaven国家实验室于1971PDB收集了很多X光晶体衍射和核磁共振(NMR)的数据,经过整20世纪90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能,数据库的数据量呈直线上升。目前,PDB数据库中已经存放了22 611套原子坐标,其中大部分为蛋白质。

Scop(Structural Classification of Proteins,http://scop.mrcimb.cam.ac.uk/scop/)蛋白质结构分类数据库由英国医学研究委员会(MRC)分子生物学实验室和蛋白质工程中心开发,拥有蛋白质结构数据库分类、检索和分析系统,依据三维折叠模式和进化关系划分已知结构的蛋白质。另一个著名的蛋白质分类数据库CATH(http:,/www.biochem.uc1.ac.uk/bsm/cath_ new/inde

生物信息网www.biowww.com.cn

x.html/),其名称是由类型(c l ass)、构架(architecture)、拓扑结构(topology)和同源性(homology)的第一个字母缩写而来的,它由英国伦敦大学开发和维护。

由欧洲分子生物学实验室提供的PHD的web服务(http://www.embl—heidelberg.de/predictprotein/predictprotein.htm1),可对蛋白质序列和结构进行分析,当用户在此网页上提交序列后,可以获得此蛋白序列的许多相关信息,如功能位点、结构域、基序、主要的二级结构、二硫键等。

SW ISS一3DIM AGEfDatabase of annotated 3D images,http://expasy.hcuge.ch/pub/graphics/)是注释的蛋白质三维图像数据库, 由欧洲分子生物学实验室提供的对蛋白质序列和结构进行分析的Web服务,(http://www.embl—heidelberg.de/predictprotein/predictprotein.htm1)能位点等。通过瑞士生物信息学研究所网址(http://www..org/swissmod/SWlSS—MODEL.htm1)知结构的蛋白,模拟构建蛋白质的三维结构。无法预测结构。

SWISS—PROT 由欧洲生物信息学研究所(EBI)系、序列变异体和冲突等信息。中尽可能减少了冗余序列, 并与其他3O可以方便地检索SWISS—PROT和其他EBI的数据库。只接受直接测序获得的蛋白质序列,序列提交可以在其Web—PROT的网址是:http://www.ebi.ac.uk/swissprotPIR(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中 (JIPID)共同维护的国际上最大的这是一个全面的、经过注释的、非冗余的蛋白质序列数99% 的序列已按蛋白质家族分类,一半PSD的注释中还包括对许多序列、结构、基以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶一底物相互作用、活化和调控级联与具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。PIR和PSD的网址是:http://pir.georgetown.edu/。

PROSITE数据库收集了有显著生物学意义的蛋白质位点和序列模式,并能据此快速、可靠地鉴别未知功能序列所属的蛋白质家族。在有的情况下,某个蛋

生物信息网www.biowww.com.cn

白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE搜索找到隐含功能的基序。PROSITE涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、与小分子或其他蛋白质结合的结构域等;此外,PROSITE还包括由多序列比对构建的分布图(profile),能更敏感地发现序列与分布图的相似性。PROSITE主页上(http://www.expasy.ch/prosite)提供各种相关检索服务。

由美国橡树岭国家重点实验室徐鹰教授等开发的PROSPECT软件则用提交序列和数据库中的模板结构进行联配,并根据最佳联配,构建出蛋白质三维结构。

参考文献

[1]李林,吴家睿,李伯良.蛋白质组学的产生及其重要意义. 生命科学11.第二期

[2]曾嵘,夏其昌.蛋白质组学研究进展与趋势. 中国科学院院刊第3期

[3]纪建国,茹炳根. . 药物生物技术.2002.vol9

[4]张效云,董明纲,闫智宏. 功能蛋白质组学研究. .2OO2年.vol8.第l2期

[5]袁泉,赵辅昆. .生物化学与生物物理学报.2001.vol33.第五期

[6]季芝娟,薛庆中. 生命科学.2004.vol16.第4期

[7] http://www.biowww.com.cn/e/search/result/?searchid=140