6月30日,深圳盐田,热浪滚滚。北山道136号,几栋白色的建筑并不起眼。庞大的数据如同螺旋一般,每天从这里源源不断地涌出。偶尔从门口经过的人也许无法想象,这些数据有一天会完全改变他的生活。全球最大的基因组研究中心、深圳华大基因就藏在这些白色建筑里,“生产”出全球40%的基因测序数据。
离此约20公里处,一块11.6万平米的巨大“梯田”正在深圳大鹏街道下沙片区禾塘仔地块上建起。这里是由华大基因组建及运营的中国首个国家基因库,一期基本完工,样本量达840万份,今年10月有望投入使用。
基因“国库”:一部要看4万年的高清电影
华大基因董事长汪建把即将面世的国家基因库形容为每个人的“生物银行”。2015年10月,中国首个国家基因库有望投入使用。“把你个人的东西存在基因库里,我们才是真正的‘国库’。”
2011年1月,国家发改委批复同意深圳依托华大基因组建国家基因库。同年10月,国家发改委、财政部、工业和信息化部以及当时的卫生部批复,深圳国家基因库由深圳华大基因组建及运营。
离盐田的华大基因总部约20公里处,一块11.6万平米的巨大“梯田”正在深圳市大鹏街道下沙片区“禾塘仔”地块上立起。
2002年4月5日,《科学》杂志以14页的篇幅发表了华大基因《水稻(籼稻)基因组的工作框架序列图》,封面是秀美的云南红河哈尼梯田。正在建设的国家基因库,建筑外形基本参照庞大的哈尼梯田,分两期建设,目前一期基本完工,样本量已达840万份。
“未来,你可以把你的血液、细胞、尿液、meta、DNA、RNA存在这里,动植物、海洋、微生物组织也会存起来。”按规划,2015年前建设完善生物资源样本库及配套的自动化样本处理流水线,预计将保存3000万份可溯源的生物实验样本。“人的样本,特别是与医学健康相关的样本会占主导。”
与此同时,生物信息数据库将储存与样本相关的所有数据,包括基因组、转录组、蛋白组学、表型数据,高性能计算储存集群系统则作为信息化平台支撑。
这个建设中的基因“国库”,数据规模到底有多大?“以一部高清电影4G B、时长1.5小时算,如果把国家基因库当做一部高清电影,要看上4万年。”国家基因库负责人曾有一个形象的形容。
测序工厂:100多台测序仪24小时运行
基因“国库”听上去很高大上,但汪建把基因学研究与产业化应用,自嘲为一件很“俗”的事,“我们是贪生怕死,就是想先天下之乐而乐”。
1999年,哥本哈根大学的遗传学博士杨焕明、华盛顿大学的汪建和于军等四人“自作主张”,以中国代表的身份,向人类基因组计划提交注册申请。他们负责的是3号染色体短臂末端的30 M b(兆)碱基测序,仅占总计划的1%。“那时还没有电子屏幕,只能挂起一张10米长3米高的基因图,每天有人拿着笔和尺子在上面一点点填充”。
6月30日,记者走进位于深圳盐田的华大基因时,早已看不到汪建回忆中的“手工作坊”场景,取而代之的是每天24小时自动化运行的100多台测序仪。
30岁的陈城超换鞋、穿上白大褂、消毒进入测序机房,他负责样本的上机测序环节。2008年从华师生物系毕业的他,操作起这些外人看不懂的机器来如鱼得水。
一管血液、一截头发、一口唾液……一份基因样本抵达实验室后,首先被陈城超的同事接收确认,录入信息系统。样品的基因组通常过长,测序仪没法进行一次测序,需要把基因组打断成小片段。
随后,检测人员从质量和浓度检测样本是否合格。不同样本和测序类型的浓度不一,以无创产前检测为例,因分析数据较少,几纳克即可;如果是肿瘤基因检测,浓度则为几十纳克。
样本合格后,会送到陈城超的实验室内。由于单分子的信号非常弱,他会先将其在扩增仪上进行扩增。“通俗地说,就是将其复制为大量相同的双螺旋,在D N A两端分别设置接头,当其长成一个簇后,信号就被放大了。”
陈城超一边解释,一边在小黑板上画出这些“簇”和连接的过程。至此,样本建库完成,等待送到测序仪上进行“上机操作”。
完成试剂准备工作,陈城超点击“RU N”按钮,测序过程完全自动化运行。“跑”一次后,测序结果将自动上传到大型数据库,有专门人员进行信息分析并发放报告。
日复一日,庞大的数据如同螺旋一般,源源不断在这条测序流水线上涌出。
精准医疗:先在基因图谱里寻找“错别字”
汪建逢人便说,他是华大基因的“大白鼠”。2002年,他被诊断出冠心病。他给自己做了基因检测,发现糖脂及代谢综合征相关基因、心血管及猝死相关基因、肿瘤易感基因等多种易感基因。坦言“怕死”的老顽童汪建,开始针对自己的基因数据,对自己的冠心病精准用药,同时定期预测监控体内生态平衡状况,再通过饮食和锻炼进行调整。
汪建把自己的遗传蛋白、代谢、菌群、环境、平时的体质评价、运动、营养、睡觉、饮食甚至心情等情况一一记录,连续跟踪10年,已记录下超过14T的多组学健康数据。
他认为自己的模式就是精准医疗的试验。
2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目— 精准医疗计划。“精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。”南方医科大学基础医学院副院长张文清认为,精准医疗将影响和改变未来的医疗、药物研发和使用,使治疗、诊断和用药更趋精确。
2013年,国家基因库出生缺陷联盟正式成立。在汪建眼里,超过一半的疾病,都可以通过基因测序得以提前防范和管理。第一类是针对遗传出生缺陷的产前检测,第二类是病毒和细菌的基因检测,如艾滋病、埃博拉、SA RS、结核病等,通过基因测序也能找出“元凶”。此外,很多肿瘤的发生也是基因变异的结果。
基因测序究竟如何“锁定”疾病?生物科学博士、华大基因总部办公室主任杨碧澄给出一个形象描述:一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。而错误有不同类型,可能是一个错别字,可能是整段话都错了,还可能是一段话跳到了另一个位置。这时,通过测序结果,分析基因突变的部分,从而找到某个疾病对应的基因,方便对症下药。
知晓基因图谱,只是迈向精准医疗的第一步。“恶性肿瘤的发生往往伴随着众多基因点位的突变。”南方医科大学基因研究所所长马文丽就说,疾病总是外因与内因相结合的产物,恶性肿瘤也不例外。杨碧澄也坦言,基因不是单个作用的过程,而是复杂交互的过程,可能涉及很多性状,需要积累大量数据,才能找出科学解答。
但基因检测的应用正在加速。深圳国家基因库建成后,这个巨型“生物银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。