鄭洪坤:生物云讓中國基因大數據管理和挖掘生態系統更加高效

生物信息學的發展和基因組學的發展是緊密聯系的,基因組學更偏向于科學,生物信息學更偏向于技術,兩者緊密結合共同發展。生物信息學和基因組學的發展又和 測序技術的發展緊密聯系,特別是NGS技術的出現,測序成本大幅下降,完成一個人類基因組的測序從最初的30億美元下降到如今的1000美元,從而大大促 進了這兩個學科的發展。我國的組學方面的研究和應用是走在世界前列的,與高鐵、網購等并列為中國領先世界的8大領域之一,這與幾代科學家的努力是分不開 的。
我很有幸在基因組學在國內剛起步的時候就進入這個行業,畢業時“三證齊全”(生命科學的學位證、計算機四級證和英語六級證),在2001年進入了生物信息行業。這些年也見證了這個行業的發展。

生物信息學和生物大數據發展的歷程
我把生物信息工具開發模式的發展分成三個階段:第一個階段:genome center唱獨角戲。在這個方向剛興起的初期,人才儲備較少,產出數據的成本也很大,只有少量的國家支持的genome center可以從事這方面的系統研究,做生物信息開發的目的也比較明確,就是為了完成基因組中心所承擔的一些重大國家科研課題,對生物信息開發的要求是 “quick and dirty”,很少考慮程序的重復利用,做好當前數據的分析即可,這也是在當時歷史環境下的一種必然,畢竟有太多山頭要打,沒有時間做打掃戰場的事情。第 二個階段:NGS技術的出現和基因科技服務公司的崛起。當很多科學家看到了有那么多空白的山頭待開發,同時數據產出的成本也大幅降低情況下,科學家們對組 學研究都躍躍欲試,科技服務的市場需求就出現了,同時經過多年的人才儲備,也有了一定數量的技術人員,為科技服務公司的出現打下了人的基礎。兩者一拍即 合,科技服務行業蓬勃發展。這個階段生物信息開發注重的是“pipeline”,這樣能提高服務的效率,讓公司能更好的發展。第三個階段:大數據的積累和 豐富多樣的個性化分析需求。隨著NGS技術的不斷發展,測序成本不斷降低,數據積累也越來越快,同時隨著科學家對數據理解的深入,大大開拓了科學家的思 路,各種個性化的數據分析想法大量涌出腦海,“personalized”成為了這個階段的生物信息開發要滿足的關鍵需求。
在進入第三個階段后,隨著海量數據的產出和大量個性化分析需求的出現,原有的“quick and dirty”和“pipeline”模式的生物信息開發就體現的比較低效,科學家們為了得到個性化分析的結果往往要付出很大的資金投入、溝通成本和學習成 本。要讓科學家更好的關注科學,讓工程師更多的關注技術開發,讓工程師們不重復開發,生物云平臺是優化生物信息生態系統的一個有效方式,也是生物信息未來 發展的趨勢。我們已經開始進入生物信息的云計算時代。

生物云在生態系統中的定位和作用
生物云的生態系統包括哪些人及其之間的關系?隨著測序成本的大幅下降,手頭有基因大數據的科學家越來越多,圍繞著大數據挖掘的從業人員也越來越多,一個生 物大數據管理和挖掘的生態系統正在形成。在這個生態系統中,包括以下幾方面的人員:生命科學或醫學科學家,生物信息科學家,科研機構的生物信息技術工程 師,科技服務公司的生物信息技術工程師,系統軟件和硬件供應商。在這個生態系統中,各自有著不同的定位。生命科學或醫學科學家,關心科學問題,對生物信息 工具本身不是很感興趣,能解決他們的科學問題的,就拿過來用。生物信息科學家,注重分析方法的創新,提高分析方法的效率和精確度,關心方法本身的專業性, 對于用戶體驗層面思考較少。科研機構的生物信息技術工程師,具體分析課題組PI的項目分析,基本是“quick and dirty”模式,追求項目的效率,不太關心開發工具的重復利用。科技服務公司生物信息工程師,往往負責某研究方向的分析,“pipeline”模式居 多,關心分析的自動化程度,以能處理更多的項目。對于個性化分析的提煉有一定的意愿。系統軟件和硬件供應商,包括測序相關和計算相關,更多是想提高硬件的 使用效率和銷量。在這個生態系統里,大家根據自己的特點會有不同的形式來處理生物大數據挖掘和管理的問題。對于較大的課題組來說,即有生命科學或者醫學領 域的科學家,又有生物信息科學家和工程師,往往會選擇自建生物信息分析硬件平臺,自成系統的進行數據分析。對于沒有生物信息背景人員的課題組,會考慮和有 生物信息背景的科學家進行科研項目合作,或者和科技服務公司進行科研外包合作。
生態系統目前存在的問題?目前的這種合作形式存在較大的問題:1、海量的基因大數據放在數據庫中,科學家不方便拿到符合自己需求的整合數據庫和分析工具, 分導致大量的基因數據沉睡在哪里,不能很好的挖掘出其中的價值2、生物信息工程師的重復開發嚴重,浪費了工程師大量經歷,導致整體的開發效率低下。目前從 事生物信息開發的工程師也有一定的數量,但開發產出卻比較有限,很多工程師從業了好幾年時間都沒有開發一個標志性的工具,主要就是掉到重復開發的漩渦里 了,去年開發過的內容,今年再重復開發一遍,明年再重復開發一遍,沒有系統的規劃和積累。3、生物信息工程師開發的工具往往只能自己使用。在現有的評價體 系里面,一個生物信息工程師如果要證明自己的水平,往往需要發表學術論文來證明。從論文的角度比較關注技術創新和理論創新,這樣就導致了,工程師往往對技 術創新本身感興趣,不注重用戶需求和體驗,導致開發的工具科學家們無法方便的上手使用。4、生物信息分析能力的培養和評價體系不夠完善,基本靠自學,開發 人員水平不容易評定,魚龍混雜。5、工程師開發的工具很多,但缺少渠道分享自己的分析工具,主要是生物信息工具無法獨立傳播,需要部署在服務器上,對于大 多數科學家來說,拿到一個分析工具后,要想使用需要配備各種硬件和系統人員,挑戰較大,所以需要有更簡單的發布和使用這些工具的渠道。總結起來就是,生物 信息分析工具的開發和生物數據的積累各自為戰,缺少連接,缺少分析工具共享、數據共享和經驗共享的平臺,從而大大影響了整體生物大數據挖掘和管理生態系統 的效率。
生物云(BioCloud)是解決這一系列問題的一種有效手段。互聯網技術的發展,特別是云技術的發展為生物大數據的管理和挖掘提供了更好的技術支撐。今 天我們處在信息發展的第三平臺,所謂第三平臺,指的是以移動設備和應用為核心,以云計算,移動網絡,大數據分析,社交網絡技術為依托的新格局。此前,IT 市場已經經歷了兩個平臺,分別是20世紀60年代開始的以主機和終端為主的第一代平臺和80年代開始的以PC為核心,以局域網、服務器、互聯網為依托的第 二平臺。從第一平臺到第三平臺,面向的用戶數更多,和人的距離也更近,每一個獨立的人,都有可能變成第三平臺里的用戶或者說是企業的客戶。因此,對于IT 服務供應商而言,也意味著更多的機遇。在信息發展的今天,如何圍繞云計算、移動設備、大數據分析,社交來促進基因科學領域的發展。生物云平臺是互聯互通, 共享的平臺,生物云時代的到來是歷史發展的必然和趨勢。
生物云的出現,能大大優化整個生態圈,提高科研協作的效率。生物云既屬于科學家也屬于工程師,科學家在這里能管理和挖掘好自己的數據,工程師在這里能發布 自己的工具對接用戶,既能改進科學家的科研效率,也能改進工程師的開發效率和傳播效率,是現有生態系統的革命性的補充和完善。而且大家都不再需要為了底層 復雜的IT計算資源,并行化計算,系統運維等問題擔心。

百邁客生物云平臺介紹
百邁客云是國內第一家正式商用的生物云平臺,從2014年5月開始開放試用到2015年10月份正式商用。對于廣大的科研用戶而言,百邁客生物云是一個完 整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺賬號,就有了屬于自己的生物信息分析平臺,科學家們可以利用這個平臺進行生物信息的學習, 培訓,科研項目的分析以及生物信息軟件的開發。使得自己的實驗室以較小的成本就能獲得和別的實驗室投資幾百萬平臺一樣的分析能力。而且這個平臺具有很好的 彈性,無需維護,可以按需購買和使用。
對生物信息開發者而言,百邁客云提供了集成化的環境和友好的API,開發者可以將自身開發的軟件發布到云平臺。對科技服務供應商而言,百邁客云平臺是一個 很好的推廣與應用平臺。對科研院所而言,百邁客云平臺是一個集科研與教學為一身的平臺,能大大提高科研成果的產業轉化。對于百邁客企業自身而言,云平臺的 自主創新之路顯得水到渠成,百邁客從科技服務起步,6年多的成長之路,積累了上萬個測序項目經驗,同時有龐大的數據產出,這些真實有效的大數據背后蘊藏著 無限的可能,面對客戶、面對大數據、面對生態系統中的問題,生物云平臺開發最有利用價值的工具,整合測序積累的大數據,研發兩者之間的高度匹配規律,此時 呈現給用戶的是一款好用的生物云平臺。
百邁客云使得生物信息的分析對生物學家,醫學研究者變得透明,可重復,這些對于科研來說是必不可少的。同時,百邁客云能大大節省成本,用同樣的經費能做更 多的樣品測序,完成更多的數據分析和解讀。而且,百邁客云使得測序后的數據“活”起來,在云平臺進行數據的共享,管理和分析更加方便。未來,百邁客云將在 科研協作上為用戶提供更多的便利。
百邁客云注重創新和引入人才,我們沒有簡單的抄襲國外的同類產品,立志做全球基因大數據的挖掘,管理和科研協作整合平臺的第一品牌。百邁客云創新性的引入 了可讀化報告的自動生成和個性化數據的分析。公共數據和文章在后臺與NCBI同步,更加方便用戶對文章,數據的共享和使用。百邁客云從一開始就是自建數據 中心,使得所有的系統和軟件更加可控和可以針對性的進行優化,未來將支持主流的公有云,使得百邁客云的擴展性和靈活性得到更好的保障。此外,百邁客云采用 訂閱的方式進行銷售,更加方便用戶的預算和更多的使用。
百邁客云的團隊,是由一批來自海內外的專家和學者組成的。核心管理團隊來自VMware,Microsoft,華大基因。首席技術官是美籍華人,在硅谷有 近20年的開發管理經驗。產品經理曾在英國留學,一直擔任一線的生物信息學研究。還有很多在生物信息,人工智能,Spark方面的頂尖開發人員。同時百邁 客云聘請了近20位的科研顧問指導產品的發展方向。

對用戶而言何為高效
在第一點中提到,科學家們為了得到個性化分析的結果往往要付出很大的資金投入、溝通成本和學習成本。從近些年的行業發展進程中發現,基因+云計算的成功融 合帶來顛覆性的轉變前所未有,不管是傳統的生命科學領域還是現在最前沿的精準醫療、人工智能、基因測序等產業中任何一方面的發展背后都需要海量數據能力的 支持。
記得剛入行的時候就曾有科學家預言,21世紀是生物學世紀,假如過去生命科學曾得益于引入物理學、化學和數學等學科的概念、方法與技術而得到長足的發展, 那么,現在生命科學將以特有的方式“云計算”向自然科學及計算機科學致敬,但那個時候,也就短短的十幾年時間科學家們還未能預言出基因+云計算的理念,產 業發展之快,可見一斑。發展之快的另一原因我想還有基于云平臺的業務價值+需求,隨著測序成本的降低,大量數據的涌出快速推進了云平臺的發展,對于多數企 業而言,挑戰與機遇大都并行而來,2014年對關于開展高通量基因測序技術臨床應用政策的重新開閘,展現了國家對基因產業的支持態度,也就是在這個時段, 百邁客的云平臺測試版正式上線,在生物信息工具開發模式的第一和第二個階段,對于科研工作者來說,如果研究某個物種或疾病,都要各處翻閱大量文獻比對大量 基因數據,而且研究信息不夠集中散落在各個地方,甚至還需要學會很多種分析工具,這勢必占據了科研道路上大部分時間,云平臺的業務需求就顯得尤為重要,科 研工作者可能以前要花掉幾個月甚至更長的時間完成的工作,如果采用云平臺處理,使用工具一臺個人電腦即可,再花上品一杯茶的時間就可以得到相應的數據分析 結果。時間成本效率的大大提高勢必會提升研究經費使用率,探索中也為科研體系資金的良性運轉帶來些許的改變。整體而言,用戶更加需要一個平臺,能幫助其了 解特定研究領域的發展趨勢,找到所需的論文和可用的數據,更加方便的進行科研思路的交流,數據分析的可視化解讀和科研的協作。大大縮短過去需數月時間的科 研工作到一周左右,大大提高行業的數據整合和數據使用率。大數據的管理和挖掘,這也正是百邁客云努力的方向。

縱觀歷史與經濟發展歷程,任何行業都經歷著興衰更替是一種恒定不變的規律,生命科學與計算機科學(云計算,大數據分析,機器學習)高度的雙向滲透和綜合承 載著研究技術和手段的革新使命,且促使生命科學向更高層的研究領域突破,“大生態、大環境”不再遙遠!鄭洪坤:生物云讓中國基因大數據管理和挖掘生態系統 更加高效

最近文章
网络棋牌看牌器 梭哈玩法 江西快3遗漏 三d今日开机号试机号 胜负彩进球彩开奖结果 老时时四星走势图 香港赛马会走势图90期 北京时时冠军走势图 正规彩票微信群 赛车内部软件 体彩36选7走势图 天津快乐十分前三组遗漏号码 19082期足彩交战记录 云南时时中心 陕西快乐十分软件下载 推荐足彩收费犯法吗 老快3历史开奖记录