Google機器學習結合科學應用 幫助人類發現新行星、提高基因組測序準度 - 匯流新聞網

LIFE

Google機器學習結合科學應用 幫助人類發現新行星、提高基因組測序準度
Google機器學習結合科學應用 幫助人類發現新行星、提高基因組測序準度

匯流新聞網記者藍立晴 / 台北報導

Google今(6)日舉辦「機器學習系列-科學探索應用」媒體聚會,會中分享利用機器學習技術在天文與基因上的突破及發展,詳細解釋了機器學習如何結合科學應用,跨領域做出科學貢獻。

利用機器學習,可以幫助人類天文學家發現不易為人類發現的行星。其中,4年間蒐集超過20萬顆恆星的亮度,平均每30分鐘記錄一次每顆恆星亮度的「克卜勒太空望遠鏡」,至今已記錄大約7萬次每顆恆星的亮度。

Google機器學習結合科學應用 幫助人類發現新行星、提高基因組測序準度 13
▲當一顆運行中的行星擋住了恆星的光線時,恆星的亮度會減小。右方則為克卜勒太空望遠鏡所偵測到一顆恆星的訊號,各個點所形成的線為「亮度曲線」(light curve)。/Google

有許多的現象會造成偵測的恆星亮度變弱,例如恆星上的斑點、太空船在運行的過程中需要隨時讓太陽能板面向太陽,或者2顆恆星所造成的亮度改變,而天文學家在尋找行星時,通常會分為兩個階段:他們必須先透過電腦演算法,找出潛在的行星訊號;之後再由天文學家判斷哪些訊號來自真實的行星。

自2009年發射以來,克卜勒太空望遠鏡一直在尋找太陽系以外的行星,為了篩選抓取到的所有數據,科學家們通常會先查看最強的訊號,他們利用人工的方式檢查了超過3萬個以上透過克卜勒太空望遠鏡所偵測到的訊號,其中約有2500個訊號被認定為行星。

但是,由於過程相當耗時再加上許多較弱的訊號含有雜訊,因此這些訊號無法透過人工方式判別是否為行星。

0206-01
Google

在這樣人類無法以人工方式檢查、處理龐大資料的情況下,就是利用機器學習技術的絕佳時機。

Google利用近年來在辨識圖像上非常成功的神經網路(機器學習的一種運算模型),套用至探索行星中,建立起一個神經網路來分類克卜勒的訊號。透過訓練卷積神經網路*(convolutional neural network)來預測偵測到的訊號為行星的機率,並且利用15,000個天文學家已人工標記的克卜勒訊號來訓練模型。

接著,在模型訓練以後,透過模型搜尋克卜勒資料庫中的670個恆星並藉此辨別新行星,也因此發現了克卜勒-90i和克卜勒-80g。

Google機器學習結合科學應用 幫助人類發現新行星、提高基因組測序準度 16
▲Google利用15,000個被標示的克卜勒訊號,來訓練機器學習模組去辨認行星訊號,並利用這個模組,從670顆恆星的數據中發現新的行星,且成功發現了2個先前被忽略的行星。/Google

其中,克卜勒-90 i是在克卜勒90星系中第8個被發現的行星,而克卜勒90星系更是目前已知第一個與我們所處的太陽系同樣擁有8顆行星數的星系。

與我們的太陽系相比,克卜勒90太陽系的行星之間更為緊密,內圈的小行星更接近恆星。同時,也因為克卜勒-90 i是距離其恆星第3近的行星,因此表面溫度達到攝氏400度以上,人類無法居住。

在未來的發展上,由於現在還有假陽性預測(background false positives)問題未能解決,也就是有可能偵測到一顆恆星的亮度其實是來自附近恆星的亮度,因此希望可以將「位置資訊」結合到模型當中,讓模型有能力辨別這類訊號,而下一個目標則是利用模型運算整個克卜勒資料庫中超過20萬顆的恆星。目前已探索的670個中已發現2顆新行星。

除了在天文學上的重大發展,Google Brain團隊亦與Verily Life Sciences 合作花了兩年多時間開發了用以提高基因組測序*準確性的開源工具DeepVariant,將測序儀所讀到的數據編碼為圖像格式,接著利用圖像分類演算法,訓練出準確的變體識別*模型,辨別龐大資料量的片段信息與新一代測序儀結果產生的錯誤。

DeepVariant在2016、2017年獲得美國食品藥物管理局舉辦的變體識別比賽之外,還在去年12月正式開源後,發布的一周內登上GitHub最熱門生物資訊科技,未來盼望將DeepVariant應用在人類以外的其他生物和農業研究上。

1552171
▲Google台灣區董事總經理簡立峰。/記者藍立晴攝

Google台灣區董事總經理簡立峰亦在會後指出,這些成果都展示了跨領域人才合作的潛力,也是透過開放資料、開源碼方能完成,台灣在基因測序領域、農業相關研究、人體疾病預防方面也多有發展,若能妥善利用這些工具,除了能帶來許多幫助以外,也是台灣在人工智慧發展的一個機會。


*卷積神經網路(convolutional neural network)
為一種特定的神經網路,通常運用於圖像分類,例如Google相簿。
*基因組測序
為一種核心生物技術,可以捕獲任何有機體遺傳密碼中的訊息,幫助以前無法解決的病例,如幫助醫生決定癌症的標靶治療是否有效、可以利用來尋找新生兒無法解釋疾病之病因。
*變體識別(Variant Calling)
透過個體與參考基因組之間的差異,是找出差異性的第一步,也是許多醫療和藥物開發的第一步,但不是所有的變體都會產生疾病,因此變體識別並不包含預測一個變體是否會產生疾病。

延伸閱讀:
【匯流新聞網】Google人工智慧助NASA發現迷你太陽系「克卜勒90」

【文章轉載請註明出處】

【匯流筆陣】
CNEWS歡迎各界投書,來稿請寄至[email protected],並請附上真實姓名、聯絡方式與職業身份簡介。
CNEWS匯流新聞網:https://cnews.com.tw

新聞照來源:Google


R18