您正在使用IE低版瀏覽器,為了您的雷鋒網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
未來醫療 正文
發私信給李雨晨
發送

0

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

本文作者:李雨晨 2020-01-11 09:48
導語:LeCun懟谷歌是有底氣的,畢竟這篇3個月前就發表的論文,比現在的谷歌模型準確率還要高出10%。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

2020年的第一天,谷歌就在醫療領域曝出了一個大新聞:谷歌健康部門聯手DeepMind在頂尖學術期刊《Nature》上發布人工智能乳腺癌檢測系統。

這個系統的核心亮點是,與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了5.7%,假陰性率也降低了9.4%。

作者稱,該系統檢測乳腺癌的能力超過專業放射科醫生,或有助提高乳腺癌篩查的準確性和效率。

但是過了一天之后,深度學習“三巨頭”之一的LeCun就對這項成果開炮。雷鋒網(公眾號:雷鋒網)對此事也進行了報道:《剛過一天就被拆臺?LeCun公開質疑谷歌《Nature》的乳腺癌AI研究成果

他表示,谷歌這篇論文的結果,紐約大學的團隊在2019年10月就已經做過了,谷歌應當引用紐約大學的研究,因為這個研究效果還更好。

效果有多好?谷歌論文AI系統中的AUC是0.889(UK)和0.8107(US),紐約大學的AUC達到了0.895。

另外一位學者Hugh Harvey也為LeCun打call。他表示,谷歌的研究中包含了6名放射科醫生,而NYU的研究則用了14名。

圍繞這一次小小的學術“風波”,雷鋒網AI掘金志學術組對紐約大學的這篇論文進行了編譯和編輯,看看這篇“先人一步”的論文有何可取之處?

以下為論文詳細內容,關注AI掘金志公眾號,在對話框回復關鍵詞“紐約大學”,即可獲取原文PDF。

摘要

我們提出了一個用于乳腺癌篩查檢查分類的深度卷積神經網絡,基于超過200000個乳腺檢查(超過1000000個圖像)上進行訓練和評估。對人群進行篩查檢測時,我們的網絡在預測乳腺癌存在方面的AUC達到0.895。

我們把高準確率歸因于以下技術進步:

一、網絡創新性地分為兩個不同階段的架構和訓練過程,我們在使用高容量patch-level網絡從pixel-level標簽學習的同時,設置另一個網絡從整體上學習乳房級標簽。


二、基于ResNet的自定義網絡,用作我們模型的構建塊,其深度和寬度方面的平衡針對高分辨率醫學圖像進行了優化。


三、在BI-RADS分類上對網絡進行預訓練,這是一項標簽噪音較大的相關任務。


四、在許多可能的選擇中以最佳方式組合多個輸入視圖。為了驗證我們的模型,我們組織14位放射科醫師進行了閱片,每位醫師查看720份乳腺鉬靶篩查圖像。結果表明,我們的模型與有經驗的放射科醫生的判斷結果一樣準確。

此外,將放射科醫生對惡性腫瘤的判斷結果和我們神經網絡的預測結果平均起來的混合模型更加準確。我們將模型在https://github.com/nyukat/breast_cancer_classifier上公開發布。

介紹

乳腺癌是美國女性第二大癌癥相關死亡原因。2014年,美國進行了3900多萬次篩查和乳腺鉬靶診斷檢查。據估計,在2015有232000名婦女被診斷為乳腺癌,約有40000人死于乳腺癌。

盡管乳腺鉬靶是唯一一種可以降低乳腺癌死亡率的影像學檢查方法,但大家一直在討論該篩查的潛在危害,包括假陽性和假陽性導致的活檢。10-15%的女性在做了未確定的乳房X光檢查后被要求再次接受檢查和/或超聲波檢查以進一步明確。經過額外的影像檢查后,許多女性被確定為良性,只有10-20%被推薦接受針活檢。其中,只有20-40%的人診斷出癌癥。

顯然,我們還需要讓常規乳腺癌篩查更加準確,并減少對女性身體的傷害。

盡管多中心研究表明,傳統計算機輔助診斷程序并不能提高診斷效果,但放射科醫生還是會使用它來幫助圖像判讀。深度學習的發展,特別是深卷積神經網絡(CNN)為創建新一代類似CAD的工具提供了可能性。

本文的目標是研發神經網絡以幫助放射科醫生判讀乳腺癌篩查圖像。

(i) 我們提出了一種新的兩階段神經網絡,將全局和局部信息結合起來,并采用適當的訓練方法。這使得我們可以使用一個非常高容量的patch-level網絡來學習pixel-level標簽,同時使用另一個網絡來從整體上學習乳房級標簽。通過這種策略,我們的模型不僅實現了與人類相當的競爭成績,同時產生可解釋的熱圖,顯示可疑發現的位置。此外,我們還證明了像素級標簽的實用性,即使在我們有很多圖像級標簽的情況下也是如此。

(ii)我們證明了利用超過1000000張高分辨率乳腺X線攝影圖像(這是醫學成像中的一個非常大的數據集,不僅僅是用于乳腺癌篩查)來訓練和評估該網絡的可行性。這對于未來的研究設計以及展示這種方法的概念和價值都具有重要價值。

(iii)我們提出了專門為醫學成像設計的ResNet的新變體,用作我們網絡的構建塊,它在深度和寬度上做了平衡,允許模型處理非常大的圖像,同時保持合理的內存消耗。

(iv)我們評估了使用具有更高噪聲的相關任務( BI-RADS分類)對網絡進行預訓練的效用,并發現它是管道中一個非常重要的部分,顯著提高了我們模型的性能。這在大多數數據集都很小的醫學影像研究中特別重要。

(v) 我們評估了在單一的神經網絡中結合來自不同乳腺攝影視圖的多種方法。我們未發現以前有過這樣的分析,盡管醫學成像任務通常有多個輸入。

數據

我們的回顧性研究得到了機構審查委員會的批準,符合《醫療保險可攜帶性和責任法案》。這個數據集是我們早期工作中使用的數據集的更大、更仔細的版本。

數據集包括來自141473名患者的229426份數字乳腺攝影篩查(1001093張圖像)。每次檢查至少包含4張圖像,與乳房X光攝影中使用的4個標準視圖相對應:R-CC、L-CC、R-MLO和L-MLO。數據集中的圖像來自四種類型掃描器:Mammomat Inspiration(22.81%)、Mammomat Novation DR (12.65%)、Lorad Selenia(40.92%)和Selenia Dimensions (23.62%),圖1顯示了一些檢查示例。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

我們依賴活檢的病理報告,來標記患者的每個乳房是否有惡性或良性發現。我們有5832個檢查在進行乳腺X片篩查的120天內至少完成一次活檢。其中活檢證實985例(8.4%)為惡性,5556例(47.6%)為良性,234例(2.0%)乳腺同時有良惡性征象。

對于所有與活檢相匹配的檢查,我們要求一組放射科醫生回顧性地指出活檢病灶在像素級別的位置(提供相應的病理報告)。

我們發現大約32.8%的檢查是隱匿性的,也就是說,活檢的病灶在乳腺鉬靶攝影中是不可見的,使用其他成像方式識別(超聲或MRI)被識別。詳見表一。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

腫瘤分類深度CNN網絡

一些乳腺同時包含惡性和良性病灶,我們使用多任務分類模型將乳腺癌篩查分類。也就是說,對于每一個乳腺,我們分配兩個二元標簽:乳房中有/沒有惡性發現(表示為yR,m和yL,m),乳房中有/沒有良性發現(表示為yR,b和yL,b)。左右乳腺加起來,每個檢查共有4個標簽。我們的目標是生成四個對應于每個標簽的預測(用?yR,m,?yL,m,?yR,b和?yL,b表示)。

雖然我們主要對預測惡性病灶的存在與否感興趣,但預測良性病灶的存在與否對于輔助調整模型學習任務起著重要的作用。我們將四個高分辨率圖像,對應于四個標準乳腺鉬靶攝影視圖作為輸入(由xR-CC、xL-CC、xR-MLO和xL-MLO表示)。

對于CC視圖,我們將每個圖像裁剪為固定大小的2677×1942像素,對于MLO視圖,裁剪為2974×1748像素。有關示意圖,請參見圖3。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

模型結構和訓練

我們受Geras等人先前工作的啟發,對圖5所示的四種不同結構的多視圖CNN進行了訓練。所有這些網絡都由兩個核心模塊組成:(i)四個特定于視圖的列,每個列基于ResNet體系結構,該結構為每個乳腺攝影視圖輸出固定維度的隱藏層向量表示;(ii)兩個全連接層,將計算出的隱藏層向量映射到輸出預測。這些模型在如何聚合來自所有視圖的中間層以生成最終預測的方式有所不同。

我們考慮了以下4種方式。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

1) ‘view-wise’模型(圖5(a))分別將L-CC和R-CC、L-MLO和R-MLO連接起來。它對CC和MLO視圖進行單獨的預測,最后將相應的預測取平均值。

1) ‘image-wise’模型(圖5(b))獨立地對四個視圖中的每一個進行預測。相應的預測最后取平均值。

2) ‘side-wise’模型(圖5(c))首先連接L-CC和L-MLO,以及R-CC和R-MLO,然后分別對每側乳腺進行預測。

3) ‘joint’模型(圖5(d))連接所有四個視圖,共同預測兩個乳房的惡性和良性概率。

在所有模型中,我們使用四個基于ResNet的22層網絡(ResNet-22)作為中間層,計算每個視圖的256維隱藏層向量。與標準ResNets相比,該網絡具有不同的深度和寬度比例,可用于分辨率非常高的圖像。

我們發現“view”模型在驗證集上預測惡性/非惡性是最精確的。除非另有說明,否則我們接下來說的都是該模型的結果。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

A.單個ResNet-22

ResNet-22的完整架構如圖4所示。L-CC和R-CC ResNets、L-MLO和R-MLO ResNets共享權重。我們在輸入模型之前翻轉了L-CC和L-MLO圖像,因此所有乳房圖像都是右向的,允許共享的ResNet權重在相同方向的圖像上操作。每個ResNet的中間輸出是H×W×256維張量,其中H和W從原始輸入大小下采樣,CC視圖H=42,W=31,MLO視圖的H=47,W=28。我們在空間維度上對向量進行平均,以獲得每個視圖的256維隱藏向量。

作為參考,我們在表2中顯示了ResNet-22的每一層后中間向量的維度。將標準Resnets應用于乳房X光攝影的主要原因是需要處理分辨率非常高的圖像,而不需要在GPU限制下進行下采樣來擬合前向過程及梯度計算。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

B. 輔助patch-level 分類模型及熱圖

圖像的高分辨率和GPU的有限內存,限制了我們在使用全分辨率圖像作為輸入時在模型中使用相對較淺的resnet。為了進一步利用乳腺X線照片中細粒度的細節,我們訓練了一個輔助模型來對256×256像素的乳腺X線圖片進行分類,預測在給定的patch中是否存在惡性和良性的病灶。

這些patch的標簽是由臨床醫生手動勾畫的。我們將此模型稱為patch-level模型,與上面一節中描述的對整個乳房圖像進行操作的breast-level模型不同。

我們將該輔助網絡以滑動窗口方式掃描全分辨率乳房X片圖像,以創建每張圖像的兩張熱圖(圖6為一個示例),一張代表每個像素惡性病變概率,另一張代表每個像素良性病變概率??偣?,我們獲得了八個附加圖像:Xm R-CC、Xb R-CC、Xm L-CC、Xb L-CC、Xm R-MLO、Xb R-MLO、Xm L-MLO、Xb L-MLO。這些補丁分類熱圖可以用作乳腺級別模型的附加輸入通道,以提供補充的細粒度信息。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

B. BI-RADS分類預訓練

由于我們數據集中有活檢的檢查相對較少,我們應用遷移學習來提高模型的穩健性和性能。遷移學習重用在另一個任務上預先訓練的模型的一部分作為訓練目標模型的起點。

對于我們的模型,我們從BI-RADS分類任務的預訓練網絡中遷移學習。我們考慮的三個BI-RADS類是:類別0(“不正?!保?,類別1(“正?!保┖皖悇e2(“良性”)。一些研究解釋了用于提取這些標簽的算法。盡管這些標簽比活檢結果噪聲更多(是臨床醫生根據乳房X光片進行的評估,而不是通過活檢獲得信息),但與訓練集中經活檢證實的4844次檢查相比,我們有99528多個BI-RADS標簽的訓練示例。

神經網絡已經被證明,即使是在使用噪聲標簽進行訓練時,也能夠達到合理的性能水平。我們使用這個特點將用BI-RADS標簽學習到的信息遷移到癌癥分類模型。我們的實驗表明,BI-RADS分類預訓練網絡對我們模型性能有顯著的貢獻(見第V-E節)。BI-RADS預訓練網絡結構如圖7所示。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

實驗過程

在所有的實驗中,我們使用訓練集來調整我們的模型參數,使用驗證集來優化模型和訓練過程的超參數。除非另有說明,否則均是篩選人群的計算結果。為了進一步改進我們的結果,我們采用了模型集成技術,對幾個不同模型的預測進行平均,以產生集成的總體預測。

在我們的實驗中,我們針對每個模型訓練了五個副本,在全連接層中對權重進行了不同的隨機初始化,而剩余的權重則使用BI-RADS分類中預先訓練的模型的權重進行初始化。

A. 測試人群

在下面的實驗中,我們在幾個不同群體上評估我們的模型,以測試不同的假設:(i)篩查人群,包括來自測試集的所有檢查,不進行亞抽樣;(ii)活檢亞群,這是篩查人群的子集,僅包括接受活檢的乳腺篩查人群的檢查;(iii)閱片研究亞群,包括活檢亞群和未發現任何病灶的篩查人群隨機抽樣的子集。

B. 評價指標

我們主要根據AUC(ROC曲線下的面積)評估我們的模型對乳腺惡性/非惡性和良性/非良性分類任務的性能。閱片研究模型和閱片者對圖像的分類成績是根據AUC和PRAUC來評估的,這兩個是評估放射科醫生成績的常用指標,ROC和PRAUC代表預測模型不同方面的性能。

C. 篩查人群

本節為篩選人群的結果,不同模型的結果如表3所示??傮w而言,四個模型的AUC都較高且基本持平。‘view-wise’image-and-heatmaps集成模型在結構上與預訓練階段使用的BI-RADS模型最為相似,在預測惡性/非惡性方面表現最佳,在篩查人群的AUC為0.895,活檢人群的AUC為0.850。

然而在良性/非良性預測方面,其他一些模型確實優于‘view-wise’集成模型。僅有圖像輸入的四種模型表現大致相當,低于image-and-heatmaps模型。在惡性/非惡性分類中,image-and-heatmaps模型比良性/非良性分類有更強的改進。

我們還發現,ensembling在所有模型中都是有益的,這使得AUC的小而穩定的提升。

image-and-heatmaps模型的四個變體模型集成后,在篩查人群中對良性/非良性預測任務的AUC為0.778,惡性/非惡性預測的AUC為0.899。盡管這種性能優于任何單獨的模型,但在實踐中運行這樣一個由20個獨立模型組成的大型集成體將非常昂貴。

D. 活檢亞群

我們在表3的右半部分顯示了模型在活檢人群中的評估結果。我們的測試集有401個乳腺,其中339個有良性發現,45個有惡性發現,17個兩者均有?;顧z亞群與總體篩查人群不同,總體篩查人群主要是健康個體,他們每年都要進行常規篩查,而沒有其他的影像學或活檢。與篩查人群的結果相比,所有模型在活檢人群的AUC明顯較低。

在活檢亞群中,我們觀察到image-only模型與image-and-heatmaps 模型之間的一致性差異。image-and-heatmaps集成模型在惡性/非惡性分類上表現最好,AUC達到0.850,在良性/非良性分類上表現同樣最好,AUC達到0.696。與篩查人群相比,活檢亞群獲得的AUC明顯較低,這可以解釋為,需要進一步影像學檢查和活檢的乳腺圖像對于放射科醫生和我們的模型均具有挑戰性。

E. BI-RADS預訓練的重要性

我們通過將我們的模型與未使用BI-RADS預訓練模型的權重而訓練的癌癥分類模型的性能相比較,來評價BI-RADS預訓練的益處,結果見表三(用*標記)。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

閱片研究

為了將我們的image-and-heatmaps集成模型(以下簡稱模型)的性能與放射科醫生進行比較,我們對14名醫師進行了一項閱片研究,其中有12名具有不同經驗水平的放射科醫生(2至25年),一名住院醫生和一名醫科學生,分別從測試集(1480個乳腺)中閱讀740份檢查:368份從活檢亞群中隨機選擇的檢查,372份從與活檢不匹配的檢查中隨機選擇的檢查。醫師被要求以0%-100%的比例為每個乳房提供惡性腫瘤的概率估計。

由于一些乳腺含有多個可疑的發現,醫師被要求對他們認為最可疑的病灶進行評估。我們模型的AUC為0.876,PRAUC為0.318。醫師的AUC從0.705到0.860不等(平均值:0.778,標準值:0.0435),PRAUCs從0.244到0.453不等(平均值:0.364,標準差:0.0496)。圖8(a)和圖8(c)示出了單個ROC和precision-recall 曲線及其平均值。

我們還評估了人機混合模型的準確性,其預測是基于放射科醫生和模型預測的線性組合?;旌夏P推骄鵄UC為0.891(標準差:0.0109),平均PRAUC為0.431(標準差:0.0332)(參見圖8(b),圖8(d))。

這些結果表明,我們的模型可以作為一個工具來幫助放射科醫生閱讀乳腺癌篩查檢查,并且與有經驗的乳腺放射科醫生相比,它提供了任務不同方面的信息。在補充材料的I-G-1節中可以找到一個定性分析,比較模型和放射科醫生對特定檢查的預測結果。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

結論和討論

通過利用一個帶有breast-level和 pixel-level標簽的大型訓練集,我們構建了一個能夠準確分類乳腺癌鉬靶檢查的神經網絡。我們將這一成功歸因于patch-level 模型中封裝的大量計算,該模型被應用于輸入圖像,以形成熱圖作為breast-level 模型的附加輸入通道。使用當前可用的硬件完全以端到端的方式訓練此模型是不可能的。

雖然我們的結果令人滿意,但我們實驗中使用的測試集相對較小,結果需要進一步的臨床驗證。

此外,盡管我們的模型在閱片研究特定任務上的性能比放射科醫生的強,但是放射科醫生執行的任務不僅僅于此。通常情況下,乳房X光攝影只是診斷流程中的第一步,放射科醫生結合其他影像科檢查后,才能做出最終的決定。

然而,在我們的研究中神經網絡和放射科醫生的混合模型分別優于這兩個模型,這表明使用這種模型可以提高放射科醫生對乳腺癌檢測的敏感性。

另一方面,我們的模型設計相對簡單,有希望進一步研究更復雜和精確的模型。除了測試該模型在臨床試驗中閱讀乳房鉬靶的效用外,下一個明確的目標是預測乳腺癌的發展——甚至在放射科醫師可以看到病灶之前。雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

文章點評:

表情
最新文章
請填寫申請人資料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
彩票平台刷流水骗局