伊人影院2019,午夜小视频福利,99久久午夜精品一区二区欧美

国产成年女人特黄特色毛片免_日本亚洲国产中文一区二区三区_国产精品福利一区_亚洲MA无码免费观看_欧美日韩一卡2卡三卡4卡乱码视频

杜克大學(xué)的生物醫(yī)學(xué)工程師展示了一種新方法，可以在僅使用一小部分可用數(shù)據(jù)的情況下顯著提高機(jī)器學(xué)習(xí)模型搜索新分子療法的有效性。通過使用主動識別數(shù)據(jù)集中差距的算法，研究人員在某些情況下可以將其準(zhǔn)確性提高一倍以上。

(相關(guān)資料圖)

這種新方法可以使科學(xué)家更容易地識別和分類具有可用于開發(fā)新候選藥物和其他材料的特征的分子。

這項工作發(fā)表在英國皇家化學(xué)學(xué)會6月23日出版的《DigitalDiscovery》雜志上。

機(jī)器學(xué)習(xí)算法越來越多地用于識別和預(yù)測小分子(例如候選藥物和其他化合物)的特性。盡管計算能力和機(jī)器學(xué)習(xí)算法都取得了顯著進(jìn)步，但它們的能力目前受到用于訓(xùn)練它們的現(xiàn)有數(shù)據(jù)集的限制，而這些數(shù)據(jù)集遠(yuǎn)非完美。

主要問題之一涉及數(shù)據(jù)偏差。當(dāng)有大量數(shù)據(jù)點展示一種特性遠(yuǎn)遠(yuǎn)多于另一種特性時，就會發(fā)生這種情況，例如分子抑制特定蛋白質(zhì)的潛在能力或其結(jié)構(gòu)特征。

杜克大學(xué)生物醫(yī)學(xué)工程助理教授DanielReker解釋道：“這就好像你訓(xùn)練了一種算法來區(qū)分狗和貓的圖片，但你給了它10億張狗的照片來學(xué)習(xí)，而只有100張貓的照片?！??！霸撍惴▽⒎浅Ｉ瞄L識別狗，以至于一切都開始看起來像狗，并且它會忘記世界上的其他一切?！?/p>

對于藥物發(fā)現(xiàn)和開發(fā)來說，這是一個特別成問題的問題，科學(xué)家們經(jīng)常處理的數(shù)據(jù)集顯示，99%以上的測試化合物“無效”，并且只有一小部分分子被標(biāo)記為可能有用。

為了解決這個問題，研究人員使用了一種稱為數(shù)據(jù)子采樣的過程，他們的算法從一個小的但(希望)具有代表性的數(shù)據(jù)子集中學(xué)習(xí)。雖然此過程可以通過為模型提供相同數(shù)量的示例來學(xué)習(xí)來消除偏差，但它也可能會刪除關(guān)鍵數(shù)據(jù)點并對算法的整體準(zhǔn)確性產(chǎn)生負(fù)面影響。為了彌補(bǔ)這一缺陷，研究人員開發(fā)了數(shù)百種二次采樣技術(shù)來限制丟失的信息量。

但雷克和他的合作者想要探索一種稱為主動機(jī)器學(xué)習(xí)的技術(shù)是否可以解決這個長期存在的問題。

“通過主動機(jī)器學(xué)習(xí)，算法本質(zhì)上能夠在感到困惑或感覺到數(shù)據(jù)中存在差距時提出問題或請求更多信息，而不是被動地篩選數(shù)據(jù)，”雷克說?！斑@使得主動學(xué)習(xí)模型在預(yù)測表現(xiàn)方面非常有效?！?/p>

通常，Reker和其他研究人員應(yīng)用主動學(xué)習(xí)算法來生成新數(shù)據(jù)，例如識別新藥物，但Reker和他的團(tuán)隊希望探索如果在現(xiàn)有數(shù)據(jù)集上釋放該算法會發(fā)生什么。雖然主動機(jī)器學(xué)習(xí)的二次采樣應(yīng)用已經(jīng)在其他研究中進(jìn)行了探索，但Reker和他的團(tuán)隊是第一個在分子生物學(xué)和藥物開發(fā)中測試該算法的人。

為了測試主動二次采樣方法的效率，研究小組編制了具有不同特征的分子數(shù)據(jù)集，包括可以穿過血腦屏障的分子、可以抑制與阿爾茨海默病相關(guān)的蛋白質(zhì)的分子，以及已被證明可以抑制阿爾茨海默病的化合物。HIV復(fù)制。然后，他們針對從完整數(shù)據(jù)集學(xué)習(xí)的模型和16種最先進(jìn)的子采樣策略測試了主動學(xué)習(xí)算法。

該團(tuán)隊表明，主動二次采樣能夠比每種標(biāo)準(zhǔn)二次采樣策略更準(zhǔn)確地識別和預(yù)測分子特征，最重要的是，在某些情況下，比在完整數(shù)據(jù)集上訓(xùn)練的算法效率高出139%。他們的模型還能夠準(zhǔn)確地調(diào)整數(shù)據(jù)中的錯誤，這表明它對于低質(zhì)量的數(shù)據(jù)集特別有用。

但最令人驚訝的是，該團(tuán)隊發(fā)現(xiàn)理想的使用數(shù)據(jù)量遠(yuǎn)低于預(yù)期，在某些情況下僅需要可用數(shù)據(jù)的10%。

“主動二次采樣模型會在某個時刻收集它需要的所有信息，如果添加更多數(shù)據(jù)，就會對性能產(chǎn)生不利影響，”Reker解釋道?！斑@個問題對我們來說特別有趣，因為它暗示存在一個拐點，即使在子樣本中，更多信息也不再有幫助?！?/p>

雖然雷克和他的團(tuán)隊希望在未來的工作中研究這個拐點，但他們還計劃使用這種新方法來識別潛在治療靶點的新分子。由于主動機(jī)器學(xué)習(xí)在許多不同的研究領(lǐng)域變得越來越流行，該團(tuán)隊樂觀地認(rèn)為他們的工作將幫助科學(xué)家更好地理解這種算法及其對數(shù)據(jù)錯誤的魯棒性。

“這種方法不僅可以提高機(jī)器學(xué)習(xí)性能，而且還可以減少數(shù)據(jù)存儲需求和成本，因為它使用的是更精細(xì)的數(shù)據(jù)集，”雷克說?！斑@使得機(jī)器學(xué)習(xí)對每個人來說都更具可重復(fù)性、可訪問性和強(qiáng)大性?！?/p>

更多信息：YujingWen等人，通過自適應(yīng)子采

關(guān)鍵詞：

国产成年女人特黄特色毛片免_日本亚洲国产中文一区二区三区_国产精品福利一区_亚洲MA无码免费观看_欧美日韩一卡2卡三卡4卡乱码视频

讓機(jī)器學(xué)習(xí)提出問題可以讓它變得更聰明