首个“生物医药+机器学习”大规模资源数据集社区TDC诞生

发布时间:2021-04-25

 

随着机器学习在医疗领域的应用越来越广泛,其在疗法中的应用也逐渐被人们重视起来。

近日,由美国多所著名大学(哈佛大学,乔治亚理工,麻省理工学院,卡耐基梅隆大学,斯坦福大学,伊利诺伊大学厄巴纳- 香槟分校)的研究人员,与医疗数据公司IQVIA 合作,发布了医疗领域内首个面向疗法的统一机器学习开源框架 ——Therapeutics Data Commons(TDC)。

TDC 的详细介绍论文Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics 已经通过预印本发布发表在自然杂志上。

目前,TDC 已经收录有22 个机器学习任务,以及与它们所对应的与安全药物研发过程有关的66 个数据集,且包含许多社区性资源功能,属一个集各种资源和工具为一体的线上疗法研发用的机器学习研究平台。

根据论文,当前TDC 上的社区资源主要与数据处理函数、系统模型评估、数据拆分以及分子合成模拟有关。

TDC 是一个针对疗法研发领域,将机器学习数据集、任务和算法连接起来的平台,其内容涵盖疗法研发过程中的所有主要阶段

初衷

"通过开发并提升疗法来帮助人类解决健康问题",一直以来都是医学研究的首要目标。但开发团队认为,如果要向继续实现这一目标迈出决定性一步,还有许多问题需要被解决才行。

当下,随着高通量技术(high-throughput technique)在基因测序中得到应用,化合物筛选工作的进步,个人健康记录的数据化,现有的生物医疗系统已有大量数据可供科学家分析和研究。比如,美国医疗保健系统中所存储的总数据,就已经达到了以 "万亿兆字节" 而计的水平。而若想要充分利用起这些数据,就需用合适的算法来分析这些生物医疗类的大数据,但这就对算法提出了要求。

生物医疗领域使用的机器学习算法往往并不新颖,比如抗菌药物研发、多元药学(polypharmacy)、针对罕见新型疾病的用药研究和生物分子间的相互作用。

而尽管机器学习在生物医学研究中已初有成效,疗法上应用还并未初见端倪,比如我们目前对很多疾病的认知还并不健全,试错疗法研究对分析出适合具体患者的最佳疗法造成了阻碍,昂贵的实验室资源导致的研究和验证能力缺失,造成只有少数成功率很高的疗法才能有机会被研究和验证。

但一些方法在行业看来应该都是机器学习非常有应用前景的领域和方向。

如果要将机器学习在这些领域和方向上的应用付诸实践,开发团队认为,就当前的实际情况来看,存在以下三个主要挑战:

(1)高质量数据集以及相关生物医学信息水平的缺失,导致研究人员难以将特定问题转化为可行的机器学习问题;

(2)数据集类型繁多,且标注过的还没标注过的数据都混在一起,导致如果研究人员没有很通晓机器学习领域的知识,就很难能对数据进行筛选,并将之用于解决某一特定问题;

(3)虽然理论上许多计算模型的预测精度都已非常优秀,但在新药研发的过程中,如何能保证算法可信可靠(比如能在后续临床试验中体现出它的可信和可靠)仍是问题。

此次推出的TDC 统一框架,便是为了解决这些挑战而生。

TDC "大礼包"

TDC 属世上首个可以系统地索引、使用并评估疗法研发用机器学习算法的研发平台,其核心内容为为将算法上的创新与生物医学研究和临床试验链接起来而精选的数据集和机器学习任务。

目前TDC 共囊括66 个数据集和22 个机器学习任务,从靶蛋白的发现、药物动力学、安全性、药物生产均有覆盖,包含小分子、抗体、疫苗、miRNA 等研究。涵盖疗法开发过程中的所有基本主要流程,开发团队还为TDC 开发了一种独有的内容呈现方法,以方便统一各数据模式和机器学习任务。

TDC 所采用的内容呈现方法示意图,从左到右分别为:从疗法研发中提出的具体算法问题、与之对应的机器学习任务、与该机器学习任务所对应的数据集

TDC 中所有的数据集都可被直接用于机器学习,且在输入特征上有过优化。

TDC 的所有功能都能被容易地集成到机器学习的工作流程中,另外配备了一个开源软件库,以供研究人员高效地检索TDC 所有数据集和机器学习任务。并能按 "有意义训练,验证和测试拆分" 的分类方法浏览检索结果,使得TDC 的所有功能都能被容易地集成到机器学习的工作流程中,以供开发者和研究人员测试算法对实际情况的适应程度。

现在,开发团队正式发出邀请,希望所有相关领域内的专业人士和研究人员在未来为TDC "添砖加瓦",加速机器学习在疗法研发过程中的应用落地。

"如果一切发展顺利,我们希望TDC 未来能发展成为一个有机器学习或数据科学基础的疗法开发领域内,各阶段专家和机器学习算法科学家发生交汇的社区。

疗法开发领域内的专家可以提出具体的机器学习任务,并确定与该任务相关的具体数据集,然后将处理后的数据集与该任务捆绑提交到TDC 上,而机器学习算法科学家则能通过TDC 快速获取这些内容并专注于为解决这一机器学习任务,设计合适的算法。

我们相信,机器学习模型的预测和输出,能从多种层面促进疗法开发领域的算法研究和阶段研究的进步,因此我们还将为TDC 添加‘针对真实或仿真数据的数据划分、算法能力评估指标以及综合表现排行榜'的功能,并希望能以此缩短TDC 上的算法被实际应用到疗法开发过程中的距离",研究团队如此表示。

一个能被多方用来高效提供和获取数据的平台,将能加速机器学习在疗法研发领域内的应用落地,并助力疗法研发领域的发展

现在,TDC 的两个leaderboard——  ADMET、Drug Combination已经发布。其中,ADMET 是一个非常适合没有任何生物医药背景的ML 研究者起步的任务。

TDC 访问地址:https://tdcommons.ai/

Refrences:

来源:数据实战派