在生命科学实验室中,数据无处不在,又无处不在——无处不在是指不同类型的数据积累在不同的平台上,而无处是指数据池经常因格式问题而陷入困境。
如果数据来自早期研究,则可以将其输入Excel电子表格和纸质笔记本中。或者,如果数据来自后期研究,则可以将其输入电子实验室笔记本(ELN)和实验室信息管理系统(LIM)。将“早期”数据和“晚期”数据整合成一个有凝聚力的图片可能是一项艰巨的任务,特别是在持续多年或涵盖许多实验室的项目中。它可以让科学家们去搜索已经收集到的数据,让科学家们一次分散几天的注意力。
(相关资料图)
通过应用人工智能(AI)和机器学习(ML)技术可以减轻数据管理负担。例如,这些技术可以促进对特定数据集的全面搜索,即使搜索必须应对格式或原始存储类型的差异。但首先,这些技术需要赢得科学家的信任。
“研究人员已经习惯于努力寻找数据,”Snthesis创始人兼首席执行官EmersonHuitt说道。“他们很难想象快速回答他们的问题并深入了解可以产生组织影响的研究渠道。
“我们与一位大客户合作,当我们统一(和协调)来自50名科学家的六年数据时,他亲眼目睹了这种力量。此前,两名博士全职搜索数据,而不是进行任何实际的科学工作。回答一个问题,比如针对特定目标测试了多少样本,需要花费数周时间。”
Snthesis在大约90秒内返回了答案。休伊特回忆道,这位顾客“完全被震撼了”。
协调一致是关键
Snthesis开发了一个名为Bio的平台。据该公司称,该系统旨在摄取“所有数据”。它可以处理300多种文件格式和手写笔记。(Excel笔记本和其他新文件可以拖放到系统中。)Bio还可以自动从ELN和LIM上传数据。
该平台还聚合、协调和关联数据,即使数据源包括不同人在几年内创建的数千个电子表格。然后可以通过平台的图形查询工具对数据进行全面的搜索。
“我们处理数据并分析数据的形状,以定义系统可识别的类别,这些类别可能包括样本的来源和收集者,”Huitt解释道。“我们与客户合作,识别并提取对他们来说重要的东西。”
这包括根据整个文件的语义提取和链接数据。可以指定准确性阈值来缩小搜索范围或将其扩展到相关术语。例如,对“头痛”的搜索可以扩大到包括偏头痛。
“在实施此解决方案时,组织不需要对其数据进行正确的结构化,”Snthesis的首席增长官JoeInsinga断言。“组织只需要了解如何构建数据。”
不过,公司不必单独行动。“我们第一天就举办了一个研讨会,”英辛加说。“我们讨论公司希望结果是什么样子,以及他们希望系统使用什么语言或数据分类。”他继续说道,不同的团队通常对相同的事物有不同的名称,或者研究人员每周对电子表格列进行标记的方法不一致。
具体来说,在研讨会期间,这意味着识别最相关的数据类型,记录它们并将它们正式传达给整个组织的分析团队。“通常情况下,这从未被做过,”英辛加指出。在这种情况下,研讨会可以成为组织的发现过程。值得注意的是,团队不必总是达成一致。只要将这些变化输入到Snthesis平台中,系统就可以处理这些变化。
“为了最大限度地减少任何问题,我们使组织能够连接不同的数据源并统一它们,而无需手动工作或关联,”Huitt补充道。“例如,我们可以以自动化的方式匹配列标签。在过去20年左右的时间里,自然语言处理取得了长足的进步。”自然语言处理是人工智能的一种形式,允许计算机理解和生成人类语言,最出名的可能是其在促进网络搜索和分析各种形式的电子通信方面的应用。但它也被用来分析医疗保健领域的各种记录。
SnthesisBio平台利用专有的自然语言处理模型,从电子表格和实验室记录中提取正确的数据,然后协调收集到的所有内容。“然后我们实施这些模型,构建自我管理工具,以便客户可以管理和编目他们的数据,”休伊特说道。
Snthesis并不是唯一一家开发协调和整合实验室数据技术的公司。正如Huitt指出的那样,欧盟提供了大量资金,使数据更易于操作,这些资金可能会刺激Snthesis利基市场的进一步发展。然而,Huitt仍然相信,Snthesis的平台比Snthesis竞争对手开发的平台更全面、发展更进一步。
值得注意的是,Snthesis平台提供的是数据而不是结论。“机器学习有利于规范性建议和描述数据,”Huitt说。“但它还不够可靠,无法在不进行人工分析的情况下从数据中提取结论。”
应用大科技魔法
Huitt花费数年时间构建定制软件工具,为从大学实验室到财富500强公司的客户执行数据管理。“我看到相同类型的解决方案被一遍又一遍地构建,”他说道。“客户认为他们与众不同,无法使用现成的解决方案,因此他们会花费数百万美元构建定制软件。这是非常危险的,特别是对于像研究数据这样快速变化的目标。
“在那个领域工作过,以及在实验室工作台上为一个小团队进行分析和数据管理后,我从各个角度看到了这个问题。”他还与大型科技公司的同事进行了交流,了解其他组织(包括谷歌和Facebook)如何在不触及每一项数据的情况下使大数据变得有意义。
2018年12月,他成立了Snthesis。休伊特表示,最初,该公司专注于让其技术“落地”。从那时起,挑战发生了变化。惠特表示,该公司现在更专注于“发展、打造品牌以及继续竞争的能力”。使这些任务变得复杂的是在竞争激烈的行业中招聘人才的难度。Snthesis曾经的招聘优势——公司愿意提供远程工作安排——在疫情期间成为了行业常态。
Snthesis也认识到它需要更多的可见性。一个可见性挑战是“Snthesis”作为搜索词表现不佳。搜索引擎倾向于将其更改为“Synthesis”,因此指向Snthesis的搜索结果通常遵循那些指向听起来相似公司的搜索结果。这一挑战可能只是一个麻烦,但它确实表明Snthesis更专注于开发其技术而不是完善其营销。这在拥有科学创始人的年轻公司中并不罕见。
“我应该从第一天起就花更多的时间来打造我们的品牌,”休伊特承认。他正在开始纠正这个问题。该公司今年早些时候在GEN上举办了一次网络研讨会,Huitt在9月份作为首席执行官在他的第一次行业会议上发表了讲话。Huitt还将参加今年11月在巴塞罗那举行的欧洲生物黑客马拉松。
目前,Huitt和Snthesis致力于驯服业界的数据怪物。展望未来,他表示他的目标是“完全弥合实验室研究和数据分析之间的差距”。这需要与LIM和其他数据源进行更广泛的集成。
标签: