对于研究人员来说,阅读科学论文可能非常耗时。根据一项调查,科学家每周花七个小时寻找信息。另一项调查表明,对于一个由 5 人组成的研究团队来说,对文献的系统回顾(对特定主题的证据进行学术综合)平均需要 41 周的时间。
但事情不一定非得这样。
至少,这是人工智能初创公司Elicit的联合创始人 Andreas Stuhlmüller 传达的信息,该公司为科学家和研发实验室设计了“研究助理”。Elicit 的支持者包括五十年、Basis Set、Illusion 以及天使投资人 Jeff Dean(谷歌首席科学家)和 Thomas Ebeling(诺华前首席执行官),它正在构建一种人工智能驱动的工具,以抽象出文献综述中更乏味的方面。
Stuhlmüller 在接受 TechCrunch 电子邮件采访时表示:“Elicit是一款研究助理,可以利用语言模型实现科学研究自动化。” “具体来说,它通过查找相关论文、提取有关研究的关键信息并将信息组织成概念来自动化文献综述。”
Elicit 是一家营利性企业,由斯坦福大学计算和认知实验室前研究员斯图尔穆勒 (Stuhlmüller) 于 2017 年创立的非营利性研究基金会 Ought 剥离出来。Elicit 的另一位联合创始人 Jungwon Byun 在领导在线借贷公司 Upstart 的增长后于 2019 年加入这家初创公司。
Elicit 使用各种第一方和第三方模型来搜索和发现论文中的概念,允许用户提出诸如“肌酸的所有作用是什么?”之类的问题。或“用于研究逻辑推理的所有数据集是什么?” 并从学术文献中获取答案列表。
“通过自动化系统审查流程,我们可以立即为进行这些审查的学术和行业研究组织节省成本和时间,”Stuhlmüller 说。“通过充分降低成本,我们解锁了以前成本过高的新用例,例如当某个领域的知识状态发生变化时进行及时更新。”
但是等等,你可能会说——语言模型不是有编造事实的倾向吗?确实如此。Meta 试图建立一种简化科学研究的语言模型《卡拉狄加》,但在推出仅三天后就被撤下,因为发现该模型经常引用听起来正确但实际上并不真实的虚假研究论文。
Stuhlmüller 声称 Elicit 已采取措施确保其人工智能比许多专用平台更可靠。
其一,Elicit 将其模型执行的复杂任务分解为“人类可以理解的”部分。例如,这使 Elicit 能够了解不同模型在生成摘要时编造内容的频率,并随后帮助用户确定要检查的答案以及何时检查。
Elicit 还尝试计算科学论文的整体“可信度”,同时考虑研究中进行的试验是受控试验还是随机试验、资金来源和潜在冲突以及试验规模等因素。
“我们不做聊天界面,”Stuhlmüller 说。“引导用户将语言模型应用为批处理作业……我们从不只是使用模型生成答案,我们总是将答案链接回科学文献,以减少幻觉并轻松检查模型的工作。”
鉴于语言模型的棘手性,我不一定相信 Elicit 已经解决了困扰当今语言模型的一些主要问题。但它的努力显然赢得了研究界的兴趣,甚至可能是信任。
Stuhlmüller 声称,每月有超过 200,000 人使用 Elicit,同比增长 3 倍(从 2023 年 1 月开始),来自世界银行、基因泰克和斯坦福大学等组织。“我们的用户要求为更强大的功能付费并以更大的规模运行 Elicit,”他补充道。
据推测,正是这种势头促成了 Elicit 的第一轮融资——由五十年领投的 900 万美元。该计划旨在将大部分新现金用于进一步开发 Elicit 的产品以及扩大 Elicit 的产品经理和软件工程师团队。
但 Elicit 的赚钱计划是什么?好问题——我直截了当地问了 Stuhlmüller。他指出,本周推出的 Elicit 付费套餐允许用户比免费套餐更大规模地搜索论文、提取数据和总结概念。长期战略是将 Elicit 打造成一种用于研究和推理的通用工具——整个企业都会花钱购买的工具。
Elicit 商业成功的一个可能障碍是开源工作,例如艾伦人工智能研究所的开放语言模型,其目标是开发一种针对科学优化的免费使用的大型语言模型。但 Stuhlmüller 表示,他认为开源更多的是互补性而非威胁性。
“现在主要的竞争是人力——受雇从论文中煞费苦心地提取数据的研究助理,”斯图尔米勒说。“科学研究是一个巨大的市场,研究工作流程工具没有主要的现任者。我们将在这里看到全新的人工智能优先工作流程的出现。”