研究人员为数据库引入生成式人工智能
一种新工具使数据库用户可以更轻松地对表格数据执行复杂的统计分析,而无需了解幕后发生的情况。
GenSQL 是一种生成数据库 AI 系统,它可以帮助用户只需按几下键就可以做出预测、检测异常、猜测缺失值、修复错误或生成合成数据。
例如,如果使用该系统分析一直患有高血压的患者的医疗数据,它可能会捕捉到该特定患者的低血压读数,但其他情况下血压都在正常范围内。
GenSQL 自动集成表格数据集和生成概率 AI 模型,可以解释不确定性并根据新数据调整决策。
此外,GenSQL 还可用于生成和分析模拟数据库中真实数据的合成数据。这在敏感数据无法共享(例如患者健康记录)或真实数据稀疏的情况下尤其有用。
这个新工具建立在 SQL 之上,SQL 是一种用于数据库创建和操作的编程语言,于 20 世纪 70 年代末推出,被全球数百万开发人员使用。
“从历史上看,SQL 教会了商界计算机可以做什么。他们不必编写自定义程序,只需用高级语言向数据库提问即可。我们认为,当我们从查询数据转向询问模型和数据时,我们将需要一种类似的语言,教会人们可以向具有数据概率模型的计算机询问连贯的问题,”介绍 GenSQL 的论文的高级作者 、麻省理工学院大脑和认知科学系概率计算项目的首席研究科学家和负责人 Vikash Mansinghka 说。
当研究人员将 GenSQL 与流行的基于 AI 的数据分析方法进行比较时,他们发现 GenSQL 不仅速度更快,而且能产生更准确的结果。重要的是,GenSQL 使用的概率模型是可解释的,因此用户可以阅读和编辑它们。
“如果仅使用一些简单的统计规则来查看数据并尝试找到一些有意义的模式,可能会错过重要的交互作用。您真正想要捕捉的是模型中变量的相关性和依赖性,而这些相关性和依赖性可能非常复杂。借助 GenSQL,我们希望让大量用户能够查询他们的数据和模型,而无需了解所有细节,”主要作者、大脑和认知科学系研究科学家兼概率计算项目成员 Mathieu Huot 补充道。
与他们一起参与撰写论文的还有麻省理工学院研究生 Matin Ghavami 和 Alexander Lew、研究科学家 Cameron Freer、Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby、麻省理工学院电气工程与计算机科学系教授兼计算机科学与人工智能实验室 (CSAIL) 成员 Martin Rinard 以及卡内基梅隆大学助理教授 Feras Saad。这项研究最近在 ACM 编程语言设计和实现会议上进行了展示。
结合模型和数据库
SQL 是结构化查询语言的缩写,是一种用于在数据库中存储和操作信息的编程语言。在 SQL 中,人们可以使用关键字询问有关数据的问题,例如对数据库记录进行求和、过滤或分组。
然而,查询模型可以提供更深入的见解,因为模型可以捕捉数据对个人意味着什么。例如,一位女性开发人员想知道她是否被低估,她可能更感兴趣的是工资数据对她个人意味着什么,而不是数据库记录中的趋势。
研究人员注意到,SQL 没有提供整合概率 AI 模型的有效方法,但同时,使用概率模型进行推理的方法不支持复杂的数据库查询。
他们构建了 GenSQL 来填补这一空白,使人们能够使用简单但功能强大的形式编程语言查询数据集和概率模型。
GenSQL 用户上传他们的数据和概率模型,系统会自动集成这些模型。然后,她可以对数据运行查询,这些数据也会从后台运行的概率模型中获取输入。这不仅可以实现更复杂的查询,还可以提供更准确的答案。
例如,GenSQL 中的查询可能是这样的:“西雅图的开发人员知道编程语言 Rust 的可能性有多大?” 仅查看数据库中列之间的相关性可能会错过微妙的依赖关系。 结合概率模型可以捕捉更复杂的交互。
此外,GenSQL 使用的概率模型是可审计的,因此人们可以看到模型使用哪些数据进行决策。此外,这些模型还提供了校准不确定性的度量以及每个答案。
例如,有了这种经过校准的不确定性,如果有人向模型查询来自数据集中代表性不足的少数群体患者的不同癌症治疗的预测结果,GenSQL 会告诉用户这是不确定的,以及不确定的程度,而不是过于自信地主张错误的治疗方法。
更快、更准确的结果
为了评估 GenSQL,研究人员将他们的系统与使用神经网络的流行基线方法进行了比较。GenSQL 比这些方法快 1.7 到 6.8 倍,在几毫秒内执行大多数查询,同时提供更准确的结果。
他们还在两个案例研究中应用了 GenSQL:一个案例中系统识别出错误标记的临床试验数据,另一个案例中系统生成了准确的合成数据,捕捉了基因组学中的复杂关系。
接下来,研究人员希望更广泛地应用 GenSQL 来对人类群体进行大规模建模。借助 GenSQL,他们可以生成合成数据来推断健康和薪水等信息,同时控制分析中使用的信息。
他们还希望通过为系统添加新的优化和自动化功能,使 GenSQL 更易于使用且功能更强大。从长远来看,研究人员希望让用户能够在 GenSQL 中进行自然语言查询。他们的目标是最终开发一个类似 ChatGPT 的 AI 专家,人们可以与之讨论任何数据库,并使用 GenSQL 查询来提供答案。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
截至2024年,大众探岳GTE的售价可能会因地区、配置和促销活动而有所不同。一般来说,2024款探岳GTE的价格可能...浏览全文>>
-
关于2025款途观L的价格信息,目前还没有官方发布。不过,根据以往的市场规律和车型更新周期,我们可以大致推测...浏览全文>>
-
根据您提供的信息,2024款广东东莞威然的最低售价为22 99万元起。关于具体的落地价,需要考虑以下因素:1 ...浏览全文>>
-
根据您的描述,生活家PHEV 2025款的最低售价为 63 98万元起。如果目前有促销活动或优惠政策,建议尽快咨询...浏览全文>>
-
奔腾T99作为一汽奔腾旗下的旗舰SUV车型,凭借其大气的外观设计、丰富的科技配置以及出色的性能表现,吸引了众...浏览全文>>
-
当然可以!以下是一个简单的试驾预约流程,帮助您轻松开启智蓝G5新能源的试驾之旅:1 确定需求- 车型选择...浏览全文>>
-
特斯拉的赛博越野旅行车(Cybertruck)自发布以来就引发了广泛关注。这款车型结合了皮卡的实用性、SUV的多功能...浏览全文>>
-
江淮悍途EV是一款纯电动皮卡,如果您想预约试驾,通常需要满足以下条件和准备以下信息:1 基本条件 - 年...浏览全文>>
-
截至我所掌握的信息,瑞驰新能源的ED75 2024款具体价格和配置可能会因地区、经销商以及政策补贴的不同而有所...浏览全文>>
-
在考虑购买上汽大众ID 4 X时,了解车辆的价格以及相关的购车费用是非常重要的。以下是一些关键信息和费用明...浏览全文>>
- 山东济南途观L新能源价格大公开,买车不花冤枉钱
- 东莞途岳最新价格2025款全分析,买车不踩坑
- 济南探岳GTE新车报价2024款,换代前的购车良机,不容错过
- 郑州ID.7 VIZZION多少钱 2024款落地价,配置升级,值不值得买?
- 郑州途锐新能源最新价格2024款,优惠购车,最低售价67.98万起
- 瑞虎7 PLUS新车报价2025款,买车前的全方位指南
- 广东东莞揽巡价格走势,市场优惠力度持续加大
- 轩逸新车报价2025款,买车前的全方位指南
- 飞凡R7新车报价2025款,换代前的购车良机,不容错过
- 试驾风光ix5,轻松搞定试驾
- 捷途山海L7预约试驾,从预约到试驾的完美旅程
- 试驾E福顺,从预约到试驾的完美旅程
- 长安星卡EV多少钱?选车指南与落地价全解析
- 凯翼E5 EV多少钱?如何挑选性价比高的车
- 标致408X预约试驾,快速操作,轻松体验驾驶乐趣
- 试驾星际牛魔王,新手必看的操作流程
- 岚图汽车岚图梦想家试驾预约,轻松几步,畅享豪华驾乘
- 影豹多少钱?全方位对比助你选车
- 豪运最新价格2023款,豪华配置超值价来袭
- 缤智多少钱 2025款落地价全解买车必看