当前位置: 首页 > news >正文

数据库查询通信开销降低97%的新方法

如何将数据库查询的通信开销降低高达97%

亚马逊研究人员描述了一种在服务器间分配数据库表的新方法。

关系数据库的分布挑战

关系数据库通常由多个表组成:客户联系信息表、零售店铺数据表、购买历史记录表、客服通话日志表等。使用Amazon Redshift云数据仓库服务的客户,其数据库可能包含数千个不断更新的表。这些表需要分布在AWS数据中心的多个服务器上。

在VLDB 2020会议上,我们团队提出了一种新的数据分配方法。在涉及多表查询的实验中,该方法相比原始未优化配置减少了高达97%的通信开销。该方法已被整合至Amazon Redshift Advisor,为客户提供数据存储配置建议。

分布键优化原理

以某公司希望向客户推送本地店铺促销信息为例,查询需要从客户表和店铺表获取数据,并通过"城市"属性进行连接操作。如果两个表都使用"城市"作为分布键,则同城市的客户和店铺数据会被存储在相同服务器上,各服务器可独立并行执行连接操作,无需查询时重新洗牌数据。

我们的方法核心是:分析数据库查询数据,识别涉及最大数据传输量的连接属性,并将其作为相关表的分布键。

连接多重图与优化方法

首先构建"连接多重图"——图中顶点代表数据库表,边代表表间执行过连接操作的属性对,边权重表示这些属性间连接所需的数据传输量。

目标是将图划分为由单边连接的顶点对,最大化所有边的累积权重。我们证明该问题是NP完全的,但整数线性规划可能在一定时间内给出最优解。若超时,则采用四种启发式算法进行图划分,选择效果最佳的解。

四种启发式算法(贪婪匹配、随机选择、随机邻居和朴素贪婪)都是最大权重匹配问题的近似解。在四个不同数据集上的测试表明,该方法减少了80%-97%的通信开销,这些节省将直接转化为客户性能的提升。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

http://www.vanclimg.com/news/2280.html

相关文章:

  • 开源智能体框架
  • 2025 WAIC世界人工智能大会 - 汽车智能/自动驾驶分会场大佬们都分享了些什么?
  • 砺算科技GPU背后的故事
  • Qt/C++开发监控GB28181系统/录像回放/切换播放进度立即跳转/支持8倍速播放/倍速和跳转进度无缝切换
  • 面板级封装(PLP)2025年技术、市场和供应链全览
  • 失业潮下,究竟谁在不停拿offer?(转发猎头文章)
  • 读用数据说服:如何设计、呈现和捍卫你的数据09读后总结与感想兼导读
  • webapi第二天
  • webapi第一天
  • js高级第四天
  • 知识蒸馏优化多任务学习收敛性
  • 网络嗅探工具Intercepter-NG的技术内幕与黑客文化变迁
  • 使用.NET实现自带思考的Tool 并且提供mcp streamable http服务
  • aaPanel 设置加 ThinkPHP 伪静态代码
  • 5. Warp and Bank
  • WiFiManager 项目
  • 5. Coalesced and Uncoalesced
  • 【AI语音-小智】xiaozhi-esp32实现源码分析
  • 第八天
  • SOC-ESP32S3部分:34-xiaozhi-esp32实现源码分析
  • 【笔记】Visual Studio 2022 入门指南
  • Visual Studio 2022 入门指南
  • 20250729 之所思 - 人生如梦
  • 2025牛客暑期多校训练营5
  • 【esp32-s3】如何进行WiFi配网
  • 【ESP8266】小电视项目进展记录
  • 【LeetCode 138】力扣算法:随机链表的复制
  • Rocky Linux使用nginx时启用图片压缩
  • 7.29随笔
  • kali安装maven-cnblog