徐冬
阿里巴巴计算平台事业部 高级技术专家
个人介绍:
拥有多年分布式大数据处理领域经验,参与过多个分布式系统的搭建、开发与维护。是apache hive、apache calcite的贡献者。目前就职于阿里巴巴MaxCompute团队,负责实现MaxCompute的基于代价的优化器。
议题:
复杂数据分布的查询优化实践
议题介绍:
数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,我们引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。本文将从数据分布的历史和原理开始,介绍我们的思路和解决办法。