写盘策略节点-磁盘 偏好位置 IO隔离
多counter性能问题 - whole stage codegen,生成的代码长度超过JIT 开窗counter - spark context 外包一层 任务调度本地性 任务数量
调度模式 常驻 还是 任务 队列 资源配额 任务管理 yarn黑入-学习手动向yarn申请资源并调度脚本运行
小数据量对比 alluxio - 适合异地多机房,网络带宽足够大,机器学习这种数据短期重复使用的 ignite - 小数据量,本地计算 IQ presto carbondata FromcarbonToSpark尽量上位原理 不讲细节。 不提carbon,但是讲其中的相关内容?+
dim补数时使用历史版本表名增加时间信息 / 增加含时间信息的分区, 通过函数根据时间获取对应的表/分区,默认返回最新版本 以下为表名增加时间信息的示例 1234567891011121314151617181920212223242526def getChannelTable(
业务挤压时间,忙于应付各种突如其来的需要,无暇优化、做细
install123export version="2.3.3"wget "https://archive.apache.org/dist/incubator/seatunnel/${version}/apache-seatunn
JIT的动机基于“二八定律”,20%的热点代码占据了程序80%的执行时间 即使开启了JIT,也少不了代码编译和字节码解释的过程。JIT处理的是热点代码(hotspot code,或叫热门代码)。 热点代码就是频繁执行的代码块,比如循环里面的代码。JIT有一套逻辑判断是否热点代码。
写时复制(Copy-on-write,简称COW) 性能优化策略 if you modify the second variable, Swift takes a full copy at that point so that only the second variable
解决多租户的共享查询问题,作为多个查询引擎的统一入口 HA通过zk实现 Installhttp://mirrors.ustc.edu.cn/ Setup配置JAVA_HOME,SPARK_HOME。还支持Flink、Trino bin/kyuubi startbin/kyuubi