hadoop3

123456789#JAVAexport JAVA_HOME=/data/soft/jdkexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

yarn

调度模式常驻还是任务队列资源配额任务管理 yarn黑入-学习手动向yarn申请资源并调度脚本运行

JIT的动机基于“二八定律”，20%的热点代码占据了程序80%的执行时间即使开启了JIT，也少不了代码编译和字节码解释的过程。JIT处理的是热点代码（hotspot code，或叫热门代码）。热点代码就是频繁执行的代码块，比如循环里面的代码。JIT有一套逻辑判断是否热点代码。

写盘策略节点-磁盘偏好位置 IO隔离

写时复制（Copy-on-write，简称COW）性能优化策略 if you modify the second variable, Swift takes a full copy at that point so that only the second variable

多counter性能问题 - whole stage codegen，生成的代码长度超过JIT 开窗counter - spark context 外包一层任务调度本地性任务数量

信息传递数据结构

api.java该包用于java编程时 JavaDoubleRDD将scala Double 转java Double 注意一行代码：import java.lang.{Double => JDouble}scala语法起了个类的别名而java也有类似

小数据量对比 alluxio - 适合异地多机房，网络带宽足够大，机器学习这种数据短期重复使用的 ignite - 小数据量，本地计算 IQ presto carbondata FromcarbonToSpark尽量上位原理不讲细节。不提carbon，但是讲其中的相关内容？+

bloom filter-属于datamap 空间换时间先介绍minmax，当数据比较离散时，导致minmax效果不大当数据比较集中时，某列不是sort column时参数配置是个比较困难的问题对比 32k 超长字符串 carbon设计问题，原本用short存