Contents
  1. 1. FromcarbonToSpark
  2. 2. scala
  3. 3. spark
    1. 3.1. Carbondata是
    2. 3.2. 如何使用
    3. 3.3. 如何集成到Spark的,注入 extension,继承,启动jar,localizer
    4. 3.4. 自定义RDD 实现处理逻辑
    5. 3.5. 各种剪枝的实现 任务前 任务中

小数据量对比

alluxio - 适合异地多机房,网络带宽足够大,机器学习这种数据短期重复使用的

ignite - 小数据量,本地计算

IQ

presto

carbondata

FromcarbonToSpark

尽量上位原理 不讲细节。 不提carbon,但是讲其中的相关内容?+scala语法

scala

  • CarbonSession。scala
  • @deprecate @transient @
  • 默认参数
  • => 函数
  • lazy方法
  • val var
  • Option[]
  • asInstanceOf
  • _
  • match不同类型
  • private[sql] 包私有
  • implicit

spark

  • 为了使用自定义的语法,继承SparkSession/使用extension注入

  • 自定义parser,返回自定义logicalplan,通过实现run方法中自定义rdd分布式处理,利用rdd分片、计算函数、任务分片

  • 拦截修改用户命令,改变参数、处理路径

  • 自定义RDD

Carbondata是

可用作Spark处理的数据格式

如何使用

主要应用于SQL场景

Shell,编码,carbonsession

Thrift Server

SDK

如何集成到Spark的,注入 extension,继承,启动jar,localizer

自定义RDD 实现处理逻辑

各种剪枝的实现 任务前 任务中