Article January 23, 2024

other_tools

Words count 1.7k Reading time 2 mins. Read count 0

小数据量对比

alluxio - 适合异地多机房,网络带宽足够大,机器学习这种数据短期重复使用的

ignite - 小数据量,本地计算

IQ

presto

carbondata

FromcarbonToSpark

尽量上位原理 不讲细节。 不提carbon,但是讲其中的相关内容?+scala语法

scala

  • CarbonSession。scala
  • @deprecate @transient @
  • 默认参数
  • => 函数
  • lazy方法
  • val var
  • Option[]
  • asInstanceOf
  • _
  • match不同类型
  • private[sql] 包私有
  • implicit

spark

  • 为了使用自定义的语法,继承SparkSession/使用extension注入

  • 自定义parser,返回自定义logicalplan,通过实现run方法中自定义rdd分布式处理,利用rdd分片、计算函数、任务分片

  • 拦截修改用户命令,改变参数、处理路径

  • 自定义RDD

Carbondata是

可用作Spark处理的数据格式

如何使用

主要应用于SQL场景

Shell,编码,carbonsession

Thrift Server

SDK

如何集成到Spark的,注入 extension,继承,启动jar,localizer

自定义RDD 实现处理逻辑

各种剪枝的实现 任务前 任务中

0%