Manhua

Never Say Die

other_tools

Published 2024-01-23

Contents

1. FromcarbonToSpark
2. scala
3. spark

小数据量对比

alluxio - 适合异地多机房，网络带宽足够大，机器学习这种数据短期重复使用的

ignite - 小数据量，本地计算

IQ

presto

carbondata

FromcarbonToSpark

尽量上位原理不讲细节。不提carbon，但是讲其中的相关内容？+scala语法

scala

CarbonSession。scala
@deprecate @transient @
默认参数
=> 函数
lazy方法
val var
Option[]
asInstanceOf
_
match不同类型
private[sql] 包私有
implicit

spark

为了使用自定义的语法，继承SparkSession/使用extension注入
自定义parser，返回自定义logicalplan，通过实现run方法中自定义rdd分布式处理，利用rdd分片、计算函数、任务分片
拦截修改用户命令，改变参数、处理路径
自定义RDD

Carbondata是

可用作Spark处理的数据格式

如何使用

主要应用于SQL场景

Shell，编码，carbonsession

Thrift Server

SDK

如何集成到Spark的，注入 extension，继承，启动jar，localizer

自定义RDD 实现处理逻辑

各种剪枝的实现任务前任务中