BIGDATA April 10, 2021

Carbondata文件格式

Words count 1.1k Reading time 1 mins.

数据格式定义carbondata的文件格式使用thrift定义,在源码目录中:format/src/main/thrift/*.thrift,编译之后会在format/target/gen-java生... Read article

BIGDATA April 10, 2021

Carbondata加载逻辑

Words count 3.2k Reading time 3 mins.

入口加载命令的入口在CarbonLoadDataCommand,command的处理主要分为meta和data两部分的处理。数据加载主要在org.apache.carbondata.spark.rdd.CarbonDataRDDFactory#loadCarbonData实现,还会根据数据来源、参数的不同进一步细分加载的具体实现,常见的是通过文件加载即loadDataFile。 加载和查询类似,loadDataFile里同样涉及任务的划分,也是通过自定义RDD实现(NewCarbonDataLo... Read article

BIGDATA April 10, 2021

Carbondata查询逻辑

Words count 3.1k Reading time 3 mins.

入口CarbonSession继承SparkSession,查询时我们使用的是CarbonSession。 12345678override def sql(sqlText: String): DataFrame = { withProfiler( sqlText, (qe, sse) => { new Dataset[Row](self, qe, RowEncoder(qe.analyzed.schema)) } )} 这里除了增加withProf... Read article

BIGDATA April 09, 2021

Day 1 to Carbondata

Words count 9.7k Reading time 9 mins.

What is carbonCarbondata is an indexed columnar data format for fast analytics on big data platform, like parquet, orc. Reference Site Official Site Github Doc cwiki Pony Mail User mail list Dev mail list JIRA Run Carbondata on your computer1. Get Ca... Read article
0%