「 BIGDATA 」
April 10, 2021
Words count
3.2k
Reading time
3 mins.
入口加载命令的入口在CarbonLoadDataCommand,command的处理主要分为meta和data两部分的处理。数据加载主要在org.apache.carbondata.spark.rdd.CarbonDataRDDFactory#loadCarbonData实现,还会根据数据来源、参数的不同进一步细分加载的具体实现,常见的是通过文件加载即loadDataFile。 加载和查询类似,loadDataFile里同样涉及任务的划分,也是通过自定义RDD实现(NewCarbonDataLo...
Read article
「 BIGDATA 」
April 10, 2021
Words count
3.1k
Reading time
3 mins.
入口CarbonSession继承SparkSession,查询时我们使用的是CarbonSession。 12345678override def sql(sqlText: String): DataFrame = { withProfiler( sqlText, (qe, sse) => { new Dataset[Row](self, qe, RowEncoder(qe.analyzed.schema)) } )} 这里除了增加withProf...
Read article
「 BIGDATA 」
April 09, 2021
Words count
9.7k
Reading time
9 mins.
What is carbonCarbondata is an indexed columnar data format for fast analytics on big data platform, like parquet, orc. Reference Site Official Site Github Doc cwiki Pony Mail User mail list Dev mail list JIRA Run Carbondata on your computer1. Get Ca...
Read article