「 BIGDATA 」
April 10, 2021
Words count
1.1k
Reading time
1 mins.
数据格式定义carbondata的文件格式使用thrift定义,在源码目录中:format/src/main/thrift/*.thrift,编译之后会在format/target/gen-java生成对应的类,并有setter和getter。 使用Thrift定义数据格式容易理解,可以打开各个文件查看具体的数据组成结构,这里简要说明各个文件对应的内容: carbondata.thrift 数据文件 carbondata_index.thrift 索引文件 carbondata_index_me...
Read article
「 BIGDATA 」
April 10, 2021
Words count
3.2k
Reading time
3 mins.
入口加载命令的入口在CarbonLoadDataCommand,command的处理主要分为meta和data两部分的处理。数据加载主要在org.apache.carbondata.spark.rdd.CarbonDataRDDFactory#loadCarbonData实现,还会根据数据来源、参数的不同进一步细分加载的具体实现,常见的是通过文件加载即loadDataFile。 加载和查询类似,loadDataFile里同样涉及任务的划分,也是通过自定义RDD实现(NewCarbonDataLo...
Read article
「 BIGDATA 」
April 10, 2021
Words count
3.1k
Reading time
3 mins.
入口CarbonSession继承SparkSession,查询时我们使用的是CarbonSession。 12345678override def sql(sqlText: String): DataFrame = { withProfiler( sqlText, (qe, sse) => { new Dataset[Row](self, qe, RowEncoder(qe.analyzed.schema)) } )} 这里除了增加withProf...
Read article
「 BIGDATA 」
April 10, 2021
Words count
765
Reading time
1 mins.
计算和存储都在想方设法地提高速度,谁都不想成为性能瓶颈,而在分布式架构下,网络带宽也是一个优化的地方。 带宽,是做性能估算时常用的一个单位。 在单机的情况下,我们学过DMA (直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。 对应地,有人实现了分布式架构下的直接内存访问,也就是RDMA。 RDMA目前来说比较垄断,Mellanox RDMA需要专用硬件设备,包括RDMA卡、网线、交换机等。 一种不需要购置上述设备来模仿的技术叫DPDK,另外...
Read article
「 BIGDATA 」
April 09, 2021
Words count
9.7k
Reading time
9 mins.
What is carbonCarbondata is an indexed columnar data format for fast analytics on big data platform, like parquet, orc. Reference Site Official Site Github Doc cwiki Pony Mail User mail list Dev mail list JIRA Run Carbondata on your computer1. Get Ca...
Read article
「 BIGDATA 」
April 13, 2017
Words count
85k
Reading time
1:17
Spark简单之美 | RDD:基于内存的集群计算容错抽象 Spark on YarnSpark 官方提供了三种集群部署方案: Standalone, Mesos, YARN,区别就在于资源管理调度平台不同。 想在已有的Hadoop集群上使用Spark,实现Spark on Yarn只需修改配置文件vi ./conf/spark-env.sh添加以下内容 export HADOOP_HOME=/share/apps/hadoop export HADOOP...
Read article