dolphinscheduler
dolphinschedulerSite Is:分布式 工作流 调度平台,带DAG可视化 For:复杂任务依赖 去中心化(动态主,zk选) DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client,用于对应任务的提交 基
dolphinschedulerSite Is:分布式 工作流 调度平台,带DAG可视化 For:复杂任务依赖 去中心化(动态主,zk选) DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client,用于对应任务的提交 基
本机外网ipwindows/linux通用 123curl ip.sb # 只显示ipv4 curl cip.cc #显示ipv4和地址信息 进程参数1234tasklist|findstr 21692wmic process get caption,commandl
Cluster-setupBIOS config for Disk SystemDisk Raid 1 DataDisk JBOD OSon demand, ubuntu\fedora\centos\suse\redhat update root passwordsudo pa
数据格式定义carbondata的文件格式使用thrift定义,在源码目录中:format/src/main/thrift/*.thrift,编译之后会在format/target/gen-java生成对应的类,并有setter和getter。 使用Thrift定义数据格式容易理
入口加载命令的入口在CarbonLoadDataCommand,command的处理主要分为meta和data两部分的处理。数据加载主要在org.apache.carbondata.spark.rdd.CarbonDataRDDFactory#loadCarbonData实现,还
入口CarbonSession继承SparkSession,查询时我们使用的是CarbonSession。 12345678override def sql(sqlText: String): DataFrame = { withProfiler( sqlTex
计算和存储都在想方设法地提高速度,谁都不想成为性能瓶颈,而在分布式架构下,网络带宽也是一个优化的地方。 带宽,是做性能估算时常用的一个单位。 在单机的情况下,我们学过DMA (直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。
What is carbonCarbondata is an indexed columnar data format for fast analytics on big data platform, like parquet, orc. Reference Site Offic
CarbonFor each column stored in carbon, we will record min-max value in meta space called DataChunk. It is recommanded to set a proper colum
Spark简单之美 | RDD:基于内存的集群计算容错抽象 Spark on YarnSpark 官方提供了三种集群部署方案: Standalone, Mesos, YARN,区别就在于资源管理调度平台不同。 想在已有的Hadoop集群上使用Spark,实现Spark on Ya