Article January 23, 2024

scheduler

Words count 5.8k Reading time 5 mins.

node Application:用户编写的Spark应用程序,由一个或多个Job组成。提交到Spark之后,Spark会为- Application分配资源,将程序进行转换并执行。 Job(作业):... Read article

Article January 23, 2024

scheduler

Words count 5.8k Reading time 5 mins.

node Application:用户编写的Spark应用程序,由一个或多个Job组成。提交到Spark之后,Spark会为- Application分配资源,将程序进行转换并执行。 Job(作业):由Action算子触发生成的由一个或多个Stage组成的计算作业。 Stage(调度阶段):每个Job会根据RDD的宽依赖被切分为多个Stage,每个Stage都包含一个TaskSet。 TaskSet(任务集):一组关联的,但相互之间没有shuffle依赖关系的Task集合。一个TaskSet对应... Read article

Article January 23, 2024

selenium

Words count 11k Reading time 10 mins.

installpip install selenium https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/ play1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727... Read article

Article January 23, 2024

pandas

Words count 17k Reading time 15 mins.

Miniforge/micromamba1234567https://micro.mamba.pm/api/micromamba/win-64/latest micromamba.tar.bz2pip install jupyterjupyter notebookjupyter lab Pandas 库基于 Python NumPy 库开发 train Example123456789101112131415161718192021222324252627282930313233343... Read article

Article January 23, 2024

mvn

Words count 12k Reading time 11 mins.

https://developer.aliyun.com/mvn/search setting文件//修改maven配置 可解决 org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde的问题 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556<?xml ve... Read article

Article January 23, 2024

java

Words count 8.7k Reading time 8 mins.

run jar主类必须是在cp第一个包中,支持*匹配 更新jar包内class文件jar uvf hadoop-common-2.8.3-lg.jar org/apache/hadoop/fs/FileUtil.class jar: 包是Java中所特有一种压缩文档 -u 添加文件到jar包中 -v 生成详细的报造,并输出至标准设备 -f 指定jar包的文件名 [jar文件] jar包的路径 [欲替换的class(注意,需同样的目录)] class文件目录... Read article

Article January 23, 2024

scala

Words count 1.6k Reading time 1 mins.

闭包闭包在英文中表达是Closure,闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。 闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。 12var factor = 3 val multiplier = (i:Int) => i * factor 这里我们引入一个自由变量 factor,这个变量定义在函数外面。 这样定义的函数变量 multiplier 成为一个”闭包”,因为它引用到函数外面定义的变量,定义这个函数的过程是将这个自由变量捕获而构成一个封... Read article

Article January 03, 2024

Scriptis-Linkis

Words count 8.9k Reading time 8 mins.

Scriptis是基于Linkis开发的数据分析工具 Linkis定位: 计算存储引擎中间件 启动用户会默认作为管理员权限Linkis支持指定提交、执行的用户linkis主要进程服务会通过sudo -u ${linkis-user} 切换到对应用户下,然后执行对应的引擎启动命令,所以引擎linkis-engine进程归属的用户是任务的执行者(因此部署用户需要有sudo权限,而且是免密的)。 下载版本列表 | Apache Linkis 配置项 元数据库:默认mysql dep... Read article

Article December 13, 2023

raft

Words count 3.8k Reading time 3 mins.

解决的问题: 一致性用途:Fault Tolerant 在部分节点宕机后仍能正常服务 按照论文所述,原生的Paxos算法使用了一种点对点(peer-to-peer)的方式,所有节点地位是平等的。在理想情况下,算法的目的是制定一个决策,这对于简化的模型比较有意义。但在工业界很少会有系统会使用这种方式,当有一系列的决策需要被制定的时候,先选出一个leader节点然后让它去协调所有的决策,这样算法会更加简单快速。 关键阶段: Leader Election:基于心跳副本状态: Leader 接受cli... Read article

慢话 February 27, 2023

你有我也有 反正是第一

Words count 3.3k Reading time 3 mins.

背景集群HDFS机器硬盘故障,运维请求更换RAID卡,更换后合作方称无法启动Namenode,报错类似如下: Safe mode is ON. The reported blocks 3 needs additional 2 blocks to reach the threshold 0.9990 of total blocks 5. The number of live datanodes 2 has reached the minimum number 0. Safe mode will b... Read article

Article May 30, 2022

iceberg

Words count 1.2k Reading time 1 mins.

用途场景: schema演进: 增删改列,重新排序,只修改元数据而不动数据文件 内部使用唯一ID代替列 隐式分区: 无须显式指定分区列作为条件 若分区来自某字段转换,两个字段均可生效分区过滤 时间格式自动转换 不通过目录划分分区 分区演进:只修改元数据,旧数据不变(新分区字段null代替),新数据用新分区 版本管理 time travel 版本回滚 版本老化清理后,数据文件不一定删除,直至不被任何版本引用 两级元数据: manifest list: 包含manifests快照列表,及其对应分区字... Read article
Load more
0%