Archived

「 94 」

  • April 2025

  • April 04, 2025

    Apache name jdk since Version Shiro 11 2.0.0

  • April 04, 2025

    IBM LinuxONE Open Source Cloud Virtual Machine(s) Request Form | IBM Z and LinuxONE Community

  • April 04, 2025

    基于python 虚拟环境(其实还是有对操作系统so包之类的依赖)export LD_LIBRARY_PATH=”/data/soft/miniconda3/envs/superset/lib/libstdc++.so.6” 12345678910111213141516171819202122232425262...

  • April 04, 2025

    查询 启动类:org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 服务:ThriftBinaryCLIService 执行SQL:org.apache.spark.sql.hive.thriftserver.SparkExecuteStatementOperation#runInternal/execute HiveTh...

  • April 04, 2025

    Central Repository: org/apache/orc/orc-tools/1.6.14 (maven.org) 查看ORC文件的元数据12345678910111213141516171819hive --orcfiledump <path_to_file>./hive --service orcfiledump --hel...

  • April 04, 2025

    About Mermaid | Mermaid 1234567891011graph TD;    A-->B;    A-->C;    B-->D;    C-->D; 12345678910111213141516171819202122graph TD;t1[话单文件]-->t2[话单原始表huadan_nda_aas_ndsc_log_d];t3...

  • April 04, 2025

    命令在krb5-workstation,依赖libkadm5、krb5-libs 配置文件/etc/krb5.conf

  • April 04, 2025

    yum makecache yum search vsft yum install vsftpd yum list installed yum list | grep mariadb yum –showduplicates list krb5-workstation 123Available Packageskrb5-workstation.x86_64 1.15.1-34.el7 ...

  • April 04, 2025

    元数据管理, 表关系分析,字段查询 设计上按自动接入为主,手动要建json文件通过api实现,UI主要是做查询浏览管理 build如何不编译其他模块? 1234567891011121314151617181920wget https://mirrors.ustc.edu.cn/apache/atlas/2.4.0/apache-atlas-2.4.0-sources.tar.gzmvn c...

  • April 04, 2025

    各个输入按号码尾号分区后关联,在输入数据已知分布均匀的情况可以比hash更有效避免倾斜 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081...

  • March 2024

  • March 19, 2024
    RAG CheatSheet

    langchain+ollama 本地文档常用模型: SBert ollama加载模型在线[src] https://ollama.com/libraryollama run gemma:2b 离线1、创建模型配置文件创建模型配置文件,比如: Modelfile 这个文件名,文件内容指定需要加载的具体模型文件如下: 1FROM ./Meta-Llama-3-8B-Instruct-Q6_...

  • March 19, 2024
    Cluster Setup CheatSheet

    Cluster-setupBIOS config for Disk SystemDisk Raid 1 DataDisk JBOD OSon demand, ubuntu\fedora\centos\suse\redhat update root passwordsudo passwd root sudo免密1234su chmod u+w /etc/sudoersvi /etc/sudo...

  • March 19, 2024
    Git CheatSheet

    检出checkout git checkout 分支名/标签, 该命令会变成detach 只读状态 git checkout -b|-B <new_branch> [<start point>] 基于远程分支名/标签/commit创建新分支 分支管理branch 列出分支 仅本地 git branch 所有 git branch...

  • March 19, 2024
    Flink CheatSheet

    flinkFlink applications code -> JobGraph -> JobManager -> TaskManagers 环境 ExecutionEnvironment StreamExecutionEnvironment TableEnvironment 并行度env.setParallelism(3) 数据源 env.fromSequence(...

  • March 19, 2024
    YARN CheatSheet

    8088挖矿漏洞发起获取appIDcurl -X POST http://10.33.21.190:8088/ws/v1/cluster/apps/new-application 新建任务信息文件1.json反弹shell{‘application-id’: ‘application_1639358619460_0019’,‘application-name’: ‘get-shell’,‘a...

  • March 19, 2024
    Apache Arrow CheatSheet

    相关概念包括ValueVector、Field、Schema、VectorSchemaRoot以及Table 1234567891011<dependency> <groupId>org.apache.arrow</groupId> <artifactId>arrow-memory-netty</artifactId> ...

  • March 19, 2024
    ClickHouse CheatSheet

    启动默认绑定端口9000 与hdfs冲突,修改tcp_port默认配置文件/etc/clickhouse-server/config.xml自定义配置文件目录 /etc/clickhouse-server/config.d/ clickhouse startclickhouse stopclickhouse-client docker12docker pull clickhouse/clic...

  • February 2024

  • February 28, 2024
    Oceanbase

    JDBC连接Maven Repository: com.oceanbase » oceanbase-client (mvnrepository.com) 引入oceanbase-client-1.1.10.jar到spark的jars目录,使用Beeline连接!connnect jdbc:oceanbase://ip:2883/DB 用户名格式有:用户名@租户名#集群名、集群名:租户名:用...

  • February 01, 2024
    sqlite3

    usageyum install sqlite 123456789101112sqlite3 test.db.header oncreate table stu(id int, name char, sex char , score int);insert into stu values(1001, 'zhangsan', 'm', 89);selec...

  • January 2024

  • January 23, 2024
    dataTable

    dim补数时使用历史版本表名增加时间信息 / 增加含时间信息的分区, 通过函数根据时间获取对应的表/分区,默认返回最新版本 以下为表名增加时间信息的示例 1234567891011121314151617181920212223242526def getChannelTable(spark: SparkSession, date: String): String = &#...

  • January 23, 2024
    hadoop3

    123456789#JAVAexport JAVA_HOME=/data/soft/jdkexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib#hadoopexport HADOOP_HOME=/data/soft/hadoopexport PATH=$H...

  • January 23, 2024
    yarn

    调度模式 常驻 还是 任务 队列 资源配额 任务管理 yarn黑入-学习手动向yarn申请资源并调度脚本运行

  • January 23, 2024
    JIT

    JIT的动机基于“二八定律”,20%的热点代码占据了程序80%的执行时间 即使开启了JIT,也少不了代码编译和字节码解释的过程。JIT处理的是热点代码(hotspot code,或叫热门代码)。 热点代码就是频繁执行的代码块,比如循环里面的代码。JIT有一套逻辑判断是否热点代码。 Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mix...

  • January 23, 2024
    hdfs

    写盘策略节点-磁盘 偏好位置 IO隔离

  • January 23, 2024
    copy-on-write

    写时复制(Copy-on-write,简称COW) 性能优化策略 if you modify the second variable, Swift takes a full copy at that point so that only the second variable is modified by delaying the copy operation until it’s act...

  • January 23, 2024
    spark

    多counter性能问题 - whole stage codegen,生成的代码长度超过JIT 开窗counter - spark context 外包一层 任务调度本地性 任务数量

  • January 23, 2024
    protobuf-storetypes

    信息传递数据结构

  • January 23, 2024
    api

    api.java该包用于java编程时 JavaDoubleRDD将scala Double 转java Double 注意一行代码:import java.lang.{Double => JDouble}scala语法起了个类的别名 而java也有类似的,如import com.example.Calendar as MyCalendar broadcastkee...

  • January 23, 2024
    other_tools

    小数据量对比 alluxio - 适合异地多机房,网络带宽足够大,机器学习这种数据短期重复使用的 ignite - 小数据量,本地计算 IQ presto carbondata FromcarbonToSpark尽量上位原理 不讲细节。 不提carbon,但是讲其中的相关内容?+scala语法 scala CarbonSession。scala @deprecate @transient ...

  • January 23, 2024
    Features

    bloom filter-属于datamap 空间换时间 先介绍minmax, 当数据比较离散时,导致minmax效果不大 当数据比较集中时, 某列不是sort column时 参数配置是个比较困难的问题对比 32k 超长字符串 carbon设计问题,原本用short存储字符长度,只为兼容,在spark里的表示都是string use an integer instead of s...

  • January 23, 2024
    env_hyperv

    与虚拟机完全通过xshell/moba等工具交互 Linux mint jdk8 hdfs3.3.4 spark3.1.3 thrift 0.20 不需要任何header 环境变量可选写入/etc/profile或者~/.profile hadoop伪分布配置https://hadoop.apache.org/docs/r3.3.0/hadoo...

  • January 23, 2024
    work

    业务挤压时间,忙于应付各种突如其来的需要,无暇优化、做细

  • January 23, 2024
    seatunnel

    install123export version="2.3.3"wget "https://archive.apache.org/dist/incubator/seatunnel/${version}/apache-seatunnel-incubating-${version}-bin.tar.gz"tar -x...

  • January 23, 2024
    wsl

    InitEnv安装12wsl --list --onlinewsl --install Ubuntu-22.04 通过迁移 更改WSL存储目录12345678wsl -l --all -vwsl --shutdownwsl --export Ubuntu E:\runtime\wsl-ubuntu.tarwsl --unregister Ubuntuwsl --import Ubuntu ...

  • January 23, 2024
    ozone

    Ozone/HDDShttps://ozone.apache.org/docs/1.2.1/index.html 分布式存储 兼容S3对象存储API兼容HDFS使用RAFT协议 概念:Ozone consists of volumes, buckets, and keys.namespace: Volumes are similar to user accounts. used ...

  • January 23, 2024
    airflow

    语言:Python特色:Workflows as code 上述两点结合,可以有动态流程 UI比较复杂

  • January 23, 2024
    readme

    参数$[yyyyMMdd-1] 日期不允许参数将年月日拆分并t-1时只对天-1,必须对年月日都进行-1操作 会出现跨月时出错。20230401执行20230431

  • January 23, 2024
    metaTables

    各表各字段https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/metadata-1.3.html 数据库 dolphinscheduler 表名 表信息t_ds_access_token 访问ds后端的tokent_ds_alert 告警信息t_ds_alertgroup 告警组t_ds_command 执行命令t_d...

  • January 23, 2024
    AlertServer

    启动new SpringApplicationBuilder(AlertServer.class).run(args); Spring 是用于创建企业应用的流行 Java 应用框架。Spring Boot 是 Spring 框架的演进,可帮助您轻松创建独立的,生产级的基于 Spring 的应用。SpringApplication是一个类,用于从 Java main 方法引导 Spring 应...

  • January 23, 2024
    prometheus

    Prometheus collects and stores its metrics as time series data Components Prometheus server: scrapes and stores time series data 单文件 alertmanager exporter https://www.prometheus.wang/exporter/w...

  • January 23, 2024
    performance

    nmonnmonhttps://nmon.sourceforge.net/pmwiki.php?n=Site.Download nmon analyserhttps://nmon.sourceforge.net/pmwiki.php?n=Site.Nmon-Analyser https://nmonvisualizer.github.io/nmonvisualizer/ 1234567891...

  • January 23, 2024
    Ubuntu

    下载-镜像地址http://mirrors.ustc.edu.cn/ubuntu-releases/ http://mirrors.163.com/ubuntu-releases/ zsync镜像更新假设目前已有镜像文件trusty-desktop-amd64.iso,要更新到ubuntu-14.04-desktop-i386.iso sudo apt-get install zsync z...

  • January 23, 2024
    profile

    /etc/profile登录时执行并从/etc/profile.d目录的配置文件中搜集shell的设置 /etc/bashrc打开新的shell时 ~/.profile当用户登录时,该文件仅仅执行一次!默认情况下,他设置一些环境变量,执行用户的.bashrc文件. ~/.bashrc登录/打开新的she...

  • January 23, 2024
    iptables

    目前Linux系统的防火墙类型主要有两种:分别是iptables和firewalld,他们不是真正的防火墙,是指用来定义防火墙规则功能的”防火墙管理工具/程序”,将定义好的规则交由内核中的netfilter即网络过滤器来读取,从而真正实现防火墙功能。 在配置防火墙时,不建议两种配置方法结合使用(建议只使用其中的一种) iptables-静态防火墙 早期的Linux系统中默认使用的...

  • January 23, 2024
    vsftp

    Very Secure FTP Daemon installsudo apt install vsftpdsudo apt install db5.3-util yum install compat-db47 config 用户 本地用户 虚拟用户(需映射到一个本地用户/宿主) 匿名用户 连接模式 主动模式:客户端动态端口,服务器主动连接 被动模式:服务器动态端口,客...

  • January 23, 2024
    kafka

    Kafka 2.8.0,移除了对Zookeeper的依赖,通过KRaft进行自己的集群管理Kafka 3.3.1 Mark KRaft as Production Ready 基于TCP发布订阅模式 topic+partition Raft协议是当今最流行的分布式协调算法,Etcd、Consul等系统的基础,就来自于此。 总结一下其实就是四个要点 顺序读写 零拷贝 消息压缩 分批发送 h...

  • January 23, 2024
    synchronization

    数据库同步JDBC默认情况下都是单线程,速度慢;可优化为并行,但过大的并行会对数据源库造成压力; Datax对Oracle支持通过对splitPk进行sample查询后,根据网络限制计算得到的分片任务数,计算得各个任务的上下界作为where条件来并行 Seatunel目前从源码看是不支持jdbc并行抽数 Spark123456789101112131415161718192021222324...

  • January 23, 2024
    ranger

    https://blog.cloudera.com/sentry-to-ranger-a-concise-guide/

  • January 23, 2024
    mysql

    安装MariaDBhttps://mariadb.com/kb/en/yum/ 123456789101112131415161718vi /etc/yum.repos.d/MariaDB.repo[mariadb]name = MariaDB-10.3baseurl=http://142.4.219.197/10.3/centos7-amd64# alternative: baseurl=...

  • January 23, 2024
    kyuubi

    解决多租户的共享查询问题,作为多个查询引擎的统一入口 HA通过zk实现 存在的意义 - 对比 SparkThriftServer 权限:STS全局只有一个SparkContext,尽管SQL下发来自不同用户,但实际都是使用启动STS的用户身份执行(proxy-user也只是一个身份),难以对资源和权限做控制 单点:单点故障率高 Kyuubi从整体上可以分为用户层、服务发现层、Kyuubi ...

  • January 23, 2024
    scheduler

    node Application:用户编写的Spark应用程序,由一个或多个Job组成。提交到Spark之后,Spark会为- Application分配资源,将程序进行转换并执行。 Job(作业):由Action算子触发生成的由一个或多个Stage组成的计算作业。 Stage(调度阶段):每个Job会根据RDD的宽依赖被切分为多个Stage,每个Stage都包含一个TaskSet。 Tas...

  • January 23, 2024
    selenium

    installpip install selenium https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/ play12345678910111213141516171819202122232425262728293031323334353637383940414243444546...

  • January 23, 2024
    pandas

    Miniforge/micromamba1234567https://micro.mamba.pm/api/micromamba/win-64/latest micromamba.tar.bz2pip install jupyterjupyter notebookjupyter lab Pandas 库基于 Python NumPy 库开发 train Example123456...

  • January 23, 2024
    mvn

    https://developer.aliyun.com/mvn/search setting文件//修改maven配置 可解决 org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde的问题 1234567891011121314151617181920212223242526272829303132333435...

  • January 23, 2024
    java

    run jar主类必须是在cp第一个包中,支持*匹配 更新jar包内class文件jar uvf hadoop-common-2.8.3-lg.jar org/apache/hadoop/fs/FileUtil.class jar: 包是Java中所特有一种压缩文档 -u 添加文件到jar包中 -v 生成详细的报造,并输出至标准设备 -f ...

  • January 23, 2024
    scala

    闭包闭包在英文中表达是Closure,闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。 闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。 12var factor = 3 val multiplier = (i:Int) => i * factor 这里我们引入一个自由变量 factor,这个变量定义在函数外面。 这样定义的函数变量 mu...

  • January 03, 2024
    Scriptis-Linkis

    Scriptis是基于Linkis开发的数据分析工具 Linkis定位: 计算存储引擎中间件 启动用户会默认作为管理员权限Linkis支持指定提交、执行的用户linkis主要进程服务会通过sudo -u ${linkis-user} 切换到对应用户下,然后执行对应的引擎启动命令,所以引擎linkis-engine进程归属的用户是任务的执行者(因此部署用户需要有sudo权限...

  • December 2023

  • December 13, 2023
    raft

    解决的问题: 一致性用途:Fault Tolerant 在部分节点宕机后仍能正常服务 按照论文所述,原生的Paxos算法使用了一种点对点(peer-to-peer)的方式,所有节点地位是平等的。在理想情况下,算法的目的是制定一个决策,这对于简化的模型比较有意义。但在工业界很少会有系统会使用这种方式,当有一系列的决策需要被制定的时候,先选出一个leader节点然后让它去协调所有的决策,这样算法...

  • February 2023

  • February 27, 2023
    你有我也有 反正是第一

    背景集群HDFS机器硬盘故障,运维请求更换RAID卡,更换后合作方称无法启动Namenode,报错类似如下: Safe mode is ON. The reported blocks 3 needs additional 2 blocks to reach the threshold 0.9990 of total blocks 5. The number of live datanode...

  • May 2022

  • May 30, 2022
    iceberg

    用途场景: schema演进: 增删改列,重新排序,只修改元数据而不动数据文件 内部使用唯一ID代替列 隐式分区: 无须显式指定分区列作为条件 若分区来自某字段转换,两个字段均可生效分区过滤 时间格式自动转换 不通过目录划分分区 分区演进:只修改元数据,旧数据不变(新分区字段null代替),新数据用新分区 版本管理 time travel 版本回滚 版本老化清理后,数据文件不一定删...

  • May 26, 2022
    Delta Lake

    https://docs.delta.io/1.2.1/delta-utility.html ReleaseDelta Lake 2.0.x - for spark 3.2 Delta Lake 2.1/2.x - for spark 3.3 入口sql12345678910spark-sql \--jars delta-core_2.12-2.0.2.jar,delta-st...

  • March 2022

  • March 30, 2022
    zeppelin

    https://zeppelin.apache.org/download.html cp conf/zeppelin-site.xml.template conf/zeppelin-site.xmlvi conf/zeppelin-site.xml修改zeppelin-site.xml指定绑定的ip和port bin/zeppelin-daemon.s...

  • February 2022

  • February 24, 2022
    Shell

    读取文件为参数12ans_lines=`sed -n 1p ${verf_file}`ans_md5=`sed -n 2p ${verf_file}` if-else1234567891011121314# value equalif [ ${ans_lines} -eq ${lines} ]then ...

  • February 21, 2022
    Daily

    Auto Hot Key快捷替换输入 123::pop::SendInput 13800138000return

  • January 2022

  • January 28, 2022
    OptTechs

    HDFS Short-Circuit Local Reads dfs.client.read.shortcircuit co-located client read data file directly bypass DataNode process YARN Multi Local Dirs yarn.nodemanager.local-dirs use for multi loca...

  • January 25, 2022
    hive

    提取数据为csv1insert overwrite directory '/tmp/blog' row format delimited fields terminated by ',' STORED AS TEXTFILE select * from tbl where concat(year,month,day) = '2021072...

  • January 20, 2022
    TF-ML

    https://tensorflow.google.cn/resources/learn-ml/theoretical-and-advanced-machine-learning?hl=zh-cn https://tensorflow.google.cn/tutorials/keras/classification?hl=zh-cn http://c.biancheng.net/view/1...

  • January 20, 2022
    python

    pip curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py python get-pip.py C:\python27\scirpts下运行 easy_install pip 修改更新源linux ~/.pip/pip.conf 12[global]index-url = https://pypi.tuna.tsinghua....

  • January 20, 2022
    qt

    版本说明PyQt6和PySide6都是用于调用Qt6API的Python库,使用它们可以轻松在Python语言中创建基于Qt的GUI程序;PyQt6和PySide6最大的不同表现在发行许可上; PyQt6是由RiverbankComputing公司开发,出现的比较早;它采用GPLv3许可证和商业许可证发布;这表示你如果使用PyQt6,则必须将你的代码进行开源;如果要闭源,则需要购买商业许可;...

  • January 20, 2022
    doris

    架构FE(Frontend) 1-5台(分为 Follower 和 Observer),存储元数据,包括日志和 image,通常从几百 MB 到几个 GB 不等。 BE(Backend) 10-100台,存放用户数据。3副本。 Broker 是用于访问外部数据源(如 hdfs)的进程。通常,在每台机器上部署一个 broker 实例即可。 一台机器上可以部署多个 BE 实例,但是只能部署一...

  • January 20, 2022
    elasticsearch

    baiscindex → dbtype → tabledocument → row https://www.cnblogs.com/TianFang/p/12945202.htmltext支持分词 keyword不进行分词 installhttps://www.elastic.co/guide/en/elasticsearch/reference/current/install-elast...

  • January 20, 2022
    hbase

    create ‘UserActiveDate’, {NAME=>’lastActive’, VERSIONS=>3, MIN_VERSIONS => 1, TTL=>15552000, COMPRESSION => ‘SNAPPY’}, {NUMREGIONS => 20, SPLITALGO &...

  • January 20, 2022
    kylin

    在126搭建新组件服务: kylin 4.0.0hadoop 3.2.2spark 3.2.0 - 代码写死支持spark2.4/3.1. 修改kylin.sh 环境变量的SPARK_HOME=/data/soft/kylin/sparkhttp://mirrors.ustc.edu.cn/apache/spark/spark-...

  • January 20, 2022
    android

    https://developer.android.google.cn/studio/releases/platform-tools?hl=zh-cn#downloads.html uiautomator获取控件信息 连接(Nox)C:\Users\Manhua\AppData\Local\Android\Sdk\platform-tools\adb.exe connect 127.0.0....

  • January 20, 2022
    hdfs

    shell直接写文件12dfs dfs -appendToFile - HDFSfile# 按ctrl+C结束写入 启停命令123456789$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode $HADOOP_HOME/sbin/hadoop-daemon.sh stop namenode$HADOOP_HOME/sbin/hadoop-da...

  • January 20, 2022
    parquet

    df.write.mode(“overwrite”).format(“parquet”).save(path) org.apache.spark.sql.DataFrameWriter#save 定位table 获得relation 12runCommand(df.sparkSession, "save") { AppendData.byName(relati...

  • January 20, 2022
    vm

    编译环境1 new vm(vbox)同时连通本机和外网-(两张网卡nat + hostonly) 添加新NAT网络 ip addr 修改ip: vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 GATEWAY=10.0.2.1 IPADDR=10.0.2.100 NETMASK=...

  • January 20, 2022
    metabase

    应用只用于单纯查询数据+展示,诸如报表、元数据,可实现浏览器式的数据探索 若连接上SparkSQL会逐一表进行扫描,不太合适。 所以使用场景更多在用户直接对每个数据都感兴趣 且 数据量不大,类似Excel的使用方式,但数据存储在数据 => 通过计算处理写入数据库,然后metabase连接进行查询探索 对应地,MB也提供上传CSV入库数据库进行探索的能力 查询方式jdbc连...

  • January 20, 2022
    dolphinscheduler

    dolphinschedulerSite Is:分布式 工作流 调度平台,带DAG可视化 For:复杂任务依赖 去中心化(动态主,zk选) DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client,用于对应任务的提交 基于cron表达式调度 quartz 分布式调度器 调度情况报表t_ds_process_instance关键字段 ...

  • January 19, 2022
    windows

    本机外网ipwindows/linux通用 123456curl ip.sb # 只显示ipv4 curl cip.cc #显示ipv4和地址信息# 指定ip信息curl ifconfig.me/ip --resolve 'ifconfig.me:80:34.117.118.44' 进程参数1234tasklist|findstr 21692wmic pro...

  • April 2021

  • April 10, 2021
    Carbondata文件格式

    数据格式定义carbondata的文件格式使用thrift定义,在源码目录中:format/src/main/thrift/*.thrift,编译之后会在format/target/gen-java生成对应的类,并有setter和getter。 使用Thrift定义数据格式容易理解,可以打开各个文件查看具体的数据组成结构,这里简要说明各个文件对应的内容: carbondata.thrift...

  • April 10, 2021
    Carbondata加载逻辑

    入口加载命令的入口在CarbonLoadDataCommand,command的处理主要分为meta和data两部分的处理。数据加载主要在org.apache.carbondata.spark.rdd.CarbonDataRDDFactory#loadCarbonData实现,还会根据数据来源、参数的不同进一步细分加载的具体实现,常见的是通过文件加载即loadDataFile。 加载和查询类...

  • April 10, 2021
    Carbondata查询逻辑

    入口CarbonSession继承SparkSession,查询时我们使用的是CarbonSession。 12345678override def sql(sqlText: String): DataFrame = { withProfiler( sqlText, (qe, sse) => { new Dataset[Row](self...

  • April 10, 2021
    RDMA

    计算和存储都在想方设法地提高速度,谁都不想成为性能瓶颈,而在分布式架构下,网络带宽也是一个优化的地方。 带宽,是做性能估算时常用的一个单位。 在单机的情况下,我们学过DMA (直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。 对应地,有人实现了分布式架构下的直接内存访问,也就是RDMA。 RDMA目前来说比较垄断,Mellanox RD...

  • April 09, 2021
    Day 1 to Carbondata

    What is carbonCarbondata is an indexed columnar data format for fast analytics on big data platform, like parquet, orc. Reference Site Official Site Github Doc cwiki Pony Mail User mail list Dev ma...

  • April 09, 2021
    Carbondata PR

    CarbonFor each column stored in carbon, we will record min-max value in meta space called DataChunk. It is recommanded to set a proper column as first sort column in carbon.The following columns a...

  • April 13, 2017
    Spark

    Spark简单之美 | RDD:基于内存的集群计算容错抽象 Spark on YarnSpark 官方提供了三种集群部署方案: Standalone, Mesos, YARN,区别就在于资源管理调度平台不同。 想在已有的Hadoop集群上使用Spark,实现Spark on Yarn只需修改配置文件vi ./conf/spark-env.sh添加以下内容 export HADOOP_HOM...

  • April 13, 2017
    Docker

    Infomoby、docker-ce与docker-ee最早的时候docker就是一个开源项目,主要由docker公司维护。 2017年年初,docker公司将原先的docker项目改名为moby,并创建了docker-ce和docker-ee。 这三者的关系是: moby是继承了原先的docker的项目,是社区维护的的开源项目,谁都可以在moby的基础打造自己的容器产品 docker-ce...

  • April 12, 2017
    Resources常用资源

    常用软件OS MSDN itellyou USTC Mirror Maven Repository alibabaMavenRepo Internet Firefox 123456789wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.debsudo dpkg -i google-chrom...

  • April 12, 2017
    QA-on-Linux

    Linux ProblemsI’m in Mint可以把 http://www.cnblogs.com/manhua/p/3631046.html 删除了 Install终端间通信linux里有自带的终端间通信命令:write、wall 使用who命令,查看目前登入系统的用户信息,比如pts/0和pts/1是本机登录的两个终端。 在终端0上输入命令write manhu...

  • April 12, 2017
    Markdown

    段落和换行「由一个或多个连续的文本行组成」这句话其实暗示了 Markdown 允许段落内的强迫换行(插入换行符),so如果你确实想要依赖 Markdown 来插入换行标签的话,在插入处先按入两个以上的空格然后回车 标题#标题一 ##标题二 ###标题三 ####标题四 #####标题五 ######标题六 强调Markdown 使用星号和下划线作为标记强调字词的符号,被1个标记包围的字词会...

  • April 12, 2017
    Get-to-know-Cloud

    基本概念SaaS(Software-as-a-service) 软件即服务 为客户提供各种应用软件服务,即以服务的方式将应用程序提供给互联网最终用户 它是用户获取软件服务的一种新形式,不需要用户将软件产品安装在自己的电脑或服务器上,而是按某种服务水平协议(SLA)直接通过网络向专门的提供商获取自己所需要的、带有相应软件功能的服务。 本质上而言,软件即服务就是软件服务提供商为满足用户某种特定需...

  • April 12, 2017
    Film-Recommendation

    任务描述• 这是一个经典的评分预测任务。 要求在训练数据上学习得到评分模型,然后预测Test 数据上给定用户对给定电影的评分。 系统评价由预测评分与实际评分的误差决定。 • 除用户评分矩阵外,另有用户标记(tag)和电影元信息http://gucasir.org/SC/Proj/MovieRecTask.tbz 解压命令: tar jxvf MovieRecTask.tbz • 评分数据 (...

  • April 12, 2017
    ContactSync

    Idea首先大家进入到同一群组,然后将自己的联系方式上传,组内的其他成员可以通过该软件即时获取他人信息,并且有同学更新信息时,其他人也可以自动获取更新信息,避免出现不能及时联系到其他人 功能 AND 测试内容 用户 imei自动登录 用户信息更新 logout login 群组 list refreshs create join quit 好友 list add sendReq...

0%