Hexo

Hexo

Untitled
Created2026-02-08
123git fetch upstream && \git rebase upstream/main && \git push origin HEAD 1234567891011# 方法1: 搜索添加了特定字符串的 commitgit log -p --all -S 'jackson-datatype-jsr310' -- '*.xml'# 方法2: 查看某个文件的修改历史git log -p agentscope-core/pom.xml# 方法3: 使用 blame 查看每一行是谁添加的git blame agentscope-core/pom.xml | grep -A2 -B2 jsr310# 方法4: 查看某个 commit 的详细信息git show 5f195492 1234git fetch upstream && \git checkout main && \git rebase upstream/main && \git push ori...
大数据结构总览
Created2026-02-08
大数据结构大数据可以分成五个层次 数据收集:将数据从数据源收集到数据存储层, 常用的组件有关系型, 非关系型, 分布式消息队列三种 关系型: Sqooq/Canal, 连接MySQL这种关系型数据库和Hadoop之间的桥梁, Sqool可以全量将数据库中的数据导入到Hadoop中, Canal则能实现增量的导入 非关系型: Flume, 流式数据收集, 比如日志等数据, 经过ETL以后导入到Hadoop中 分布式消息队列: [[Kafka]], 常用作消息总线, 有分布式的高容错的设计, 适配大数据场景 数据存储主要由分布式文件系统和分布式数据库组成 分布式文件系统: HDFS, Hadoop分布式文件系统, 有强大的容错机制, 社区开发了很多种文件格式 分布式数据库: HBase, 构建在HDFS之上的分布式数据库, 提供结构化和半结构化的数据库, 支持列无限拓展 资源管理和服务调度 YARN: 统一资源管理与调度系统, 能够管理集群中的各种资源, 并按照一定策略分配给上层的各类应用. 同时支持灵活的配置, 允许用户按照队列的方式组织和管理资源, 且每个队列的...
Untitled
Created2026-02-08
How to Comment行中注解对于代码的注解, 除了本身写法非常的晦涩的(比如c/cpp), 需要写 “这是什么的” 注解, 其他大多数情况下, 我们的注解的职责需要关注 “为什么”, 在需要的地方解释这里为什么会需要这么一段代码. 行中注解应该避免繁琐的 “这是什么的”. 让你的代码易读/解释性强/清晰应该是你的 ”code“ 的尽力实现的职责, 好的代码应该本身就易读, 不要把这个工作推脱给comment. “comment”在行中的职责是补充为什么
如何学习一门语言(以scala为例)
Created2026-02-08
简介这个章节会是我对于如何学习一门语言的方法论的探索, 也是我面临着要学习从来没有接触的语言scala的过程的记录(并不是完全陌生, 有着Java的底子在, 而scala是个同样运行在JVM上的语言) 学习的过程 我们需要掌握哪些知识可以说我们“学会”了, 又用什么标准来衡量我们已经”掌握“了, 可以迈向下一个阶段, 如果你要学习一门语言, 你可以使用下面的阶段清单来去评估自己所处的阶段和去补足自己 特性熟悉阶段 我在这部分试图给出来一个完整的check list供查漏补缺, 但是这些只是一些不同语言基本都会提供的共性部分, 每个语言都会有自己的差异化的特性, 这部分的特性需要自己查找官方的文档来去补充(这部分的核心特征往往会是这个语言存在的理由) 推荐的资料 官方的文档: 官方往往会提供一个简明但是又足够概括核心特性的教程 这个阶段你需要知道 语言的基本运行环境 运行起来这个语言需要的基本的环境 基本的语法 类型的详细信息(强弱类型, 基本类型, 引用类型, 占用大小, 如何声明等) 类型推断 类型转换, 隐式转换的规则 运算符 函...
Scala基础语法
Created2026-02-08
Scala运行需要配置Scala是一门运行在JVM上的语言, 和Java相同会被编译成字节码文件, 也是出于这样的机制, Scala能无缝调用Java的原生基础库, 例如IO, 集合等. scalac: 编译器 scala, scala-cli: CLI工具和工具包(能通过scala run来编译 + 执行, 也可以通过scala命令进入到命令行交互模式) sbt: scala build tool scalafmt: scala formatter Scala的语法基础基础中的基础 val声明不可变对象, var声明可变对象 类型只有”类”, 不存在基础类型, 有自动类型推断, 是强类型 函数通过 func(args: Type) => ...语法声明, 可以匿名 方法允许多参数列表 函数和方法最后一个表达式的的值就是返回值 class通过new实例化, object相当于单例类, 会直接初始化生成 trait相当于接口, case class是VO对象, 能直接实例化不用new关键字 1234567891011121314151617181920212223242...
Untitled
Created2026-02-08
理解某个修改或某个功能 把我当成一个对spark完全不懂, 且需要完全明白这个修改链路, 要说服同事应用这个修改的人, 同时要说明每个修改的意义, 忽略其中关于日志的修改, 你要从整个事件发生的entrypoint说明, 说清楚每个部分对于原始数据的处理是怎么样的, 原本是怎么处理的, 后面是怎么处理的
xv6 Overview
Created2026-02-08
Chapter-1-Overview操作系统的目的 The job of an operating system is to share a computer among multiple programs and to provide a more useful set of services than the hardware alone supports. An operating system manages and abstracts the low-level hardware, so that, for example, a word processor need not concern itself with which type of disk hardware is being used. An operating system shares the hardware among multiple programs so that they run (or appear to run) at the same time. Finally, operating ...
Untitled
Created2026-02-08
Agent Agent是对以LLM为驱动工程系统, 在整个工程化的结构里面, 最核心的两个脉络是上下文和与外界交互的能力, 目前出现的任何相关的技术都可以被分类到两者之一, 解决领域中某个特定的问题, 还有一个副主题是规范制定, 这是为了让解决上述两个问题的组件能以通用的形式接入Agent系统 (仅关注Agent本身的能力, 对于监测, 可视化, 后训练等内容, 在这里被归为Agent调优, 在agent侧本质上也是在调优上面两者, 调优模型不在讨论范围内) Agent是对LLM的一个工程化包装, 底层调用的模型服务, LLM api能提供的能力及其有限. 你无法通过LLM api去调用你电脑上的某个api, 没办法让ta对和你的对话保有记忆. 一个agent的输入是(用户的message), 输出是(执行action, 输出response). 上下文 agent的运行, 实际上就是上下文的流转, 理解LLM在某个时刻点为什么这么做了, 为什么不这么做的核心就是, 看那一刻该LLM持有了什么上下文 我们假设model是稳定的, 宽泛地将llm视作一个函数, 即假设我们的输入...
Hive Introduction
Created2026-02-08
Hive的作用Hive将提交任务这一件事情简化, 屏蔽了执行引擎, 提供了HiveQL供用户使用, 用户可以使用SQL的形式提交并执行任务. 从输入数据到最后的执行经过的步骤: 用户通过客户端连接到HiveServer2提交SQL -> Driver接受客户端的HiveQL -> Compiler / Semantic Analyzer / Optimizer将QL转化成逻辑计划, 物理计划, 并进行CBO优化 -> Execution Engine将物理计划分解成具体的执行任务, 提交到底层的计算引擎上 (MapReduce, Spark) -> 在HDFS上存储数据, 由YARN分配资源给计算引擎 另一条线是HiveServer2 -> Hive MetaStore Server访问元数据, 通过Thrift提供元数据 (表/分区/统计), 并将结果持久化到关系型数据库 HMS (Hive Metastore)HMS
Untitled
Created2026-02-08
123
avatar
John Doe
Articles
26
Tags
16
Categories
0
Follow Me
Announcement
This is my Blog
Recent Posts
Untitled2026-02-08
大数据结构总览2026-02-08
Untitled2026-02-08
如何学习一门语言(以scala为例)2026-02-08
Scala基础语法2026-02-08
Tags
Spark language scala BigData Operating-System xv6-lab Git xv6 Livy Overview Hive Workflow syscall source_code Best-Practice how-to-learn
Archives
  • February 2026 19
  • November 2025 4
  • October 2025 3
Website Info
Article Count :
26
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By John DoeFramework Hexo 7.3.0|Theme Butterfly 5.5.0