2026每周复盘 | 第 [3、4] 周 (2026.03.09 – 03.20)

由于第三周周末有点事,没能在第三周结束的时候写总结,正好第三周和第四周干的活也类似,所以把这两周合到一块写了。根据任务安排,以及出于拓宽知识面考虑,我又开始研究知识库了,虽然是基于开源框架LightRAG做的,不过也是学到了很多知识库相关的知识。

💡 本周关键词#知识库搭建 #模型部署

1. 本周成就

  • 搭建LightRAG知识库:为了便于迁移,采用docker的方式搭建了LightRAG知识库,以及与之配套的miniomilvusneo4j的docker
    • 通过修改LightRAG.env文件,配置其数据库连接、LLM连接(三个模型的接口、超时)以及知识图谱解析时的实体节点标签,从而实现对知识数据的向量化入库、建立知识图谱
    • 注意如果使用docker compose启动容器,需要配置多个容器之间的网络连接情况,否则可能无法互通,如果不指定网络的话,会自动启动一个服务名-default的网络,可能会导致这个容器无法被连通
  • 部署Reranker模型服务:
    • Qwen3-Reranker-8B模型
    • Jetson AGX Orin平台PyTorch镜像安装,启动镜像时如果要用gpu,需要加上--runtime=nvidia参数
    • 基于torchtransformers库运行大模型
    • 基于FastAPIuvicorn的模型后端服务
    • 调整模型服务接口,使其与LightRAGreranker接口对齐,成功调用自定义模型服务
    • 详细可见Qwen3-Reranker模型在Jetson AGX Orin上python部署 – Pipe
  • 个人成长:每周坚持锻炼了 5 天。
  • 其他
    • 3.15听了陈粒的演唱会,胡彦斌做嘉宾出场,骑车从凤凰山回来,爬了一个特别长的坡,怀疑就是凤凰山
    • 看完了怪奇物语第五季,意犹未尽,亨利孤独的悲剧人生和威尔形成鲜明对比
    • 激光点了10个扁平疣,恢复的还可以,基本上看不出来了
    • 3.18开始阅读《席德梅尔的回忆录:我的计算机游戏人生》

2. 本周学到了什么

  • 学习知识图谱基础知识:
    • 知识图谱 = 节点(实体) + 边(关系) + 属性(特征) + 本体(规则)
    • 实体:知识图谱中最基本的单元,代表现实世界或概念世界中可独立标识的对象
    • 关系:表示两个实体之间的语义连接,是有方向的谓词
      • 三元组表示:<头实体, 关系, 尾实体>,如<中国, 首都, 北京>
      • 方向性:关系通常有方向,A→B ≠ B→A
      • 非对称性:多数关系不可逆,”父亲”≠”儿子”
      • 传递性:部分关系可传递,A在B中,B在C中 → A在C中
      • 多值性:一个实体可有多条同类型关系
    • 标签:对实体或关系进行分类的元信息,用于区分不同类别的对象,可用于检索过滤、推理约束等
    • 属性:附加在实体或关系上的键值对信息,用于描述其具体特征
      • 属性类似于编程中的类属性
      • 关系也可以有属性(称为”重化” Reification)
      • 如果某个”特征”本身是一个需要进一步描述的实体,应该用关系而非属性,如特斯拉.总部 = "奥斯汀"(属性)改为:特斯拉 →[总部位于]→ 奥斯汀市(关系,可继续查奥斯汀的详情)
    • 三元组:知识图谱表示知识的最小原子单元
      • (“马斯克”, “创立”, “特斯拉”),(“特斯拉”, “生产”, “Model 3”),(“Model 3”, “类型”, “电动汽车”)
    • 本体:知识图谱的模式层(Schema),定义概念体系、属性约束和推理规则
      • 定义了”世界里有哪些概念、这些概念有什么特征、概念之间如何关联、以及能推导出什么新知识”
      • 在 LightRAG 等现代系统中,本体不必追求学术级的形式化完备,而应聚焦:
        • 够用:覆盖核心业务概念和关系
        • 可行:支持 LLM 稳定抽取和向量检索
        • 可演:支持业务变化时的平滑迭代
  • 学习LightRAG查询原理:
    • 向量库独立存储,与图谱解耦,支持快速语义检索
    • Naive 模式(纯向量检索):查询 → 向量嵌入 → Chunk向量库相似度匹配 → Top-K文本块 → LLM生成,对延迟敏感的应用
    • Local 模式(实体描述 + 直接关系):查询 → 提取局部关键词 → 实体向量库匹配 → 图谱一跳邻居遍历 → 融合细节信息,查询具体人物/产品/事件细节
    • Global 模式(主题聚类 + 关系摘要):查询 → 提取全局关键词 → 关系向量库匹配 → 多跳关系聚合 → 主题摘要生成,分析行业趋势、概念关系
    • Hybrid 模式(双层融合,默认推荐):查询 → 并行执行 local + global 检索 → 信息去重融合 → 重排序 → LLM生成,日常问答、简单查询
    • Mix 模式(三层增强,精度优先):查询 → hybrid 检索 + naive 向量补充 → 三层信息融合 → 高级重排序 → LLM生成,关键业务决策支持
  • 学习LightRAG构建知识图谱基础:
    • 结构化提取将非结构化文档转化为”实体-关系”图谱:原始文档 → 预处理 → 分块 → LLM提取 → 图谱构建 → 双库存储 → 索引完成
    • 重叠窗口:相邻 chunk 保留 128 token 重叠,避免实体/关系被切割
    • LightRAG 使用结构化 prompt 引导 LLM 输出标准化格式:
      • 实体:(“entity”{delim}<名称>{delim}<类型>{delim}<描述>)
      • 关系:(“relationship”{delim}<源实体>{delim}<目标实体>{delim}<关系描述>{delim}<关系关键词>{delim}<关系强度>)
      • 主题:(“content_keywords”{delim}<关键词列表>)
  • docker compose简单使用:Docker Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过一个 YAML 文件,可以配置所有服务,然后用一条命令启动整个栈
    • Compose 会自动创建一个默认网络,服务可以通过服务名互相访问,即服务名替代ip
    • docker compose up:创建并启动容器,-d后台运行
    • docker compose down:停止并删除容器
    • docker compose ps:查看运行状态
    • docker compose exec:进行服务容器
    • docker compose logs:查看服务日志

3. 踩坑与解决方案

问题描述原因分析解决方案避免策略
联想问天服务器插了网线后连不上,ping不通1. 服务器没开机
2. IP地址不在同一个网段
3. 服务器网口插错了
4. 交换机网口插错了
首先检查服务器是否开机;然后检查服务器的网口插队没有,如果插到了管理口上,会导致连不上,应该插到其他网口(在PCIe槽上的网口);然后检查交换机分组是否插对。服务器注意是否有多个网口

6. 本周瞬间

在望平街吃了一家特别好吃的泰餐,Palm Tale,打抛猪肉饭绝了