To Dark Mode

关于智能体的实验 0 - 学术文献阅读理解 :: Draft

Zhenghao Wu

Wednesday, November 5, 2025 2 min read

Status: In Progress Confidence: highly likely Importance: 7

Post Details

This post is part 1 of 3 in the Reading Agent series.

View all articles in this series
  1. 关于智能体的实验 0 - 学术文献阅读理解 (current)
  2. 关于智能体的实验 1 - 三种阅读理解学术文献的智能体框架
  3. 关于智能体的实验 1.5 - 阅读理解学术文献的多智能体框架(第四种)
Table of Contents

本文记录我在尝试构建智能体和多智能体系统的过程,探索其应用潜力。这会是一个系列文章,这一章节关注的是智能体的构建与多智能体动态交互行为的实现。最后会给出各类学术文章生成的报告示例。

前情

智能体发展迅速,但我对它的了解只停留在各种名词和概念的层面,于是想通过实际动手构建一些智能体系统来加深理解。

之前使用 Cherry Studio 结合个人知识库 MCP 工具实现的一个文章理解的智能体:文本从 PDF 中提取出来后,结合包含理解文章生成报告任务的提示词发送给API,最终 LLM 调用 MCP 工具生成报告储存在知识库中。

alt
Cherry Studio 中构建的智能体,使用 DeepSeek V3.2 模型理解 DeepSeek-OCR 文章

现在的模型 API,上下文窗口已经足够大,可以直接将文章内容发送给模型进行处理,这个智能体的效果还挺不错的。但更进一步,我想试试设计不同的智能体和多智能体交互行为,实现读论文这个任务上多样的需求:

  1. 体系化的文章理解
  2. 模型自己决定阅读策略
  3. 多智能体互相交流(提问和回应)寻求共识

智能体框架

为了挑选合适的工具,我去 Reddit 看看都在用什么,发现下面这些项目比较流行:

我选用了 PydanticAI,主要是看中他数据模型定义和验证的能力。 另外,PydanticAI 并没有封装太多智能体的行为逻辑,更多是提供一个工具库,方便我自己设计智能体和多智能体交互的流程。

系列展望

这个系列文章预计会有四个部分:

敬请期待!

Article Card

For "关于智能体的实验 0 - 学术文献阅读理解"

Comment Section disabled in draft mode

Related Posts