### 摘要

#### 背景与问题

基于知识图谱的LLM推理遭遇以下问题：

1. 多跳推理问题处理效率低。
2. 涉及多实体问题难以建立实体间关联。
3. 如何有效地使用图数据结构。
4. 对于实现深度复杂而有可信度的（responsible）推理能力不足。
5. 大量的训练费用使得缺乏最新的知识更新。

#### 概念与性质

PoG结合了LLM的内在知识和知识图谱的真实数据，使用了一种三阶段的动态的多跳探索。先是从图里修剪了不相关的信息，然后利用了包含图结构，LLM提示词策略和一个预处理了的大模型（如SBERT）的三跳的修剪策略去有效地缩小候选的路径。

1. 解决多跳的推理问题

   PoG首先分析问题，从问题中提取主题实体。然后分解问题为子问题然后生成一个LLM思考指示器，称之为“Planning”

   这个planning不仅作为一种问答策略而且预测在答案和每个主题实体之间的隐含的关系路径。

   多跳路径从预测的起点开始。进行了一个动态的搜索过程。

2. 解决多实体问题

   PoG采用了一种三阶段探索过程去探索从已经检索的问题子图的推理路径。所有路径必须包含所有的主题实体。

3. 解决使用图结构

   PoG捕捉了问题子图通过扩展主题实体到他们最大深度的邻居，利用了图聚类和缩小去降低图搜索的花费。

总而言之，PoG采用了以下方法：

1. 动态深度搜索：基于LLM预测深度进行路径探索

2. 可解释性和可靠的推理：利用KG提供事实链路

3. 有效地剪枝策略：结合图结构进行三阶段剪枝

4. 灵活和有效：可即插即用到不同的LLM


对比例子:
正例:针对"What country bordering France contains an airport that serves Nijmegen?"这类复杂问题,PoG可以:

识别出关键实体(France, Nijmegen)
在知识图谱中找到合理推理路径，结合LLM知识给出准确答案。传统方法如ToG只能单独处理每个实体,无法建立实体间关联,容易产生错误推理。

![image-20251105112913458](https://chenalna.oss-cn-hangzhou.aliyuncs.com/img/image-20251105112913458.png)

类比理解:
PoG就像一个导航系统:

知识图谱相当于地图

LLM像是导航AI
推理路径类似于导航路线

剪枝类似于过滤不合适的路径

总结:
PoG是一个结合知识图谱增强LLM推理能力的创新框架,通过动态搜索、路径剪枝等机制提高了推理的准确性和效率。





### 预备知识

考虑三元组$\mathcal G(\mathcal E,\mathcal R,\mathcal T)$,分别代表了实体，关系和知识三元组

每个$\{T \in \mathcal T | T=(e_h,r,e_t),e_h,e_t \in \mathcal E,r\in \mathcal G\}$

记一个实体集合$\mathcal E_{\mathcal S} \subseteq \mathcal E$,所推导出的子图记为

$$
\begin{align}
\mathcal S=(\mathcal E_{\mathcal S},\mathcal R_{\mathcal S},\mathcal T_{\mathcal S}) \\
\mathcal T_{\mathcal S}=\{(e,r,e^{\prime}) \in \mathcal T | e,e^\prime  \in \mathcal E_{\mathcal S} \} \\
\mathcal R_{\mathcal S}=\{ r \in \mathcal R | (e,r,e^\prime) \in \mathcal T_{\mathcal S} \}
\end{align}
$$

也就是说，先根据Es的内容，所有有关子集实体的三元组推导出了Ts，再根据Ts的三元组有关的关系推导出了Rs。

$\mathcal D(e) \,\,and \,\,\mathcal D(r)$是对每个实体和关系的文本描述，如$\mathcal{D}(\text{``123''}) = \text{``France''}$

定义一：推导路径

$path_{\mathcal G}(e_1,e_{l+1})=\{T_1,T_2,...,T_l\}=\{(e_1,r_1,e_2)...,(e_l,r_l,e_{l+1})\}$

有三元组$path_{\mathcal G}(A,C)=\{(A,a,B),(B,b,C)\}$

$$A\xrightarrow{a}B\xrightarrow{b}C$$.意味着这个路径的长度为2

如果在s,t中间存在推到路径,那么说s与t可达，$s\leftrightarrow r$,在图G中的距离记作$dist_{\mathcal G}(s,t)$.(**记为最短路径**)。如果顶点不可达则记为 $\infin$。

给出正数h，将s的h-跳的邻居记作$N_{\mathcal G}(s,h)=\{t \in \mathcal E |dist_{\mathcal G}(s,t) \leq h \}$.

定义二：实体路径

知识图谱KG的一个实体集$list_e=[e_1,e_2,..,e_l]$,对于list的实体集被定义为

 $path_{\mathcal G}(list_e)=\{path_{\mathcal G}(e_1,e_2)...path_{\mathcal G}(e_{l-1},e_l)\}=\{(e_s,r,e_t)|(e_s,r,e_t)\in path_{\mathcal G}(e_i,e_{i+1}\and 1\leq i   \le l) \}$

定义三：知识图谱问答

给予一个自然问题q和知识图谱KGG,目标是发明一个函数$\mathcal f$，使得$a\in Answer(q)$

$a=f(q,\mathcal G)$

并且问题q提及的主题实体$Topic(q)$和答案实体$Answer(q)$均在知识图谱$\mathcal G$中。

### 方法



![](https://chenalna.oss-cn-hangzhou.aliyuncs.com/img/image-20251111232053017.png)

1. 初始化，该过程首先从问题输入中识别主题实体集合，然后通过从每个实体出发最多探索$\mathcal D_{max}$跳来查询原知识图谱$\mathcal G$,来构造证据子图$\mathcal G_{q}$.然后利用LLM去分析问题和建立一个指示器用来答案生成过程和预测探索深度$\mathcal D_{predict}$。
1. 探索。在初始化之后，模型从子图通过三种路径检索主体实体：主题实体、LLM支持的实体、节点扩展。
1. 路径剪枝。PoG采用了一个与训练的LM和LLM提示词，和图结构分析来达成一个三步束搜索。来作为问题回答
1. 问答阶段。最后，LLM来评估见之后的路径进行评估，不足则继续探索$\mathcal D_{max}$



或者下一个探索阶段。

### 初始化

主要包含两个阶段，即问题子图检测和问题分析。

![image-20251119112606476](https://chenalna.oss-cn-hangzhou.aliyuncs.com/img/image-20251119112606476.png)

##### 问题子图检测

给定一个问题q，POG首先识别子图，该子图包含q的所有主题实体及其$D_{max}$跳邻居。

##### 主题实体识别

为了识别相关子图，PoG首先利用大语言模型从问题中提取潜在的主题实体。

识别完成后，该过程应用基于BERT的相似度匹配将这些潜在实体与知识图谱中的实体对齐。

















































































+++++++
