关于AI记忆系统的研究_在ai智能如何实现记忆功能的方法

作者：你好赵伟 | 2024-07-11 10:44:11

踩

在ai智能如何实现记忆功能的方法

前言

前些日子我用ChatGPT和OpenAI提供的GPT-3 API做了一些实验。在实验的过程中我注意到，虽然ChatGPT可以记忆之前的对话内容，但其机制十分简单直白：

在发送一个新的prompt的时候，程序会将之前的所有的对话打包起来，然后添加到prompt之前。

这将导致单次prompt会随着对话的进行而变得越来越长，直至极限。即使没有极限，成本也会越来越大，直至难以接受。

也就是说，以目前的记忆方式，AI只能进行短期记忆，而无法进行长期记忆。于是我设计了一个可以让AI低成本地进行长期记忆的方法。

设计思路

不难看出，单次prompt可以被视作“背景条件”和“当前对话”两个部分。既然单次prompt的容量是有限的，那么只要让“背景条件”的部分尽可能和“当前对话”有关即可。

因此，我需要设计一个模型，使得AI会遗忘与“当前对话”无关的内容，并回忆起与“当前对话”有关的内容。

模型

记忆容器

人格记忆容器：

保存永久出现在prompt中的记忆。该容器包含了AI的语气、人设等信息，因为会一直占着“背景条件”的一部分容量，所以要尽可能精简。

短期记忆容器：

保存目前出现在prompt中的记忆。若该容器中某内容与当前对话无关，需将其转移到长期记忆容器中。

长期记忆容器：

保存还未出现在prompt中的记忆。若该容器中某内容与当前对话有关，需将其转移到短期记忆容器中。

遗忘记忆容器：

保存此回合即将被遗忘的短期记忆。属于短期记忆过渡到长期记忆的中间容器。

此外，所有短期记忆与长期记忆组合起来称为所有记忆。
相关值与遗忘值

相关值 R：用来衡量两个句子的相关性

当判断两个句子是否相关时，我第一反应想到的是两句是否包含相同的关键字词，于是可以得到：当两个句子相同的字词越多时，这两句就越相关。

然而，一句句子中，常见的虚词、代词所占的比重可能会比关键词所占的比重大很多，而且这类常见字词可能在几乎所有句子里都有出现，所以在定义R值时，需要将这些字词的比重降低。

同时，我们不知道关键字词有多少字，但先不妨假设这个关键字词只有一个字，那么我们可以先得出一个简单的公式：
$B句对于A句的相关性R=\sum_{对A句的每个字}{f(B句是否有这个字)\over g(该字在所有句子中的出现率)}$
可以看到，当A中的某个字在所有句子中的出现率过大时，这个字对两句相关性的影响力将会减弱。

接着，利用上述公式计算某记忆与当前对话的相关值，并将值映射到 $(0, 1)$ 区间。记：某记忆 $M_x=\lbrace c_1, c_2, ..., c_m\rbrace$ ，当前对话 $P=\lbrace p_1, p_2, ..., p_n\rbrace$ ，所有记忆 $S=\lbrace M_1, M_2, ..., M_s\rbrace$ ，且 $M_x\in S$ 。于是可得：
$R(P, M_x, S) = sigmoid[r(P, M_x, S)]$
其中：
$M_x, S) = \sum_{i=1}^n{sign(p_i, M_x)\times({m\over{\sum_{j=1}^s{sign(p_i, M_j)}}}-1)} \\\\ sign(p_i, M_x) =$
${\begin{cases} 1, i f p_{i} i n M_{x} \\ 0, i f p_{i} n o t i n M_{x} \end{cases}$ $\begin{cases} 1,\,if\,\,p_i\,\,in\,\,M_x\\ 0,\,if\,\,p_i\,\,not\,\,in\,\,M_x\\ \end{cases}$ \\\\ sigmoid(x) = {1\over1+e^{-x}} $r (P, M_{x}, S) = i = 1 \sum n s i g n (p_{i}, M_{x}) \times (\frac{m}{\sum _{j = 1}^{s} s i g n ( p _{i} , M _{j} )} - 1) s i g n (p_{i}, M_{x}) = {1, i f p_{i} in M_{x} 0, i f p_{i} n o t in M_{x} s i g m o i d (x) = \frac{1}{1 + e ^{- x}}$
然而，普遍情况下关键字词一般都由2、3个字组成，且通常来看，如果A句和B句拥有相同的多字词语，而A句和C句仅仅拥有相同的单字，那么显然B句相比于C句，与A句的相关性更大。因此，需要对上面的公式进行稍微的修改，降低拥有相同单字时的比重，同时加大拥有相同多字时的比重，且字数越多，比重越大。

记：最大关键词字数为 $A$ ，当前对话 $P=\lbrace p_1, p_2, ..., p_n\rbrace=\widehat{p_1p_n}$ ，例如：“你吃了吗”中， $\widehat{p_2p_3}=$ “吃了”。可得：
$M_x, S, A) = sigmoid[r(P, M_x, S, A)] \\\\ r(P, M_x, S, A) = \sum_{a=1}^{A-1}[{\sum_{i=a}^n{sign(\widehat{p_{i-a}p_i}, M_x)\times({m\over{[\sum_{j=1}^s{sign(\widehat{p_{i-a}p_i}, M_j)}}]^{A-a}}-1)}}]$

遗忘值 F：用来判断是否该遗忘某记忆

在短期记忆容器中，每条记忆都会有一个遗忘值，并且在每一轮对话结束时更新。当遗忘值超过临界时，记忆将会被转移到长期记忆中。

遗忘值的更新基于该记忆与当前对话的相关值，若相关值大于某一标准，则遗忘值将减小，反之则增大。

记 $R$ 为当前记忆与当前对话的相关值， $\widehat R$ 为标准，则第n次对话时，当前记忆的遗忘值为：
$F_n(R)=\sum_{i=1}^n\Delta F_i(R)$
其中：
$\Delta F_n(R)=tanh(\widehat R-R) \\\\ tanh(x)={e^x-e^{-x}\over e^x+e^{-x}}$

流程

设立阈值 $R_0\in(0,1)$ ， $F_0\in(R_0,+\infin)$ ，其中， $R_0$ 越低越容易回忆， $F_0$ 越低越容易忘记。
遍历短期记忆容器，更新每条记忆的 $F$ 值。若 $F\geq F_0$ ，则转移至遗忘记忆容器。
遍历长期记忆容器，给每条记忆一个 $R$ 值。若 $R\geq R_0$ ，则给出初始 $F$ 值并转移至短期记忆容器。
将遗忘记忆容器中的所有记忆转移至长期记忆容器，并清空。

可能的改进方向

当某一话题重复多次后，未来回忆起该话题的可能性将会被降低。解决这个问题可能需要对长期记忆容器进行调整，减少记忆中相同、重复的话题数量。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/809803

关于AI记忆系统的研究_在ai智能如何实现记忆功能的方法

前言

设计思路

模型

记忆容器

人格记忆容器：

短期记忆容器：

长期记忆容器：

遗忘记忆容器：

相关值与遗忘值

相关值 R：用来衡量两个句子的相关性

遗忘值 F：用来判断是否该遗忘某记忆

流程

可能的改进方向