通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要,第 3 部分
Posted: Thu Jan 16, 2025 6:18 am
在我的博客文章的第三部分中,我将使用一个高级示例来解释转换管道中的不同步骤并显示中间结果。
我们的例子
我选择图1中的文档作为示例。这是一项可公开查阅的社会法院裁决。它总共由 7 页组成。
图1:测试文档摘要
下表比较了不同库的示例文档页面的令牌计数结果。左侧是 OpenAI 分词器的输出(带换行符和不带换行符)。右侧是 Aleph Alpha 的分词器(带换行符和不带换行符)的输出。
OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较
图 2:OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较
首先引人注目的是不同的令牌总和(各自嵌入输出的特征也显着不同)。在 Aleph Alpha,它们往往高于 OpenAI(Tiktoken)。即使文本清理对于 OpenAI 库来说也没有太大改变,但对于 Aleph Alpha 库来说却意义重大。
图 3:不同代币数量
这是因为 OpenAI 库使用令牌而不是实际频率对多个换行符 克罗地亚 whatsapp 数据 进行编码。对于 Aleph Alpha 库,情况恰恰相反。由此可以推断,Aleph Alpha 需要更明确地工作。
数据预处理
下面我将介绍自动摘要的数据预处理。正如本博客文章的第二部分中已经描述的,我想将整个文本分成单独的文本块。首先,我将清理文本(主要是删除换行符,但可能还有更多)并将文本拆分为句子。我们已经在下图中看到,我的分割成单个句子的代码很容易出错,因为它会在每个点之后进行切割(请参见右下角的红线)。此类错误将在进一步的数据处理中传播,并且绝对应该在之前的 EDA(探索性数据分析)中识别出来,以便不仅可以建议优化,而且可以针对特定问题明确解决和评估。
图4:文本分割过程
接下来我想将最终的文本块放在一起。为此,我按照 Isaac Tham 的方法,将信息分为五个“句子”,每个句子都有一个句子重叠,以提供一些上下文(参见第 84 行和第 85 行)。我如何在整个文本中执行此操作如第 91 行所示(非常简单)。
图 5:文本分块过程
对于此示例文档,我们获得具有给定参数的 16 个文本块(参见下左图)。然后我嵌入这 16 个文本块(参见下图右侧)。Aleph Alpha 的嵌入大小为 5,120。
图 6:文本分块过程
聚类
对于聚类,我使用相对简单的 KNN,让我简单地帮助您找出轮廓分析的最佳选择。我将在另一篇博客文章中更详细地介绍如何更好地做到这一点。轮廓分析得出 k = 2。
图 7:最佳簇数
然后为每个文本块创建摘要,并将其合并到最终结果中(参见图 6)。在图 6 中,我们看到每个文本块的关联集群(第 2 列)和中间摘要(第 3 列)。下面以第 5 行的转换为例。
图 8:最佳簇数
创建摘要
通过这些初步工作,我们现在可以在最后一步中创建实际的摘要。图9中的结果输出后面有以下提示:
### 说明:请用一句话总结输入内容。
### 输入:{{document}}
### 响应:
这是一个相对简单、未优化的提示,因为这里的重点是转换路径。通过此提示,我得到了 k = 2 个集群,即文本片段和中间摘要,然后是两个摘要,可以在图 9 的控制台中看到。
图 9:最终总结
在本系列的第一篇博客文章中,我们研究了“迷失在中间”的现象(请参阅博客,第 1 部分)。出于兴趣,我想使用 Aleph Alpha 的解释功能再次探索这一点(见下图)。我们还可以在这里看到,集群 1 的最终摘要主要基于输入文本的第一部分。
图10:再次审视“迷失在中间”
在下图中,我使用另一个提示来创建引导摘要。关键问题和结果如图 11 所示(参见控制台)。
图 11:引导总结
整个代码可以在这里下载和试用
示例文档也位于存储库中,所使用的提示也是如此(请参见下图中间)。您所要做的就是使用您自己的代币,您可以自己尝试一下。
图 13:主要文件
总结与展望
在这个博客系列(顺便说一下,不是机器摘要)中,我试图在机器摘要中呈现转型之旅以及其间的所有问题。我仍然很浅薄,但我们将更深入地研究我们在以下博客中没有更详细地讨论的各个步骤,并通过更具代表性的研究来讨论它们。在那之前,我建议阅读由 Huan Yee Koh、Jiaxin Ju、Ming Liu 和 Shirui Pan 于 2022 年撰写的《长文档摘要的实证调查 – 数据集、模型和指标!》。在我看来,这份出版物非常干净和全面。她提出正确的问题,并以科学严谨的态度追寻这些问题。
您想了解更多关于 adesso 世界中令人兴奋的话题吗?那么请看一下我们之前发布的博客文章。
同样有趣的是:
智能信息收集:用于获取企业知识的会话代理
欧洲大型语言模型快速入门:Aleph Alpha 的 Luminous
大语言模型自动文档处理简介
通过 R 使用 Aleph Alpha Luminous 机器生成文本摘要
通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要,第 2 部分
我们的例子
我选择图1中的文档作为示例。这是一项可公开查阅的社会法院裁决。它总共由 7 页组成。
图1:测试文档摘要
下表比较了不同库的示例文档页面的令牌计数结果。左侧是 OpenAI 分词器的输出(带换行符和不带换行符)。右侧是 Aleph Alpha 的分词器(带换行符和不带换行符)的输出。
OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较
图 2:OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较
首先引人注目的是不同的令牌总和(各自嵌入输出的特征也显着不同)。在 Aleph Alpha,它们往往高于 OpenAI(Tiktoken)。即使文本清理对于 OpenAI 库来说也没有太大改变,但对于 Aleph Alpha 库来说却意义重大。
图 3:不同代币数量
这是因为 OpenAI 库使用令牌而不是实际频率对多个换行符 克罗地亚 whatsapp 数据 进行编码。对于 Aleph Alpha 库,情况恰恰相反。由此可以推断,Aleph Alpha 需要更明确地工作。
数据预处理
下面我将介绍自动摘要的数据预处理。正如本博客文章的第二部分中已经描述的,我想将整个文本分成单独的文本块。首先,我将清理文本(主要是删除换行符,但可能还有更多)并将文本拆分为句子。我们已经在下图中看到,我的分割成单个句子的代码很容易出错,因为它会在每个点之后进行切割(请参见右下角的红线)。此类错误将在进一步的数据处理中传播,并且绝对应该在之前的 EDA(探索性数据分析)中识别出来,以便不仅可以建议优化,而且可以针对特定问题明确解决和评估。
图4:文本分割过程
接下来我想将最终的文本块放在一起。为此,我按照 Isaac Tham 的方法,将信息分为五个“句子”,每个句子都有一个句子重叠,以提供一些上下文(参见第 84 行和第 85 行)。我如何在整个文本中执行此操作如第 91 行所示(非常简单)。
图 5:文本分块过程
对于此示例文档,我们获得具有给定参数的 16 个文本块(参见下左图)。然后我嵌入这 16 个文本块(参见下图右侧)。Aleph Alpha 的嵌入大小为 5,120。
图 6:文本分块过程
聚类
对于聚类,我使用相对简单的 KNN,让我简单地帮助您找出轮廓分析的最佳选择。我将在另一篇博客文章中更详细地介绍如何更好地做到这一点。轮廓分析得出 k = 2。
图 7:最佳簇数
然后为每个文本块创建摘要,并将其合并到最终结果中(参见图 6)。在图 6 中,我们看到每个文本块的关联集群(第 2 列)和中间摘要(第 3 列)。下面以第 5 行的转换为例。
图 8:最佳簇数
创建摘要
通过这些初步工作,我们现在可以在最后一步中创建实际的摘要。图9中的结果输出后面有以下提示:
### 说明:请用一句话总结输入内容。
### 输入:{{document}}
### 响应:
这是一个相对简单、未优化的提示,因为这里的重点是转换路径。通过此提示,我得到了 k = 2 个集群,即文本片段和中间摘要,然后是两个摘要,可以在图 9 的控制台中看到。
图 9:最终总结
在本系列的第一篇博客文章中,我们研究了“迷失在中间”的现象(请参阅博客,第 1 部分)。出于兴趣,我想使用 Aleph Alpha 的解释功能再次探索这一点(见下图)。我们还可以在这里看到,集群 1 的最终摘要主要基于输入文本的第一部分。
图10:再次审视“迷失在中间”
在下图中,我使用另一个提示来创建引导摘要。关键问题和结果如图 11 所示(参见控制台)。
图 11:引导总结
整个代码可以在这里下载和试用
示例文档也位于存储库中,所使用的提示也是如此(请参见下图中间)。您所要做的就是使用您自己的代币,您可以自己尝试一下。
图 13:主要文件
总结与展望
在这个博客系列(顺便说一下,不是机器摘要)中,我试图在机器摘要中呈现转型之旅以及其间的所有问题。我仍然很浅薄,但我们将更深入地研究我们在以下博客中没有更详细地讨论的各个步骤,并通过更具代表性的研究来讨论它们。在那之前,我建议阅读由 Huan Yee Koh、Jiaxin Ju、Ming Liu 和 Shirui Pan 于 2022 年撰写的《长文档摘要的实证调查 – 数据集、模型和指标!》。在我看来,这份出版物非常干净和全面。她提出正确的问题,并以科学严谨的态度追寻这些问题。
您想了解更多关于 adesso 世界中令人兴奋的话题吗?那么请看一下我们之前发布的博客文章。
同样有趣的是:
智能信息收集:用于获取企业知识的会话代理
欧洲大型语言模型快速入门:Aleph Alpha 的 Luminous
大语言模型自动文档处理简介
通过 R 使用 Aleph Alpha Luminous 机器生成文本摘要
通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要,第 2 部分