下面的示例继承了前面的示例并展示了 Aleph Alpha Luminous 的结果：

suchona.kani.z · Post by **suchona.kani.z** » Thu Jan 16, 2025 4:20 am

输入文本：乌托邦描述其他条件，以批评现实社会或设计替代方案。他们可以很严肃，也可以很有趣。乌托邦现实的所有形式和参考都有其自己的位置。但我们想提倡一种特定的类型：应用乌托邦主义。

结果方法2：乌托邦、社会批判、另类设计、严肃、游戏

关键词和组合
如前所述，我们的最终关键词应该是上述两种方法结果的组合，从 Aleph-Alph 模型中提取的关键词具有最高优先级，而从其他方法中提取的关键词则被认为是补充。

如果从更广阔的角度来看关键词组合的任务，就会发现它是NLP领域贝宁 whatsapp 数据的文本相似度计算任务。最终结果包含方法 2 中的所有关键字以及方法 1 中与前面提到的语义不同的所有关键字。因此，通过评估单词之间的相似度，我们可以从方法1中选择与方法2中的所有关键字不同的单词。

文本相似度是两个文本之间语义关系的度量。有多种方法可以计算文本相似度，例如余弦相似度、Jaccard 相似度，或更高级的方法（例如词向量和 LLM）。然而，这些方法很复杂，需要很高的计算能力，并且通常适用于专注于确定文本相似度的任务。然而，一种简单且计算友好的方法来有意义地链接两个不同的单词列表更适合我们的需求。

因此我们开发了一个简单的解决方案来满足我们的需求，并在此介绍给您参考。如“方法”部分所述，方法 1 和 2 生成关键字列表。通过应用词干技术，从单词中删除前缀或后缀以获得其基本形式或词根形式，我们得到列表中每个单词的词干形式。任务只是从方法 1 中选择其词干形式未出现在方法 2 生成的词干单词列表中的每个关键字。这是我们针对这个问题的解决方案

管道描述
下图显示了我们用于关键字提取任务的管道。根据客户的建议，所有生成的关键字均使用 Aleph Alpha 模型进行选择。此外，方法 1 中提取的任何相关且尚未出现在方法 2 结果中的关键字均应包含在内。