LLM 幻觉通常是语言模型试图根据它们没有明确记住或看到的信息生成知识的结果。因此,合理的解决方案是让 LLM 访问精心挑选的高质量上下文信息知识库,使他们能够生成更准确的响应。高级基础和提示增强技术可以帮助解决与 LLM 性能相关的许多准确性和可靠性挑战。这两种技术都依赖外部知识源来动态生成上下文。
基础训练确保 LLM 能够访问最新的、特定于用例的信息源,从而提供仅从训练数据中可能无法获得的相关上下文。同样,提示增强功能可通过上下文相关信息增强提示,从而使 LLM 能够生成更准确、更相关的输出。
事实基础是一种通常在训练前阶段使用的技术,用于确保 LLM 在各种任务中的输出与事实陈述知识库一致。训练后基础依赖于一系列外部知识库,包括 奥地利手机数据 文档、代码存储库以及公共和专有数据库,以提高 LLM 在特定任务上的准确性和相关性。
检索增强生成 (RAG) 是一个独特的框架,用于基于从外部知识库检索到的最准确、最新的信息对 LLM 进行训练后打基础。RAG 框架能够从三个关键维度优化生物医学 LLM 的输出。第一,访问有针对性的外部知识源可确保 LLM 的内部信息表示使用最新和上下文相关的数据进行动态刷新。第二,访问 LLM 的信息源可确保验证响应的相关性和准确性。第三,RAG 框架有望从文本扩展到多模态知识检索,涵盖图像、音频、表格等,从而进一步提高 LLM 的真实性、可解释性和复杂性。
另请阅读:检索增强生成 (RAG) 如何改变药物发现
与独立的生成式 AI 相比,检索增强生成面临的一些关键挑战包括初始实施成本较高。但从长远来看,RAG-LLM 组合的成本将低于频繁微调的 LLM,并且是缓解 LLM 幻觉的最全面方法。
通过 LENS ai ™实现集成智能
整体生命科学研究需要多种创新技术和框架的复杂协调。LENS ai Integrated Intelligence 是我们下一代以数据为中心的 AI 平台,它将一些最先进的专有技术流畅地融合到一个无缝解决方案中,为端到端的药物发现和开发提供支持。
LENS ai 将 RAG 增强型 bioLLM与本体驱动的 NLP 框架相结合,结合神经符号逻辑技术来连接和关联语法(多模态序列和结构数据)和语义(生物功能)。全面且不断扩展的知识图谱,在 6.6 亿个数据对象中映射了惊人的 250 亿个关系,链接了整个生物圈的序列、结构、功能和文献信息,以全面概述基因、蛋白质、结构和生物途径之间的关系。我们用于集成、探索和分析异构生物医学数据的下一代统一知识驱动方法使生命科学研究人员能够探索药物发现和开发新机会所需的高科技能力。