4.2 词语用法记录
综合出版和文献系统的第二个组成部分用于描述和记录词语的使用情况。在这里,我们主要描述对于第一次妇女运动相关论述中的交流目标十分重要的词汇手段。仅举三组例子,其中包括表示核心诉求的术语(“妇女选举权”)、可以分配给某些思维模式和基本假设的术语(例如“领域”、“炉边”),甚至是辩论词汇(例如“妇女风暴”在 1900 年左右的《民法典》请愿书中作为反对者的贬义词)。
词汇描述的核心是结构化的词语文章,其中词语的个别用法(阅读)按词典顺序描述,并与文本用法提供适当的证据关联。此外,各个意义位置在内部由描述符标记,从而可以对词语用法进行主题、功能、群体特定等的解释。
下面我们从这样的一篇文章中摘录一段: 按照TEI-P5的规范,基本信息项可以分为形式描述和含义描述。形式信息包括词根(更准确地说是词根符号形式信息)和语法信息,意义描述包括读物、意义释义和证据以及不同使用维度的标记(例如,方言特征、论证思想体系要点的引用)。如果可以通过持久标识符清楚地引用原始文本,则可以通过参考信息链接到全文。这些标记不仅可以系统地探索词语的使用,还可以将表达方式的个别用法与研究中处理相应方面(例如,词语形成或特定的思维体系)的段落联系起来。名词 Herd的用法指的是系统位置 »差异假设«,在印刷中看起来像这样:
然而,链接不仅仅可以从文章这个词中想象出来。相反,可以使用关键词和(如果适用)使用计数从专题介绍中引用文章或文章的部分内容。我们采用了阿尔弗雷德·席尔默 (Alfred Schirmer) 在其《商人语言词典》 (1911)中提出并随后通过印刷手段实现的一种表现形式。通过将单词文章中的参考文献逐页逐行地链接到全文,我们通过添加词典学组件和全文链接 扩展了传统的话语分析表示形式[11] 。
词汇文献的另一个重要目标是使结果和发现能够系统地“供当前和未来的词典项目使用”,例如在 DWDS、IDS 或学院。为此,有必要设计适当的编码方案(对于 XML 来说,这些将是 XML 模式),以便通过接口自动实现与这些项目的连接。一个例子就是上面列出的有关炉子的文章。本文已翻译成 DWDS 的研讨会语言(见图5)。[12]就词典学特征而言,可以无损转换为TEI-P5标准。但是,可以通过定制 TEI-P5 来映射元数据(例如源和时间戳)。使用元素<reference>、<target_url> 和<target_reading>, Tef 词典中的文章可以直接引用 DWDS 词典中相应文章的阅读编号 1(图 5)。
图 5:与 DWDS 词典的连接(来源:Alexander Geyken)。
图 5:连接到 DWDS 词典(来源:Alexander Geyken)。
4.3 语言与交流相关的研究成果
理想情况下,只要不与其他要求冲突,关于词语使用和交流方面的研究结果也是数字文档的一部分。这些展示包括,例如,关于某些讨论领域(例如妇女选举权)的资格论文、关于研究的各个方面(例如词汇形成)的论文式展示,以及对个别文本的介绍和评论研究。上文已经提到了词汇文献方向研究的网络潜力。相反,也可以从词汇文献中引用研究的特定章节,只要这些文本部分被引用并且可以通过锚点来处理。我们给出一个示意性示例(图6)。
图 6:词语使用文献、研究与全文之间的联系。 (插图作者:Thomas Gloning)。
图 6:词语使用文献、研究与全文之间的联系。 (插图作者:Thomas Gloning)。
我们现在离开数字化集成结果文档领域,并开始讨论如何通过数字方式支持代表项目科学核心的语言和通信相关调查的问题。
5. 数字化支持调查的可能性
我们的主要目标不是扩展数字人文(DH)在›前卫›应用领域的可能性。我们主要感兴趣的问题是如何通过应用 DH 资源和工具来支持专业定义的目标。为了批判性地审视增值承诺,我们还对 DH 方法的典型困难及其适用性、实用性和效率的局限性感兴趣。
我们的问题和目标一方面是针对项目的,但它们也具有示范性。我们还认为我们的主题对于整个面向话语、语用和词汇学或历史语义问题以及相关数字文本语料库和工具的使用具有代表性或典型性。因此,这是此类人文项目对 DH 数据使用方法提出的要求的典型案例。
这里我们首先总结一下 DH 方法的基本应用,这些方法在语料库语言学和文本技术中的实用性是无可争议和被广泛接受的。
5.1 数字文本
数字文本以及相关的索引工具和研究方法主要用于词汇分析领域。该领域的技术目的包括但不限于用法的区分及其语义描述、词语的特定话语功能的确定、词语形成的上下文的确定以及文本、文本组内的频率关系的评估,同时也包括以参考语料库为背景。
5.2 标记和注释的形式
标记和自动注释的形式——无论它们在标准化、互操作性和可重用性方面发挥什么作用——最初在狭义的技术利益方面起着更中介或准备的作用,例如在组合查询中需要考虑词性以及使用词性标记。使用自动工具,可以对词形进行词形还原,必要时还可以分解,识别专有名词,使用同义词库进行语义标记,还可以使用多个解析器来创建句法注释,这些解析器还可用于分析构造模式等。
然而,更高质量的注释形式,特别是要保证可靠性,仍然必须手动创建。其中特别包括:
在词汇文献的上下文中标记用法,涉及所讨论表达用法的语义、交流和论证方面(它使词汇的复杂性变得易于管理和易于查询;例如“查找所有与贬义定义相关的人名”);
隐喻形式和其他修辞或修辞词汇策略的区别;
不同类型的论点的区别及其在更大的论证背景中的作用;
识别特定的话语现象,如对立文本或支持文本的互文引用。
该领域的挑战包括相关文本部分的大小可能有很大差异,并且文本组织的不同参数也会导致注释结构重叠,因此无法在 XML 中内联编码。然而,注释结构重叠的问题可以通过独立和多层次的方法解决,例如在 ANNIS 或 WebAnno 等系统中。
5.3 编辑索引
话语主题的数字化编辑开发也是专业任务之一,可以以注释性、主题性专题语料库的形式完成,以实现文本的可持续和多样化可用性。
5.4 词汇形式及词语用法分析
主要的支持形式还包括使用语料库语言学和词典学工具来处理、评估和比较数字文本。重点是语义方面、话语特定词汇的使用情况问题、话语特定词汇领域的形态关系、频率关系和频率发展以及 TeF 语料库文本与当代参考语料库的比较。
5.5 辩论或争议的可视化
论证方法或争议可视化是我们尚未测试的领域,但我们正在考虑它们对历史辩论的适用性。[13]
6. 与CLARIN-D基础设施项目的连接设施环境(在我们的案例中是 Clarin-D)的连接。它涉及(i)TeF 语料库和(ii)词汇文献。
6.1 德语文本档案馆的 TeF 语料库
柏林-勃兰登堡科学与人文学院 (BBAW) 语言中心是 Clarin-D 网络的合作伙伴,因此致力于标准化、可持续性、互操作性和可自由重用性的目标。 BBAW 语言中心的另一个组成部分是德语文本档案馆 (DTA),该档案馆旨在高质量地记录重要的历史全文,为研究古代现代高地德语提供参考语料库。该项目与 DTA 的合作为双方带来了益处:该项目获得了其自身无法获得的语言技术专业知识;相反,通过此次合作,DTA 可以说获得了来自之前严重缺乏代表性的特定语言使用领域中的新文本。
每个项目都“重新发明轮子”,而且往往落后于既定的数据管理标准。然而,这种合 阿塞拜疆电报数据 作需要像 DTA 这样的机构能够长期作为历史文献的中央科学机构和新项目的联络点(并获得相应的资金)。
6.2 词汇文档接口
Clarin-D 项目涉及多个中心,其任务包括数字词汇资源的可持续维护。这里特别值得一提的是德语研究所(曼海姆)和德国德语词典协会(柏林)的一个长期项目——数字词典办公室。
像我们这样的项目旨在生成和记录特定的词汇结果,可以有以下要求:
(i) 以符合 Clarin-D 项目网络中制定的最佳实践指南的结构化形式准备词汇文档。对于源文本而言,这意味着元数据和文本数据必须采用 DTABf 格式。
(ii) 对于文件的内部联网而言,特别重要的是在页面、段落以及必要时在行级别提供清晰且实际可寻址的引用,这些引用也可用于外部系统的接口。通过这种方式,我们在专题研究中记录的研究结果也可以通过更一般的演示以数字方式访问。例如,有关妇女选举权讨论的词汇文献也可以从 DWDS、IDS 页面或 woerterbuchnetz.de 访问和链接。
7. 总结与展望
本文的目的是概述早期妇女运动中语言使用和交流形式方面正在进行和计划进行的工作。我们首先解释了话语组织、行动和论证形式以及词语使用领域中最重要的技术问题,然后试图展示电子人文或 DH 工具在结果记录和技术导向调查中可以发挥什么作用。