Page 1 of 1

教学语言和大学教学语言都没有标准

Posted: Sat Feb 08, 2025 4:10 am
by Bappy11
媒体变革是欧洲现代化的标志之一。文化科学和历史科学都研究它的起源和影响。但新媒体并不总是能立即受到热烈欢迎。因此,尽管数字化历史的优势和必要性早已被指出,但部分历史研究界仍然将数字化变化视为一种威胁性的发展。[1]数字历史不仅要面对随后数字化的资料来源的挑战(就像下面介绍的项目一样),而且还要面对数字化原生数据的问题。向纯电子生成文本的发展有其自身的后果,这不仅反映在关于学生明显丧失阅读技能的争论和对通过数字化源语料库进行更具预选性的来源选择的批评中,也反映在新方法是否从根本上改变了历史学科的身份或是否仍然可以被人文学者理解,即可解释的方面。当将这些大问题分解成各个部分时,它们可能更容易讨论。因此,本文旨在使用一个特定的工具——主题建模,来探讨数字人文学科(DH)及其子类目——数字历史,对于历史学科来说,是否具有革命性、新颖性和开创性,还是仅仅是另一种工具。尽管主题建模越来越受欢迎,尤其是在文学研究和计算语言学领域,但来自德语历史科学的应用实例仍然很少,尤其是在需要检查大型语料库时。[2] 作为一个例子,这里对两个项目进行了比较:对当代科学出版物中关于 1859 年发明的光谱分析的讨论的分析和“儿童世界”项目。 1850 年至 1918 年间学校和儿童读物中的世界知识和解释。[3]但是,首先,本节简要讨论了历史背景下的主题建模以及主题和技术之间的相互关系。然后,在第 1.2 节中,介绍了主题建模的技术基础和各种项目,并提到了细节和差异。本文主要在主体部分,首先对“光谱分析”项目进行阐述,然后介绍“儿童世界”项目。第三部分根据与本文提出的主题建模方法相对应的工作步骤(语料库形成、训练集、主题创建、机器学习、验证、结果)进行比较和评估,然后在摘要中做出(初步)判断,对本文进行总结。这种基于两个项目的比较方法导致了呈现上的一定冗余和主题的平行化;然而,我们已尽可能地尝试避免这种情况。

主题建模的一个基本要求是良好的OCR。这项工作在实际计算之前就已经开始了;不过,良好的 OCR 的基础知识不是本文的主题。相反,这里的重点将放在历史学家提出的具体问题与主题建模的发展和改进之间的相互作用上:不同类型的来源对主题的创建有何影响(哪些更适合,哪些不太适合)?以及如何将这些主题融入历史分析中?

1.1 历史部分
传统上,历史科学在与新方法的互动中产生新的问题。然而,主题模型的使用只有在存在特定问题时才有意义——数据本身并不能说明什么,它只能在有限的范围内与“用户”对话。年鉴学派以及历史社会研究都是早期尝试,旨在获取大量数据并开发新类型的历史问题资料来源。两者都经常提及日常历史话题。人们对计算机技术很早就抱有希望,但这些希望很少能够实现。[4]社会史终结之后的文化史转向,带来了统一高雅文化和日常史的尝试。然而,由于这意味着必须访问更大的资源,DH 提供了一种出路,这种希望特别与“远距离阅读”的概念相关。[5]人们期望现在终于可以快速、轻松地研究当时流行的、被先前专注于高雅文化的研究所忽略的大量文献,从而获得新的见解。与此同时,数字化工作不仅在保护知识库存的背景下得到推进,而且在政治上也希望自由获取“公共”知识库存。但推动数字化发展的不仅仅是看似更大的需要从中筛选信息的数据集。由于20世纪70年代以来理论的变化,话语成为研究的对象。在这里,主题建模可以为在所研究的文本中寻找论述提供一个起点。[6] 主题模型是为了在大量数据中搜索相关信息而开发的;无论它是文本还是脱氧核糖核酸(DNA)——这也许是许多人文学者对这一过程持一定怀疑态度的原因之一。然而有趣的是,主题建模的多功能适用性的论点在最近的人文学科的贡献中不再被强调;这要么表明该程序的起源在短时间内被压制,要么表明由于战略原因不再提出这一论点。尽管有这种明显的缓解,但主题建模在当前的历史研究中还没有完全实现;目前德语版的关于该主题的介绍就表明了这一点,尽管这些介绍也假设了当前的研究趋势。[7]关于使用主题模型的意义和可能性的大部分争论都是在博客中进行的。[8]历史学家抵制的常见原因是“对量化和经验方法的怀疑态度根深蒂固”,因为每一位人文学者都想在原始资料上测试自己的问题,但这也往往会抵制过于清晰的解释。[9]问题在于如何产生知识,以及产生什么知识。

获取超越已知文本的知识的问题是这里提出的两个项目的重点。两者都关注知识问题:有关光谱分析的哪些知识被传播、何时传播、以何种形式传播?那么,19 世纪末的孩子们从教科书上学到了什么关于世界的知识呢?要回答这两个问题,必须查阅大量且多样化的资料。主题建模旨在帮助更快地找到特定文档,并过滤掉调查期间的主题和趋势的变化。

在这方面,这里提出的方法为展示主题建模的优点和缺点提供了差异化的比较层次,因为这里提出了针对两种不同语言语料库的两种不同方法 - 以及由此产生的不同问题。在这方面,它们也与该主题的其他当前出版物不同。在过去的两年中,仅该期刊就发表了两篇有关主题建模的文章。 Peter Andorfer 还致力于主题建模的自动化程序研究。[10]他描述了手动主题创建和分配与自动化主题创建和分配的比较,以及这两种方法的优缺点。在他的结论中,他最终更喜欢自动化程序。 Jörg Wettlaufer 的文章“通过数字化历史科学获得新见解?”也涉及主题建模,但重点不同。我们在那里讨论了不同的 DH 方法对于历史研究有多么有用。他研究了三个方法领域——手写文本识别、可视化和网络分析、语义技术——对历史研究的实用性。他简要提到了主题建模,特别是作为科学史和“古代语言语料库”的工具。[11]

但一个特殊的问题应该引出本介绍的技术部分。在 19 世纪,化,这对主题建模的基础模型来说是一个挑战。尽管教科书的问题在于必须在重复的语言图像中找到“异常值” - 并且确实存在一些 - 但关于光谱分析的科学辩论创造了自己的标准化词汇。这是一个经常被忽视的点,尤其是在动态主题建模等方法中。借助动态主题建模,您可以识别科学发展和主题设置,例如通过查看排名中单个单词的变化。[12]其基本程序似乎是将主题定义术语“分布”在所研究的时期内,因为它假定它们在整个时期内都存在。[13]

1.2 技术部分
总体而言,主题建模被认为是一种技术上相对简单、从属的过程。由于方 阿根廷电报数据 法最简单,因此研究中最常见的方法是基于潜在狄利克雷分配 (LDA),该方法主要由 David M. Blei 开发。[14]它是“工具箱”MALLET 的基础,该工具箱也在《儿童世界》中使用。[15]如上所述,主题建模用于查找文本中的主题或话语。它使用统计方法将每个词与其他词关联起来,以测量出现的频率,从而建立词之间的关系。计算单词时不考虑其顺序或出现次数。[16]各个主题以及其中包含的每个单词都可以进行“排序”。根据文本的类型和体裁,这可能会导致诸如“爱情”之类的抽象主题,也可能会出现诸如“法国大革命”这样的具体主题,作为历史事件。

然而,该过程很大程度上取决于原始数据的质量。经过 OCR 处理的文档的正确率至少达到 98% 被视为先决条件。迄今为止的一个主要障碍是 Fraktur 文本的识别率较低。[17] 19 世纪语言的电子词典和在线数据库也缺乏,这将有助于纠正 OCR 错误以及词形还原、词干提取和标记化。[18]因此,“儿童世界”项目没有包括任何拼写规范化。

这两个项目对主题的创建处理方式不同。在《儿童世界》项目中,历史学家必须借助外部资源来计算主题。虽然这在数学和技术方面确保了更高的可靠性,[19]但重复的计算总是需要在团队内部进行讨论,并就各个工作步骤达成一致。而“光谱分析”项目则只能依赖其“正常”资源——在这里就是它自己的计算机——但因此更接近许多人文学者的工作现实。为了达到高质量水平,我们不依赖复杂的机器处理,而是主要依赖通过仔细阅读获得的信息进行主题建模。然而,对于这两个项目来说,这意味着无法对所有所需的子语料库进行无限制次数的测试运行;该过程在一定程度上仍未受到监控。这个问题一方面源于技术设备(计算机能力、IT 知识),另一方面也源于项目结构本身(跨学科工作)。这触及了主题建模的另一个重要学科不安点。许多人文学者不仅不了解主题建模背后的数学模型,而且开发人员本身也无助于用模棱两可的陈述来减少这种不信任。[20]