在与文本无关的脱机
Posted: Sat Feb 08, 2025 4:46 am
各个手稿之间的差异,尤其是加洛林小写字母等书籍字体之间的差异,可以被认为相对较小,因此将 OCR 应用于这些字体应该会产生相当好的效果,尽管文本提取任务相对无趣,尤其是对于用这种字体写成的作品。这些文本大多是众所周知且经过充分研究的文本,通常已经经过严格编辑[4],或者是手稿中的差异可以被认为极小的文本,例如弥撒书。
基于这些假设,布伦瑞克工业大学通信工程研究所 (IFN) 和沃尔芬比特尔赫佐格·奥古斯特图书馆 (HAB) 之间的合作最初是基于这样的想法,即简单地逆转调查目的,不旨在通过对手稿图像的分析生成通过 OCR 获得的电子文本,而是过滤出书写中的特征来识别书写手写体。如果能够根据具体的特征(忽略无法量化的偏差源,例如抄写员的年龄和日常状况,或者书写材料和用具的状况)区分一个抄写员的笔迹,那么抄写员是谁这个重要的问题就可以自动解决。
这种文字的特征应包括字母大小和间距、字体密度、倾斜度等,但不一定像古典古文字学那样基于对人眼研究单个字母形式。本工作提出了基于不同基本原理的各种特征,例如字体轮廓、字体周期性的底层纹理和字体中的特殊关键点。
这一考虑现在可以用两种方式来解释:
一方面,可以尝试将一种文字与其他文字之间的差异联系起来,从而有助于回答手抄本学和古文字学的一个基本问题,即有多少抄写员为手稿的创作做出了贡献。
另一方面,关于文字或抄写员手稿特征的现有知识可用于检查其他数字化手稿是否可能相同或不同。然后就有可能识别这个脚本或其他手稿,或者确定差异,即假设不同的作者。如果相应地调整阈值,也应该能够将文字家族彼此区分开来,并且在适当的物质基础下,收集有关年代鉴定和本地化的线索。
为了回答这两个问题,设置阈值以及估计调查所依据的空间范围非常重要:阈值必须用于容忍微小的偏差。没有任何作家能够在手写文本中写出两个完全相同的字母形式。因此,过于仔细地观察调查对象只会发现差异,而不再发现任何相似之处。[5]空间范围很重要,因为本文中使用的算法总是考虑整个页面并从中计算特征向量。然而,同一页面上出现的差异,例如由于页面中间换手而导致的差异,是无法发现的。
识别准确率必须高于基于使用另一抄本手稿进行训练的定义阈值,才能被视为是同一位作者撰写了该手稿的迹象。因此,所提出的算法将为其他古文字学或抄本学发现提供支持或补充论据,以验证不确定的归属。作为回报,低于这个阈值应该允许对此类归因进行伪造的论据。
识别作者的流程链的典型结构与 OCR 的流程链结构并无不同。[6]第一步,对手稿的扫描图像进行预处理,以提取合适的特征。随后,在下一步中,获得合适的特征,这些特征用于最后一步进行分类。根据分类类型,可以查阅已知作者的参考文献。
本文的结构如下:在介绍之后,第 2 部分解释了 预处理步骤。随后,第 3 部分介绍了不同的特征提取方法。第四部分介绍了对历史文献中作者进行分类的不同任务,第五部分 展示了各种实验的示例结果 。
2.预处理
在预处理阶段,准备历史文献的扫描图像以进行作者识别。理想情况下,在此阶段之后,图像应该仅包含纯文本,例如二进制图像的形式(文本黑色,书写材料白色)。然而,由于文件老化,页面图像上存在各种污染,例如水渍(见图2)或从背面透出的文字,这使预处理变得复杂。此外,此类文献的空白处经常包含其他作者的添加内容。不同形状的装饰品也会使自动特征提取变得复杂。为了改进正文字体特征的分配,第一步确定正文的区域。图 1(左)显示了一份带有许多评论的阿拉伯历史文献页面的示例。[7]
下一步,将主文笔迹与背景分离(分割),以获得纯净的、尽可能不受干扰的笔迹版本。为此,使用二值化,将彩色输入图像转换为二进制图像。图 1(中间和右边)显示了使用最先进的二值化方法进行此类分割的示例。[8]尽管有水渍,字体仍能成功分割。只有红色字体分割得不够好。为了在这种情况下成功分割字体,可以使用特殊的颜色分割算法。[9]
图 1:阿拉伯历史文献的正文和多条评论的页面(左);使用二值化进行手写分割的示例:初始图像的一部分(中间)和二值结果图像(右)(来源:作者)。
图 1:阿拉伯历史文献的页面,包含正文和许多评论(左);使用二值化进行手写分割的示例:初始图像的一部分(中间)和二值结果图像(右)(来源:作者)。
3.特征提取
二值化之后,进行特征提取。此阶段的目标是从笔迹中生成识别特征,以识别作者。一般来说,微观特征和宏观特征有所区分。微特征体现了笔迹的精细特点。一个例子就是基于字素的方法。[10]相比之下,宏观特征则试图确定作家写作的整体特征。本文重点讨论第二类特征。为整个文本块生成一个特征向量,其中包含有关作者写作风格的全局信息,例如写作的倾斜度或曲率。下面根据轮廓、纹理、关键点提取的不同基本原理来介绍不同类型的特征。
3.1 基于轮廓的特征
基于轮廓的特征使用了作者笔迹轮廓中包含的角度分布的统计数据。[11] 在二值图像中,该分布是使用轮廓跟踪确定的。该角度是测量两个具有给定距离的轮廓点的连接线与水平轴之间的角度。字体的所有确定的角度都收集在角度直方图中。然后将其标准化为概率密度分布,最终用作特征向量。还有两个不同作者确定的概率密度分布的例子。这些分布采用对数极坐标表示。同一作者撰写的两篇不同文本的结果以图表形式输入。尽管文本不同,但分布仅略有变化。然而,不同作家的分布却存在很大差异。
使用两个轮廓点之间的固定距离进行角度测量。[12]作为一种修改,在《历史阿拉伯文献作者识别》 中提出了一种用于角度测量的可变距离,可以使用错误标准自动确定。[13]这样的调整使得轮廓的近似值更加准确。
3.2 基于纹理的特征
在使用定向基本图像特征的自然图像字符识别中,提出了“定向基本图像特征”特征,该特征基于像素局部邻域中的对称性和方向来描述纹理。[14]这是一种基于高斯滤波图像差异图像的多尺度方法。为了达到此目的,我们使用不同顺序和方向的过滤器。基于这些差异图像,构建了七个对称特征。其中一些对称特征可被指定一个方向。其余特征是旋转不变的。输入图像的像素 孟加拉国电报数据
的对称特征、方向和缩放级别的所有出现的组合被再次组合以形成直方图。在标准化为概率密度函数后,这也会得到一个特征向量。[15]
3.3 基于关键点的特征
这些特征基于尺度不变特征变换 (SIFT) 描述符。[16]这些也是基于不同尺度的高斯滤波图像之间的差异。与 Oriented Basic Image Features 相反,使用确定的差异图像的局部极值来检测关键点。这些关键点通过环境中的梯度被分配一个方向(图 2,左)。随后,还根据关键点周围有限区域内的局部方向和梯度幅度确定描述子(图 2,右)。
对于手写,在交叉点、弯曲处和峰值处检测关键点。根据文本块中所有描述符的距离,得出一个特征向量。[17]这些距离提供了有关关键点周围的方向和梯度大小之间的关系的信息,从而提供了有关作者写作风格的信息。
图 2:手稿关键点的示例。圆心表示关键点的位置,直径表示尺度,方向由线给出(左)。已确定关键点的描述(右)(来源:作者)。
图 2:手稿关键点的示例。圆心表示关键点的位置,直径表示尺度,方向由线给出(左)。已确定关键点的描述(右)(来源:作者)。
4.分类
在历史文献作者识别领域可以识别各种分类任务。本研究重点关注三项分类任务:手稿内部作者分析、两份手稿的直接比较以及作者不详的手稿的一对多分类。下面将解释这些程序,特别强调多页文档的分类。一般来说,我们会为文档的每一页提取一个特征向量。距离度量通常用于比较两个特征向量。
基于这些假设,布伦瑞克工业大学通信工程研究所 (IFN) 和沃尔芬比特尔赫佐格·奥古斯特图书馆 (HAB) 之间的合作最初是基于这样的想法,即简单地逆转调查目的,不旨在通过对手稿图像的分析生成通过 OCR 获得的电子文本,而是过滤出书写中的特征来识别书写手写体。如果能够根据具体的特征(忽略无法量化的偏差源,例如抄写员的年龄和日常状况,或者书写材料和用具的状况)区分一个抄写员的笔迹,那么抄写员是谁这个重要的问题就可以自动解决。
这种文字的特征应包括字母大小和间距、字体密度、倾斜度等,但不一定像古典古文字学那样基于对人眼研究单个字母形式。本工作提出了基于不同基本原理的各种特征,例如字体轮廓、字体周期性的底层纹理和字体中的特殊关键点。
这一考虑现在可以用两种方式来解释:
一方面,可以尝试将一种文字与其他文字之间的差异联系起来,从而有助于回答手抄本学和古文字学的一个基本问题,即有多少抄写员为手稿的创作做出了贡献。
另一方面,关于文字或抄写员手稿特征的现有知识可用于检查其他数字化手稿是否可能相同或不同。然后就有可能识别这个脚本或其他手稿,或者确定差异,即假设不同的作者。如果相应地调整阈值,也应该能够将文字家族彼此区分开来,并且在适当的物质基础下,收集有关年代鉴定和本地化的线索。
为了回答这两个问题,设置阈值以及估计调查所依据的空间范围非常重要:阈值必须用于容忍微小的偏差。没有任何作家能够在手写文本中写出两个完全相同的字母形式。因此,过于仔细地观察调查对象只会发现差异,而不再发现任何相似之处。[5]空间范围很重要,因为本文中使用的算法总是考虑整个页面并从中计算特征向量。然而,同一页面上出现的差异,例如由于页面中间换手而导致的差异,是无法发现的。
识别准确率必须高于基于使用另一抄本手稿进行训练的定义阈值,才能被视为是同一位作者撰写了该手稿的迹象。因此,所提出的算法将为其他古文字学或抄本学发现提供支持或补充论据,以验证不确定的归属。作为回报,低于这个阈值应该允许对此类归因进行伪造的论据。
识别作者的流程链的典型结构与 OCR 的流程链结构并无不同。[6]第一步,对手稿的扫描图像进行预处理,以提取合适的特征。随后,在下一步中,获得合适的特征,这些特征用于最后一步进行分类。根据分类类型,可以查阅已知作者的参考文献。
本文的结构如下:在介绍之后,第 2 部分解释了 预处理步骤。随后,第 3 部分介绍了不同的特征提取方法。第四部分介绍了对历史文献中作者进行分类的不同任务,第五部分 展示了各种实验的示例结果 。
2.预处理
在预处理阶段,准备历史文献的扫描图像以进行作者识别。理想情况下,在此阶段之后,图像应该仅包含纯文本,例如二进制图像的形式(文本黑色,书写材料白色)。然而,由于文件老化,页面图像上存在各种污染,例如水渍(见图2)或从背面透出的文字,这使预处理变得复杂。此外,此类文献的空白处经常包含其他作者的添加内容。不同形状的装饰品也会使自动特征提取变得复杂。为了改进正文字体特征的分配,第一步确定正文的区域。图 1(左)显示了一份带有许多评论的阿拉伯历史文献页面的示例。[7]
下一步,将主文笔迹与背景分离(分割),以获得纯净的、尽可能不受干扰的笔迹版本。为此,使用二值化,将彩色输入图像转换为二进制图像。图 1(中间和右边)显示了使用最先进的二值化方法进行此类分割的示例。[8]尽管有水渍,字体仍能成功分割。只有红色字体分割得不够好。为了在这种情况下成功分割字体,可以使用特殊的颜色分割算法。[9]
图 1:阿拉伯历史文献的正文和多条评论的页面(左);使用二值化进行手写分割的示例:初始图像的一部分(中间)和二值结果图像(右)(来源:作者)。
图 1:阿拉伯历史文献的页面,包含正文和许多评论(左);使用二值化进行手写分割的示例:初始图像的一部分(中间)和二值结果图像(右)(来源:作者)。
3.特征提取
二值化之后,进行特征提取。此阶段的目标是从笔迹中生成识别特征,以识别作者。一般来说,微观特征和宏观特征有所区分。微特征体现了笔迹的精细特点。一个例子就是基于字素的方法。[10]相比之下,宏观特征则试图确定作家写作的整体特征。本文重点讨论第二类特征。为整个文本块生成一个特征向量,其中包含有关作者写作风格的全局信息,例如写作的倾斜度或曲率。下面根据轮廓、纹理、关键点提取的不同基本原理来介绍不同类型的特征。
3.1 基于轮廓的特征
基于轮廓的特征使用了作者笔迹轮廓中包含的角度分布的统计数据。[11] 在二值图像中,该分布是使用轮廓跟踪确定的。该角度是测量两个具有给定距离的轮廓点的连接线与水平轴之间的角度。字体的所有确定的角度都收集在角度直方图中。然后将其标准化为概率密度分布,最终用作特征向量。还有两个不同作者确定的概率密度分布的例子。这些分布采用对数极坐标表示。同一作者撰写的两篇不同文本的结果以图表形式输入。尽管文本不同,但分布仅略有变化。然而,不同作家的分布却存在很大差异。
使用两个轮廓点之间的固定距离进行角度测量。[12]作为一种修改,在《历史阿拉伯文献作者识别》 中提出了一种用于角度测量的可变距离,可以使用错误标准自动确定。[13]这样的调整使得轮廓的近似值更加准确。
3.2 基于纹理的特征
在使用定向基本图像特征的自然图像字符识别中,提出了“定向基本图像特征”特征,该特征基于像素局部邻域中的对称性和方向来描述纹理。[14]这是一种基于高斯滤波图像差异图像的多尺度方法。为了达到此目的,我们使用不同顺序和方向的过滤器。基于这些差异图像,构建了七个对称特征。其中一些对称特征可被指定一个方向。其余特征是旋转不变的。输入图像的像素 孟加拉国电报数据
的对称特征、方向和缩放级别的所有出现的组合被再次组合以形成直方图。在标准化为概率密度函数后,这也会得到一个特征向量。[15]
3.3 基于关键点的特征
这些特征基于尺度不变特征变换 (SIFT) 描述符。[16]这些也是基于不同尺度的高斯滤波图像之间的差异。与 Oriented Basic Image Features 相反,使用确定的差异图像的局部极值来检测关键点。这些关键点通过环境中的梯度被分配一个方向(图 2,左)。随后,还根据关键点周围有限区域内的局部方向和梯度幅度确定描述子(图 2,右)。
对于手写,在交叉点、弯曲处和峰值处检测关键点。根据文本块中所有描述符的距离,得出一个特征向量。[17]这些距离提供了有关关键点周围的方向和梯度大小之间的关系的信息,从而提供了有关作者写作风格的信息。
图 2:手稿关键点的示例。圆心表示关键点的位置,直径表示尺度,方向由线给出(左)。已确定关键点的描述(右)(来源:作者)。
图 2:手稿关键点的示例。圆心表示关键点的位置,直径表示尺度,方向由线给出(左)。已确定关键点的描述(右)(来源:作者)。
4.分类
在历史文献作者识别领域可以识别各种分类任务。本研究重点关注三项分类任务:手稿内部作者分析、两份手稿的直接比较以及作者不详的手稿的一对多分类。下面将解释这些程序,特别强调多页文档的分类。一般来说,我们会为文档的每一页提取一个特征向量。距离度量通常用于比较两个特征向量。