ABBYY FineReader文件识别教程二( 二 )


?不应存在“垃圾”区域 , 这些区域中部分图片元素会被识别为文本或表格区域;
?这些区域应包含具有逻辑性的文本行 , 没有哪个符号同时处于几个区域 , 同一文本行也不会分割成两个文本区域;
?在原始文档中显示为表格的每个区域 , 都应选择为一个表格区域 , 这将有助于提高识别质量(例如 , 各行将被对齐) , 也更易于搜索与复制文本片段 。
如果原始文件中的一些图片不应保留 , 可以不选择这些区域:不要创建新的区域 , 要删除自动工具选中的这些区域 , 至少要删除检测错误的那些图片 。
2、所有信息都需要
【ABBYY FineReader文件识别教程二】如果文件不只包含一两列文本区域 , 而且最终将保存为电子图书格式(FB2、ePub或WORD、HTML等任何编辑格式) , 合理地选择表格和图片是极为重要的 。还需要决定如何处理彼此相邻的照片组 , 以及如何处理图片下方或上方的说明文字 。

推荐阅读