HyperAI超神经
Back to Headlines

如何微调视觉大语言模型以优化手写文本提取:Qwen 2.5 VL 在挪威物候学数据集上的应用

17 小时前

本文介绍了一项如何通过微调视觉语言模型(vLLM)来提高手写文档理解能力的研究。主要使用了 Qwen 2.5 VL 7B 模型来进行微调,目标是从一系列图片中提取手写文本,这在传统 OCR 引擎上难以实现。 背景 文章中的实验数据集包含了约 82000 张手写数字图像,这些图像从一张更大的表格中截取而来,每个单元格宽 81 到 93 像素,高 48 到 57 像素。这个数据集来源于挪威的物候学研究,记录了植物开花时间等环境变化指标,具有重要的气候研究价值。 动机与目标 物候学数据记录通常以手写方式保存在历史档案中,这些手写数据不易被传统的 OCR 引擎识别。现代视觉语言模型(VLM)在这种复杂的手写识别任务中表现出色。因此,本文通过微调 Qwen 2.5 VL 来提升其对手写文本的识别能力,从而为气候研究提供更多支持。 数据集问题 在初步测试中,Qwen 2.5 VL 基础版本在以下几个方面表现不佳: 1. “1” 和 “7” 的识别模糊:由于写法相似,模型容易混淆这两个数字。 2. 背景噪点干扰:一些图像中有明显的背景噪点,影响了 OCR 提取的准确性。 3. 单元格边界误识别:模型有时会将单元格的边界线误认为字符。 4. 括号和方括号的混淆:模型对手写中的括号和方括号区分不清楚。 5. 部分文字模糊:某些手写字符较为模糊,增加了识别难度。 微调过程 为了微调 Qwen 2.5 VL,作者采用了三步法: 1. 预测:使用基础模型预测一批图像,数量约为几百张。 2. 审查与修正错误:人工检查模型的预测结果,纠正错误标签。 3. 重新训练:利用修正后的标签重新训练模型,然后回到第一步继续循环。 关键步骤说明 预测:选择足够多的样本进行初步预测,但避免过多计算开销。 审查与修正错误:作者使用 Jupyter 笔记本环境方便地显示图像和标签,逐个校正错误。 重新训练:使用开源工具 Unsloth 进行监督微调(SFT),确保模型权重更新得当。 实验结果 通过多次迭代,最终的微调模型在四个测试集上的表现明显优于基础模型和 EasyOCR 引擎。具体来说,EasyOCR 在所有测试集上的表现都非常差,而基础 Qwen 2.5 VL 模型在三个测试集上的表现分别为 93%、95% 和 99%,已经相当不错,但微调后的模型进一步提升了识别准确率,在绝大多数情况下超过了 99%。 应用示例 微调后的 Qwen 2.5 VL 模型可以用来提取所有的表格文本,进而生成可用于分析的数据表。例如,作者展示了将树线数据提取并绘制在挪威地图上的效果,可以看到树线高度的分布变化与地理位置相符,越靠近海洋和北部地区,树线高度越低;向内陆则树线高度更高。 业内评价 业内人士对这项研究给予高度评价,认为视觉语言模型在手写文字识别领域的应用展示了其强大的适应性和灵活性。Findable 是一家专注于数据科学和机器学习的公司,本文作者 Eivind Kjosbakken 和 Lars Aurdal 均在其工作期间积累了丰富的数据注释和模型微调经验,这使得他们能够高效地完成此项研究。 Findable 的技术和科学贡献不仅在于提高了 OCR 的准确率,更在于将珍贵的历史手写数据数字化,为气候研究提供了新的视角和工具。这篇文章也强调了数据标注和检查的重要性,这一环节虽然不那么光鲜,但却对项目成功至关重要。

Related Links