Chronicles-OCR – 腾讯联合高校等推出的视觉感知评测基准

Al项目 2026-05-19 15:00:25 AI导航网

Chronicles-OCR是什么

Chronicles-OCR 是腾讯混元联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院共同推出的业界首个覆盖中国汉字”七体之变”完整演化轨迹的跨时间视觉感知评测基准,基准包含 2,800 张高质量图像,系统涵盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大字体,通过阶段自适应标注范式与四大评测任务,评估视觉大语言模型在面对数千年汉字形态持续演变时的感知鲁棒性。

Chronicles-OCR的主要功能

  • 七体全覆盖评测:完整覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大中国字体,构建从殷商到近现代的跨时间评测体系。

  • 阶段自适应标注:针对古文字(甲骨/金文/篆书)提供单字级边界框+现代汉字映射标注;针对成熟字体(隶/楷/行/草)提供序列级布局理解标注,适配不同历史阶段的形态差异。

  • 四大核心评测任务:支持跨时期字符定位、细粒度古文字识别、古文本解析、字体分类,全方位评估模型能力。

  • 视觉指代机制:通过彩色框标出图像中的目标字符,让模型进行识别,实现字符破译能力与空间定位能力的解耦评估。

  • 高质量专家标注:由古文字学博士、研究生及领域专家进行多层级交叉标注,确保字体分类、边界框定位和字符转录的高保真度。

  • 权威数据源整合:甲骨文来自安阳师范学院甲骨文信息处理重点实验室,金文/篆书由古文字学团队整理,隶/楷/行/草来自故宫博物院文物手写体识别测试数据集。

  • 模型鲁棒性诊断:系统评估视觉大语言模型在数千年汉字形态演化过程中的感知能力边界,揭示现代文档解析向历史书写系统泛化的关键瓶颈。

如何使用Chronicles-OCR

  • 访问开源仓库:前往 GitHub 仓库 https://github.com/VirtualLUOUCAS/Chronicles-OCR 获取数据集、论文及评测代码。

  • 下载数据集:获取包含 2,800 张图像的完整数据集,其中甲骨文、金文、篆书、隶书、楷书、行书、草书各 400 张,附带 JSON 或 XML 格式的标注文件。

  • 理解数据格式:阅读阶段自适应标注规范——古文字阶段(甲骨/金文/篆书)为单字级边界框坐标 + 现代汉字映射;成熟字体阶段(隶/楷/行/草)为序列级文本布局与阅读顺序标注。

  • 选择评测任务:根据研究目标从四大任务中选取:跨时期字符定位、细粒度古文字识别、古文本解析、字体分类

  • 准备被测模型:部署待评测的视觉大语言模型(VLLM),确保模型支持图像输入与文本输出能力。

  • 执行模型推理:将数据集图像输入模型,按任务要求输出对应结果(如边界框坐标、现代汉字转录、字体类别等)。

  • 运行评测脚本:使用仓库提供的官方评估代码,将模型输出与标准标注进行比对,自动计算各任务指标(如定位精度、NED 编辑距离、分类准确率等)。

  • 分析评测结果:对照基准报告中的模型表现数据,诊断被测模型在古文字感知、历史布局理解及字体演化认知上的能力边界与缺陷。

  • 引用与反馈:在相关研究论文中引用 arXiv:2605.11960v1,并可通过 GitHub Issues 向作者团队反馈使用问题或改进建议。

Chronicles-OCR的核心优势

  • 业界首创跨时间评测体系:首个系统覆盖汉字”七体之变”(甲骨文、金文、篆书、隶书、楷书、行书、草书)完整演化轨迹的视觉感知评测基准,填补了从殷商到近现代的时间跨度评测空白

  • 顶级学术机构联合背书:由腾讯混元联合中国科学院信息工程研究所、安阳师范学院甲骨文信息处理重点实验室、南开大学及故宫博物院共同推出,数据源与标注质量经过严格学术把关

  • 首创阶段自适应标注范式:针对不同历史阶段字体的剧烈形态变化,差异化地实现古文字阶段的单字级定位+映射与成熟字体阶段的序列级布局理解,评估维度更精准

  • 深度揭示模型能力边界:不仅提供评测数据,更系统性地揭示了当前主流 VLLMs 在古文字细粒度空间定位和语义破译上的灾难性失败,为模型优化提供明确方向

  • 权威数据源与专家级标注:甲骨文来自安阳师范学院专业实验室,金文/篆书由古文字学博士团队整理,隶/楷/行/草取自故宫博物院文物数据集,经多层级交叉标注确保高保真度

  • 视觉指代解耦评估机制:通过彩色框视觉指代,将字符级破译能力与空间定位能力解耦评估,精准诊断模型具体短板

  • 完全开源可复现:论文与数据集均已开源,便于学术界复现验证、对比评测及进一步拓展研究

Chronicles-OCR的同类竞品对比

对比维度Chronicles-OCRAncientDocACCID
发布机构腾讯混元、中科院信工所、安阳师范学院、南开大学、故宫博物院字节跳动、北京交通大学等学术研究机构(论文未明确单一机构)
数据集规模2,800 张严格平衡图像,七体各 400 张约 3,000 页古籍图像,来自 100+ 部古籍2,892 字符类别图像,含部首级标注
覆盖内容七大字体:甲骨文、金文、篆书、隶书、楷书、行书、草书14 类古籍文档(经史子集、医学、天文历算、楚辞等)古代汉字图像(侧重部首结构)
时间跨度约三千年(殷商至近现代)战国秦汉至明清古代汉字(未明确分期)
评测任务跨时期字符定位、细粒度古文字识别、古文本解析、字体分类页面级 OCR、白话翻译、推理 QA、知识 QA、语言变体 QA零样本字符识别、部首识别
标注粒度阶段自适应:古文字单字级边界框+现代汉字映射;成熟字体序列级布局页面级文本、问答对、翻译对字符级 + 部首级(含坐标、结构)
目标模型视觉大语言模型(VLLMs)视觉语言模型(VLMs)零样本 OCR / 深度学习模型
核心创新首创跨时间汉字演化评测、阶段自适应标注范式、视觉指代解耦评估首个古籍多任务评测基准,从 OCR 延伸至知识推理首创部首级精细标注,支持零样本学习

Chronicles-OCR的应用场景

  • 古文字智能识别:辅助甲骨文、金文等未完全破译古文字的自动化识别与专家校验,降低古文字学研究门槛。

  • 古籍数字化工程:对历代书法、碑帖、文献进行高精度 OCR 与结构化解析,推动文化遗产数字化存档。

  • 字体演化研究:用 AI 模型分析汉字从甲骨文到楷书的形态演变规律,支撑文字学、历史学跨学科研究。

  • VLLM 能力评测:作为标准化基准,评测和对比不同视觉大语言模型的跨时间感知能力与鲁棒性。

  • 文物信息提取:从青铜器铭文、竹简、帛书等文物图像中提取文字信息,辅助考古研究与文物鉴定。

  • 教育科普应用:用于汉字文化教学中的古文字识别演示与字体演变可视化,增强公众对汉字历史的认知。

© 版权声明

相关文章