百度最近悄然推出了一款名为Unlimited OCR的开源模型,这款模型以其仅30亿的总参数和500M的实际激活参数,展现了在文档解析领域的卓越性能。在OmniDocBenchv1.5基准测试中,Unlimited OCR以93.23%的综合得分刷新了端到端OCR的纪录,而在更新的v1.6版本中,更是将这一成绩提升至93.92%,远超参数规模大数十倍的知名模型如Qwen3-VL和Gemini-2.
要说生活里最常见、最便民的AI应用技术,OCR(光学字符识别)当属其中之一。 寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。 作为一名开发者,各种OCR相关的需求自然也少不了:卡证识别、票据识别、汽车场景 ...
这句话我觉得可能也同样适用在AI领域。 这两天最火的,是两个OCR模型,来自DeepSeek 和 百度。 甚至,在Huggingface的趋势排行榜上, 前四中,有三个都是OCR模型,还有一个是Qwen3 的VL,讲道理都能拿来做OCR了。 X 上刷到有网友甚至评论,这周算得上是OCR的黄金时代。