2014年11月,我拟题并申报的“中国传统家训文献资料整理与优秀家风研究”,获得国家社科基金重大招标项目立项。从此,文献整理成了我和课题组成员的一项主要工作。每天,我们将收集到的历代家训文献逐字逐句地“敲”到电脑上,然后再加以标点断句,撰写提要。

笔者从上世纪八十年代末搜集、研究中国传统家训,并与徐少锦教授一起积十年之功,合作撰写出版了63万字的《中国家训史》。现存最早的家训距今已有三千年之久,要将三千年来的中国历代家训文献加以点校整理谈何容易!上千万字的家训文献资料,仅仅录入到电脑,就是一个浩大的工程。但竖排版的繁体字古籍,当时的平台、网站均无法识别,只能依靠课题组成员打字录入。几年下来,工程量大,不仅做得苦不堪言,而且雇人录入花费很多、差错率也很高。

2021年秋,我去南京参加江苏省社科项目的评审,结识了南京农业大学的包平教授,包教授主要从事图书馆学和历史文献整理与利用方面的研究。谈及文献录入之事,他告诉我现在有一些古籍识别平台,还让我联系他们团队的李慧副教授。李教授很是热情,向我推荐了“abbyy”“小和尚”和“书同文”等,试了一下,这些网站要么太慢,要么错误太多,要么太贵,因此只好继续用原来的笨办法录入。

第一,我的挚友“古籍酷”帮助我们解脱了繁重的录入劳动,节省了项目经费。

负责运营的北京籍智达数字科技有限公司CEO张敬经理,是一个非常乐于助人的年轻女士,一开始,我们委托他们公司代为录入,他们收取的费用低于其他识别平台几倍。后来,她还给我们不少免费的流量。再后来,2023年开始,热心古籍事业的籍智达公司竟然发起“数字万舟”公益计划,旨在发挥自身在古籍OCR方面的技术优势,为传承发扬中文古籍文化贡献力量。自2023年推出至2024年,全国获得资助的项目达50余个,赠送OCR 90万次,广受用户好评。

我们江苏师范大学中华家文化研究院有幸成为第一批享受这个公益计划的单位。“古籍酷”不仅帮助我们团队解脱了繁重的录入劳动,还节省了本来就紧张的项目经费(尽管国家规划办先后两次资助经费达140万元,但因文献体量太大仍然经费紧张)。我的国家重大项目最后整理家训文献30卷,1000万字,不仅以“优秀”成绩高质量通过结项鉴定,而且课题成果之一的大型丛书《中国历代家训文献集成》,去年9月入选“十四五”国家重点出版物出版规划。

第二,我的挚友“古籍酷”为中国古籍的识别、整理做出了卓越的历史贡献。

这样说,并非溢美夸张之词,谓予不信,请看事实:

其一,识别的效率极高。

一页古籍短短几秒就可识别成功,特别是两三年前研发的批量识别,一批可以识别10页,也不过10多秒钟,稍有怀疑的字都改变颜色便于使用者校对。

其二,识别的差错率极少。

开发者贤超法师是一个对事业极为执着的专家,他对该平台识别技术精益求精,每隔几天网站都有更新,力图使识别、标点、翻译更加臻于完美。所有使用者在使用过程中,都能深切地感受到这一点。仅以识别为例,前几年每一页古籍文献识别总有七八个错字,而现在如果版本文字很清晰工整,甚至可以没有一个错字。如《宝善堂家训》的第一页识别(见下图)。

识别没错一字
识别没错一字

其三,自动标点的水平极高。

在古籍文献整理中,从来标点、断句都是难题,包括从事古籍研究数十年的专家也无把握不断错语句。就我们使用“古籍酷”免费自动标点的体验,除了书名号、引号难于标点外,自动标点的正确率保守说可以达到90%以上,大多数古籍可以超过95%。这种技术,令包括一些专门从事文献整理的专家都称赞不已。有时,我们在断句时遇到难于理解、标点的句子、段落,就先拿到该网站的自动标点上标点一下,很多句子难断问题竟然迎刃而解;即便个别句子太难,也可以给我们很好的启发。这真是“古籍酷”的“革命性”贡献,使人不得不佩服!请看上边识别的那一页标点情况(如下图)。

除了最后句号是因为原文换页不完整导致的外,标点完全正确
除了最后句号是因为原文换页不完整导致的外,标点完全正确

其四,异体字随文查找极大地便利于使用者。

我们的汉字浩如烟海,异体字是古籍整理中的另一难题,古籍中的异体字又有书写变异、形旁不同、偏旁异位、会意字偏旁不同等等增加了识别难度。为了帮助使用者解决这个问题,“古籍酷”在原文与识别出来的文字校对地方用光标跟随,随时方便查找异体字。

其五,功能全面。

“古籍酷”网站除了识别、校对等图像数字化、文本处理外,还有翻译、AI解释等等功能,以便更好地方便使用者。

第三,我的挚友“古籍酷”服务热情周到。

在“古籍酷”使用者群里,贤超法师、张敬经理都是有问必答,不厌其烦。我麻烦张经理很多,每次遇到问题请教她,她都耐心解释,或者发视频让我学习。为了古籍识别事业,为了更多学者更好整理古籍文献,她还到全国各高校、研究机构做讲座,具体指导。去年来我们学校开设使用讲座时,老师们对于“古籍酷”的强大功能和方便使用,均给于高度评价。

衷心感谢我的挚友“古籍酷”!致敬贤超法师、张敬经理!你们为中华传统典籍数字化所做的奉献功德无量,必将彪炳古籍整理的史册!

传承和弘扬中华传统文化,是我们国家的战略方针。我诚挚地祝愿“古籍酷”越办越好!为中华民族古籍文化的传承贡献更大的力量!

作者系江苏省社科重点研究基地江苏师范大学中华家文化研究院院长、教授、博士生导师,国家社科基金重大招标项目“中国传统家训文献资料整理与优秀家风研究”首席专家

深入了解「数字万舟」计划