-
胡韧奋等|让AI一口气读完《四库全书》会怎样?
最后更新: 2019-09-05 08:12:12为了让计算机在理解文义的基础上具备句读功能,研究者们准备了大量带标点的数据,包括超过30万首古诗,2万余首词,800多万段古文,模型还引入了处理标签序列的机制来专门学习句读方法。
由于诗词具有较为明显的格律特征,如大部分古诗为四五七言,而词牌名可以提示断句规则,为了帮助模型更好地学习语义和韵律信息,在预处理数据时保留了古诗题目,并去除词牌名。
在多块计算卡上并行学习了数天句读后,模型终于可以“出山”。在测试环节,研究者们引入了两轮难度不同的实验:
普通版测试对象为一批模型从来没见过的诗词古文数据(古诗5000首,词2000首,古文5000段),试验中,模型在诗、词、古文的句读准确率上分别达到了99%、95%和92%以上,较之已有的自动断句方法取得了巨大提升。
升级版测试对象为已出版古籍中的句读疑难案例。根据司马朝军、颜春峰、汪少华等学者研究,从中华书局出版的《钦定四库全书总目》、《周礼正义》中抽取出了60则句读误例(排除了模型训练时见过的数据)。这两本古籍均由该领域专家完成整理和句读标点,并经多次校对,其中的误例可谓句读任务的难点所在。
《钦定四库全书总目》(1997年版)由李学勤作序,是今人重要的古籍整理成果。从司马朝军的研究中找出了《总目》中11则与句读相关的错误,发现模型可以完全做对8则,试举正误例各一如下:
①
原文:柏何人,斯敢奋笔而进退孔子哉?(《诗疑》第216页)
模型:柏何人斯 〇 敢奋笔而进退孔子哉 (模型正确)
作者按:“斯”字上属。“何人斯”为上古习语。
②
原文:其中如“大衍”类蓍卦发微,欲以新术改《周易》揲蓍之法,殊乖古义。古历会稽题数既误,且为设问,以明大衍之理。(《数学九章》第1406页)
模型:其中如大衍类蓍卦发微 〇 欲以新术改 〇 周易 〇 揲蓍之法 〇 殊乖古义 〇 古历会稽题数既误 〇 且为设问 〇 以明大衍之理
模型句读与原文在一处犯了同样的错误,当作:
……《周易》揲蓍之法,殊乖古义、古历。会稽题数既误,且为设问,以明大衍之理。
虑到上古语言与中古语言的差异,为了验证模型在处理上古语言时的效果,又选择了王文锦、陈玉霞点校的《周礼正义》一书,将颜春峰、汪少华整理的49则断句误例送入模型测试。其中,模型能完全正确断句27则,断句存在问题的有22则。
原文:《公羊说》曰:“师出曰祠,兵入曰振旅。”(1485页)
模型:公羊说 〇 曰 〇 师出曰祠兵 〇 入曰振旅 (模型正确)
《周礼正义》的模型断句误例中,较为集中的是对字义的考证,尤其是引《说文》时的错误,比如 “服,牝服,车之材”误断作“服牝,服车之材”。“服”作为《说文》中的字头,其用法与其他古文表达有较大区别。此外,因盟誓、考课、葬礼等礼仪制度不明而致误亦有数例。
从经典古籍中的断句疑难案例可以看出,基于深层语言模型的句读方法在处理古籍一般句式表达时有明显优势。而在处理《说文》、古代制度等专业性较强的数据时尚存在问题,这与该类型学习数据相对较少有关。总的来说,模型在已出版古籍的断句疑难误例上取得了很好的效果,测试共计60例(均为专家标点错误,并经多次校对未查出),而模型竟能完全正确断句35例,可以说达到了较为实用的水平。
看来,让AI一口气读完四库全书,取得的效果还不错——
“我是中文系毕业的,实话说,模型的阅读和句读能力肯定比我强,看测试case的时候,常常感叹,它做得真的挺不错的。”——研发团队成员李绅
“有时候甚至强过博士后,模型断句效果超出了我的预期,在我们文献整理的项目中已经开始用它来做预处理。”——研发团队成员诸雨辰(古典文献学博士、历史学博士后)
从应用角度看,这里的句读方法既可以用于大规模古籍整理中预断句工作,大大减轻专家负担,也可用于校对环节,帮助检测人工断句或标点的错误。
在后续工作中,除了提升已有的句读模型,还希望将基于深层语言模型的古汉语知识表示方法应用到古文翻译、古诗文创作等其他古汉语信息处理任务中。
参考文献:
[1] 朱熹. 韩文考异. 影印文渊阁四库全书(第1073册). 台湾商务印书馆, 1986.
[2] 黄侃. 黄侃手批白文十三经. 上海古籍出版社, 1983.
[3] 解志熙. 断句背后的知与识——以三则诗文评为例, 文史知识, 2017(5).
[4] 王博立,史晓东,苏劲松.一种基于循环神经网络的古文断句方法.北京大学学报(自然科学版),2017,53(02).
[5] 张开旭,夏云庆,宇航.基于条件随机场的古文自动断句与标点方法.清华大学学报(自然科学版)网络.预览,2009,49(10).
[6] Devlin Jacob et al. Bert: Pre-training of deep bidirectional transformers for language under-standing. NAACL 2019.
[7] 司马朝军.中华书局《钦定四库全书总目》整理本校记.人文论丛, 2013(00).
[8] 颜春峰,汪少华.从《周礼正义》点校本谈避免破句的方法.古汉语研究, 2014(02).
- 原标题:让AI一口气读完《四库全书》会怎样? 本文仅代表作者个人观点。
- 责任编辑: 吴立群 
-
超176亿,暑期档票房创历史纪录
2019-09-02 07:32 中国电影 -
“港独”头目黄之锋被捕
2019-08-30 09:01 香港 -
中方:对原产美国约750亿美元商品加征关税
2019-08-23 20:07 中美关系 -
一名华裔移民的一生:从美国英雄到种族政策牺牲品
2019-08-23 09:21 -
马丁大爷:现在我可以按照自己的节奏来写结局了
2019-08-22 11:12 -
美国小学生在中国三线城市上暑期班,爸爸看出中美教育差距
2019-08-21 13:01 -
美国“阿拉伯之春”里用过的手段,在今天的香港比比皆是
2019-08-16 18:17 这就是中国 -
上海书展来了 这可能是世界上最好的书展
2019-08-14 13:32 -
中联办:超出文明社会底线,与恐怖分子暴行无异
2019-08-14 12:41 香港 -
香港机场再次发生非法集会 旅客怒斥示威者是“蟑螂”
2019-08-13 16:56 香港 -
为推广“普世价值”把别国弄得民不聊生,竟然可以连一声道歉也没有?
2019-08-12 17:25 这就是中国 -
破34亿 !《哪吒》跻身前五
2019-08-11 16:21 中国电影 -
如何用最浪漫的话向TA介绍观网?
2019-08-07 10:51 节日谈 -
人民日报:香港乱下去,全社会都要“埋单”
2019-08-06 09:26 -
专访手工耿:我的作品不是“没用”,而是真的简单粗暴
2019-08-05 19:45 中国梦 -
西方100年霸权体系,能和2000年亚洲文明相比吗?
2019-08-05 07:35 -
一个俄罗斯人对我说:现在是国家最好的时候,因为稳定
2019-08-03 20:20 这就是中国 -
离开斗鱼,《王者荣耀》知名主播张大仙确认入驻虎牙直播
2019-08-02 09:34 -
广电总局:拟8月起不播娱乐性较强的古装剧偶像剧
2019-08-01 07:35 中国电视剧 -
我希望收看这个节目的中国年轻人,要时刻准备着!
2019-07-29 20:11 这就是中国
相关推荐 -
省级督察组现场核实情况,遭故意封路阻挠 评论 70嫦娥六号成功发射!开启人类首次月球背面取样之旅 评论 323“美军还没撤,俄军就把这里占了” 评论 217土耳其暂停与以色列所有贸易 评论 139菲律宾称在黄岩岛已越过红线?中方回应 评论 177最新闻 Hot
-
省级督察组现场核实情况,遭故意封路阻挠
-
美国又出新规:想要补贴,电动汽车上不能有“中国制造”
-
“中俄在台海附近军演,逼着美国改计划”
-
他催拜登采取行动:保住内塔尼亚胡,不然逮捕令会落到咱们身上
-
以代表称:没料到美国精英大学里也有哈马斯
-
“内塔尼亚胡决心竞选连任”
-
香港暴徒“屠龙小队”队长:计划使用炸弹杀害港警,至少30个
-
“美国各地逾2000名抗议者被捕”
-
“欧盟得把成年男性遣返乌克兰,上战场”
-
“这样拆掉中国设备,许多农村就没网了”
-
果然,印度和日本破防了
-
“美军还没撤,俄军就把这里占了”
-
“北约发这种提案,简直疯了”
-
土耳其暂停与以色列所有贸易
-
以色列警告美国:一旦逮捕令下发,我们就对它动手
-
拜登竟称:中俄印日经济“表现不好”,是因为他们“排外”…
-