用科技手段激活古籍瑰宝_当前焦点
时间:2023-06-28 03:06:18来源:人民日报

打开浏览器,登录“智慧古籍平台”,可在线查阅4.4万篇古籍,除了著述、篇目详情等基本内容外,还有著者小传、人物行迹、世系图及社会网络关系图等延伸信息,全面立体地展现古籍内容,满足读者一站式查询、阅读与研究需求。


(相关资料图)

这是由浙江大学徐永明教授及其团队打造的人机交互式智慧数据共享平台,将中国古典文献和研究成果图谱化、智能化,打造了集浏览、查询、研究、欣赏于一体的古籍大数据平台,通过科技赋能,让古籍知识变得“触手可及”。

科技赋能,推动古籍资源“上线”

在浙江大学文学院,记者见到技术团队负责人徐永明时,他正专心致志地坐在电脑前,忙着审核已完成校对的古籍篇目并准备上线发布……

“目前平台已上线著述总字数约700万字。”说罢,徐永明招呼记者上手体验。在“智慧古籍平台”,古籍内容按“著述导览”“篇目导览”“著者导览”等板块分类呈现,界面设计古典雅致、功能齐全,令人眼前一亮……

“平台引入知识图谱理念,综合运用大数据进行计量统计、定位查询、聚类查询等,让读者轻松便利地获取古籍知识。”徐永明边演示边介绍,点击“篇目导览”按钮,即可进入文本阅读界面,“文本阅读是本平台的特色功能,为提高文本的真实性和准确性,平台提供了古籍图片与古籍数字化文本一一对应的功能。”

不仅如此,“智慧古籍平台”还有许多其他亮点:为降低阅读时查阅相关资料的频率,平台提供了关键字词释义功能,文本中重要信息及疑难词按照人名、地名、职官、时间、典故等不同类型以不同颜色显示,点击即可查看释义;借助地理信息系统软件,结合在线地理信息系统,古籍中留存的地理信息实现了可视化,点击著者详情,即可查看所链接的人物行迹图……

而提及地理信息可视化,不得不提徐永明团队的另一个平台——“学术地图发布平台”,其中汇集了李白、苏轼等500多位中华历史名人的行迹图、《全元诗》作者分布图等各类学术地图……“其实这个平台比‘智慧古籍平台’还要早一些,是中国首个综合性学术地图平台。”他介绍,平台迄今已发布1600余幅地图,共有70余个国家100万读者的访问量。

综合利用这两个平台,徐永明团队将文史数据与数字地图相结合,极大地增强阅读体验,旨在丰富读者对古籍知识的综合认知。

为解决技术难题,文科背景出身的徐永明自学编程

在徐永明看来,完善丰富的前端体验少不了强大的后台技术支持,“比如,要将古籍图像中的文字转换成文本格式,就需要OCR识别,即‘光学字符识别’技术,平台现用的OCR技术能较为精确地识别版刻古籍,准确率达到90%以上。”他向记者科普起来,再如,借助计算机学习技术,平台采用的“机器古籍标点技术”,可根据特定算法为古籍文本自动标注现代中文标点符号,准确率也稳定在90%以上。

“但正所谓‘隔行如隔山’,仅靠我一人无法建起这个平台,需要许多相关专业人员的支持。”他介绍,作为项目负责人,从2020年项目立项以来,他找来浙江大学计算机科学与技术学院、地球科学学院和校图书馆等相关学院和部门老师,组建起一支20余人的技术团队。

这期间,曾遇到不少难点,“比如,前期需要不断跟第三方公司磨合,解决前、后台页面设计、框架布局、功能模块等问题;到了后期,我们更换了合作方,又得重新磨合,主要解决地域导览、编辑器、职官图谱、智能OCR服务引入等相关问题。”徐永明说。

缘何要研发这样的古籍知识大数据平台?徐永明坦言,这跟自己早年的经历有关。上世纪90年代末期,他曾在浙江图书馆古籍部工作过一段时间,目睹了读者来看古籍善本有多不方便,比如只能抄录,复制的话也要经过许可,且费用很贵。

在他读博期间,国内还没有出全文检索的《四库全书》电子产品。那时,他写作博士论文材料,都是靠自己翻阅原书,一条一条抄录。这些经历让徐永明深深地感到,纸质文献难以保存传播,古籍信息存在“孤岛化”“碎片化”现象,“如今,数字技术发展日新月异,我们便琢磨着能否将大数据技术与古籍进行深度融合,为传承中华优秀传统文化探索新的可能。”

在“学术地图发布平台”开发阶段,面对界面不美观,操作不方便,功能有限,经常出现程序故障等问题,文科背景出身的徐永明开始了他的自学Python(计算机编程语言)开发之路。在他的朋友圈,他时常发布学习编程的动态、用Python完成的各种小成果、自己编写的代码,等等。

面对海量数据,徐永明善于利用团队的力量,“过去整理古籍,主要是个体作业,以书为单位,不能修改、不可关联,效率不高。”他说,“现在,我们将古籍整理任务通过勤工俭学、暑期社会实践等形式,遴选相关专业学生、专家,在线上线下一同参与,努力发挥集体的智慧。”

帮助读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果

浙江大学中国古代文学专业的博士生郝亚洁认领了新任务:对《徐文长文集》《吟香室诗草》等古籍的OCR校对结果进行二次审核。

“根据平台不同时期的需求,我的工作内容侧重点都有不同。”郝亚洁介绍,比如,在平台建设初期,同学们主要负责数据上传整理,“数据一般以一部文集为单位,需要制作目录文件把文集的文字内容按照篇目和影像一一对应。”后期,郝亚洁则负责OCR识别和机器标点校对后的人工审核等工作。

全程参与“智慧古籍平台”建设,让郝亚洁受益匪浅……在她眼中,徐永明是治学严谨的导师,自己从平台维护中收获良多。“比如,之前学过的Python计算机编程语言,就苦于没机会实践;现在的校对环节中,用Python代码检查不仅帮了我大忙,更体会到了什么叫‘活学活用’。”

平台运行至今获得各方好评,但徐永明坦言,“智慧古籍平台”建设任重道远,想要把浩如烟海的中华古籍资源利用起来,还有很长的路要走。“我们的初衷很简单,就是想为读者扫除古代文献阅读障碍,推动古籍阅读普及化,激活学者的研究成果,突破学术壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源,同时改变‘数据在中国,数据库在国外’的现象。”

面向未来,徐永明团队定下了新目标:利用“智慧古籍平台”进一步推进古籍数据资源的整合和开放共享,用智慧化手段为中国古代典籍资源争取“主动权”,让古籍资源从“活下来”真正转变为“活起来”!(本报记者 江 南 窦瀚洋)

标签:

生活指南
  • 2023年双十二比双十一订单多吗

    对于双十二和双十一可以说是女孩们最为喜爱的节日了,毕竟各种满减卷叠

  • 投资213亿元!宜昌38个交通项目集中开工 天天日报

    6月21日,宜昌市举行2023年交通基础设施重点项目集中开工仪式。此次集

  • 当前关注:2023年福建普通高校招生录取政策解读(二)

    相关推荐:福建高考新闻资讯汇总福建2023年高考时间及考试安排最新高考

  • A-史密斯疑惑表情回复布兰登-米勒GOAT言论:极其荒谬

    直播吧6月22日讯今天,NBA名嘴A-史密斯发推谈到了热门新秀布兰登-米勒

  • 火车站出口,孕妇突然不适倒地,旁边正好有他们!

    “我喘不过气,走不动了。”6月20下午1时40分左右,柳州市柳南区城管执

  • 湖南道县:龙船竞渡迎端午-全球最资讯

    6月19日,龙船队在潇水河上行进。发(何红福摄)端午节临近,湖南道县

  • 浦发信用卡app怎么看费用减免 浦大喜奔免除年费方法介绍|天天动态

    浦发信用卡app怎么看费用减免浦大喜奔免除年费方法介绍,

  • 2023鹿晗演唱会重庆站抢票时间+购票指南

    演出时间:2023年7月15日19:30演出地址:重庆华熙文化体育中心感谢大家

  • 环球新资讯:高通第二代骁龙8性能高,能耗少,重塑手机游戏体验天花板

    为什么说第二代骁龙8是目前安卓阵营玩游戏最好的处理器,而不是比它跑

  • 律师会见注意事项有哪些?律师会见需要准备什么材料和手续?

    律师会见注意事项有哪些?律师会见注意事项:初次会见需多次沟通,加

  • 异地就诊有“医”靠 山西住院费用跨省联网结算定点医疗机构达3935家

    山西省医疗保障局副局长冯智16日表示,该局聚焦流动人口的就医结算需求

  • 最新快讯!近4成科研人抑郁!Nature:情况很糟糕

    目前,科学界普遍存在心理健康危机。学术新人境况尤其让人担忧:工资微

  • 全球热议:俄官员:2023年俄罗斯经济增长有望高于预期

    新华财经北京6月16日电(张旌)俄罗斯经济发展部长马克西姆·列舍特尼

  • 世界新资讯:永州市中心医院泌尿外科开展首届“全国结石病日”健康促进活动

    6月15日,永州市中心医院冷水滩院区泌尿外科开展了以“认识结石,走

  • 股票投资的特点都有哪些?股票板块是指什么怎么划分?

    最近小编看到很多人在搜索股票投资的相关内容,小编呢对此也是非常

  • failedtofetch是什么意思?failed to fetch http怎么解决?

    failedtofetch是无法获取的意思。从技术层面上说来它不是什么大问题,但是会让用户感觉心里不爽。好在要

  • 民生
    • 新聚众斗殴的处罚是怎样的?_每日信息

    • 每日焦点!北京采取八项举措治理欠薪 前五月追发工资1亿余元

    • 彩色激光打印机怎么加碳粉_激光打印机怎么加碳粉

    • 珠海这些公交线路、站点有变!还将新开1条公交线!|环球微速讯