期刊信息
Navigation

刊名:水利与建筑工程学报
曾用名:防渗技术
主办:西北农林科技大学
主管:中华人民共和国教育部
ISSN:1672-1144
CN:61-1404/TV
语言:中文
周期:双月
影响因子:0.795203
被引频次:19461
数据库收录:
统计源期刊(2014);期刊分类:水利建筑
期刊热词:
水利水电工程

现在的位置:主页 > 期刊导读 >

一带一路背景下多模态多语种建筑工程平行语料

来源:水利与建筑工程学报 【在线投稿】 栏目:期刊导读 时间:2021-03-23

【作者】网站采编

【关键词】

【摘要】:多模态语料库是指视频、音频、图像、文字语料等多种信息进行集成整合,使用者运用计算机通过多模态方法对其进行加工、检索、应用的大型语料集合[1]。平行语料库是由原文文本

多模态语料库是指视频、音频、图像、文字语料等多种信息进行集成整合,使用者运用计算机通过多模态方法对其进行加工、检索、应用的大型语料集合[1]。平行语料库是由原文文本及其平行对应的译文文本构成的双语或多语语料库,其双语对应程度可有词级、句级和段级几种,是机辅(器)翻译的核心要素。当前,我国多模态语料库的研究与建设正处在发展阶段,顾曰国教授已于2013年建立起包含三个子库(话语活动库、幼儿成人库、网上良师库)的“SCCSD”多模态语料库;2014年,中国社会科学院与北京外国语大学联手建立了中国多语言多模态语料库暨大数据研究中心,旨在全面推动我国多模态语料库的研创与发展;上海交通大学的刘剑自2014年起就开始建设多模态口译平行语料库,利用跨平台多媒体标注软件ELAN对音频、视频语料进行切分、多层次标注、分析、建档与检索,实现了原文、译文与对应音频和视频的同步呈现[2]。但目前,国内还没有具有一定影响力的多模态、多语种的建筑工程平行语料库,仅有少部分小型建筑工程英汉双语平行语料库,建库目的是尝试实现建筑英语词汇的在线索引、数据共享、检索、查询、下载等服务,所需语料库技术主要涉及对齐、术语标注、检索与提取[3-4]。这些小型建筑工程语料库提供的应用远远无法满足日益发展的建筑行业语言服务、教学实践及学术研究的需求。当前,积极建设多模态、多语种的建筑工程平行语料库,开发研究多模态、多语种的语料信息加工处理技术成为当务之急[5]。

一、创建多模态、多语种建筑工程平行语料库的步骤

(一)语料库语料的采集、录入与存储

大规模多模态、多语种建筑工程平行语料库语料的采集要遵守权威性原则,无论是图文材料,还是音频、视频材料,都要从国家级的权威出版物或者官方网站上通过随机抽取的办法获取。不同语料的录入采用不同的方式:对于图文资料,主要采用手动录入(电脑键盘敲击)和光电扫描录入(OCR技术)两种方式;对于音频、视频语料和图像,则采用Elan、Python等多模态语料处理软件进行转写、切分、标注等。语料录入完成后,还需要进行校对,以便控制语料质量。另外,文本语料的添加、录入还可以借助计算机辅助翻译生成的翻译记忆库。当前,翻译记忆技术的提高及翻译记忆库的发展为平行语料库提供了大量素材及技术支持,主要体现在质和量两个方面。在质的方面,随着译者对记忆库提供的语料的编辑、翻译水平不断提高,记忆库中语料的匹配度也越来越高,平行语料库的语料质量得到保障;在量的方面,翻译记忆库的动态扩充使得库中的语料源源不断。此外,当前大多数翻译软件的记忆系统都内置了翻译记忆、术语管理、文本对齐、机器翻译、自动匹配、项目管理等功能,省去了之前人工去噪、对齐、检索等多项工作。这些都对双语平行语料库的创建起到了推进作用。多模态语料的存储需要根据描述语料属性的元数据信息分门别类地进行存储。

(二)语料对齐处理

这里的语料对齐主要是指文字语料的对齐。平行语料库需要对不同语种的语料进行句级对齐处理,目前比较常见的对齐工具包括Paraconc、Bilingual-sentence-aligner、CTK(Champollion Tool Kit)、Vanille Aligner、Hunalign、Tmxmall Aligner等,可根据建库要求和用途选择合适的工具。

(三)多模态语料加工

多模态语料加工涉及文字、音频、视频以及动、静态图像等多符号语料的标注和处理,常用的多模态语料加工工具有Elan、Python、Anvil等。针对某些加工效果的要求,还需要研发新的软件与加工工具。

(四)建筑工程平行语料库的日常检索与维护管理

平行语料库文字类检索工具包括WordSmith Tools、Paraconc、Multiconcord等,多模态类语料检索工具包括Elan、Python等。日常检索可实现的功能包括术语表生成、词频统计、关键词索引、全文索引、搭配词提取、语料比较等。语料库建成后,后期的更新、维护与管理包括确保新语料的及时补录、维持库中语料类别的平衡比例、对新语料进行加工处理、确保语料检索的准确性与速度等。

二、多模态、多语种建筑工程平行语料库创建与应用的难点

(一)多模态语料库技术的研发与应用

现阶段对多模态语料进行加工的软件主要有Anvil、Elan、Python等。比如,上海交通大学刘剑建设的多模态口译平行语料库,就是利用跨平台多媒体标注软件ELAN对音频、视频语料进行切分、多层次标注、分析、建档与检索,实现了原文、译文与对应音视频的同步呈现。但是,针对不同研究目的与应用需求,仍需要研究开发具有更多功能的处理软件,以便更好地进行语料加工与处理。


文章来源:《水利与建筑工程学报》 网址: http://www.jzgcjsysjzzs.cn/qikandaodu/2021/0323/763.html


上一篇:建筑工程中机电设备安装施工的质量管理
下一篇:写作大纲之酝酿与拟定论文写作要领之四