当前位置:论文写作 > 论文集 > 文章内容

导游词平行语料库的构建应用

主题:雅思王听力真题语料库 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-04-13

简介:适合不知如何写语料库语料方面的相关专业大学硕士和本科毕业论文以及关于语料库语料论文开题报告范文和相关职称论文写作参考文献资料下载。

语料库语料论文范文

雅思王听力真题语料库论文

目录

  1. 一、导游词平行语料库的设计思路
  2. 二、导游词平行语料库的创建
  3. (一)语料选择及代表性
  4. (二)语料电子化
  5. 雅思王听力真题语料库:高考语文答题语料库 利器在手高分不愁!【140502】
  6. (三)语料对齐
  7. (四)语料标注
  8. 三、导游词平行语料库的特色及应用前景

(石家庄铁路职业技术学院,河北石家庄050041)

摘 要:专门领域平行语料库具有独特的研究及应用价值.本文论述导游词平行语料库的构建思路与操作流程,涉及语料选取、文本电子化、语料对齐和赋码等,最后探讨了该语料库在导游词翻译研究、翻译教学及校企合作中的应用前景.

关键词:导游词;平行语料库;语料;翻译

中图分类号:H159文献标识码:A文章编号:10074074(2011)02014403

基金项目:河北省教育厅2010年高等学校英语教学改革立项项目(1008037)

作者简介:黄永新(1978 ̄),男,河北鹿泉人,硕士,石家庄铁路职业技术学院讲师.

语料库语言学是在语料库的基础上对语言进行分析和研究的科学,是一种随着计算机和网络技术发展应运而生的新的语言学研究领域和研究手段.语料库翻译研究从20世纪90年代初开始,以1993年MonaMaker“语料库语言学与翻译研究:启示与应用”一文的发表为标志[1].国内这一领域的研究与国外几乎同步,以杨慧中教授1993年发表的“语料库语言学与机器翻译”为起点[2].自此,越来越多的国内外学者开始进行研制各种翻译语料库,并在此基础上开展各种理论与实证研究.

用于翻译研究的语料库一般有三种:译文、类比和对应语料库[3].其中,最为常用的就是对应语料库(parallelcorpus),又叫平行语料库,指原文和译文经过检索可以对照显示的语料库.目前,建好或在建的具有代表性的双语语料库多为通用文本、文学文本或新闻文本,专属某一地域或领域的双语专门语料库并不多见[4].而双语专门语料库在文体翻译、术语翻译、翻译培训等方面具有不可估量的应用价值.

以笔者为代表的课题组自2010年开始着手建设“导游词平行语料库”,主要用于研究导游词文体的语言及翻译特点,同时指导学生或导游从业人员撰写、翻译导游词.迄今为止,国内外较有影响力的双语旅游类语料库只有一个,为香港理工大学的李德超研制的容量200万词的双语旅游语料库.该库语料规模大、设计精细(包含对应和类比两个库)、标注全面,能有效用于旅游翻译语言的研究和教学.但该库也并非完美,首先其所选语料以香港地区为主,指导大陆学生学习旅游翻译并不适宜;另外,其所选语料涉及各种旅游类相关语篇,如景点介绍、旅游设施介绍等,专门的导游词语料并不充分,研究的导游词语言的翻译特点,并用于导游词翻译教学稍显牵强.本文讨论的“导游词平行语料库”基本上可以解决上述问题.

一、导游词平行语料库的设计思路

语料库并非愈大愈好,只要语料的规模足以满足其研究目的和设计功能即可.一个小型的、认真设计和规划的语料库所能发挥的作用并不比大型语料库逊色[5](P305 ̄314).就本语料库而言,其初期设计目的有三个:研究导游词中英文特点、翻译风格及内在成因;指导河北省导游专业学生或导游词从业人员翻译导游词;为企业开发“河北省旅游景点电子语音讲解器”及“河北省旅游景点导游词电子词典”提供数据支持.

基于上述目标,本语料库计划包含两个:河北省导游词平行语料库(50篇),简称库一;全国导游词平行语料库(100篇),简称库二.导游从业人员这一职业的地域性非常强,所以本语料库确定主要为河北省服务,故以河北省地区景点导游词为主,组成“库一”;但是河北省这一特定区域的语料用于分析导游词文体的语言及翻译特点,研究结果有失平衡,所以课题组收集全国导游词语料,组成“库二”.经查,河北省比较有影响力的景区景点不足一百个,在考虑景点类别、所在区域以保证语料平衡的基础上,“库一”50个景点的导游词语料应该算是一个比较大的样本了.为了保证“库一”在翻译特点研究时能得出比较公正、合理的结论,同时更好地指导导游词翻译教学和培训,课题组比照“库一”的构建思路创建了另一个参照语料库——“库二”,在全国范围内兼顾景点类别和地域平衡选择100篇左右的导游词双语语料.目前,“库一”已经基本建设完毕,“库二”的语料收集工作已完成,正在进行语料的转写工作.

二、导游词平行语料库的创建

本课题拟构建的“导游词平行语料库”属于单项对应平行语料库(uni-directionalparallelcorpus),指由汉语文本和将其译成英语的文本构成的平行语料库,即语料库中的所有英语导游词都是由汉语导游词翻译而成的.该库的创建共分四个步骤:

(一)语料选择及代表性

建设任何语料库首先需要考虑的问题就是语料的代表性,这是语料选择的最基本的问题[6].河北省拥有丰富旅游资源,但近些年才开始进军国际化道路,市面上的双语导游词资料有限且质量良莠不齐,语料的选取时需要设定严格的标准.王克非指出,在语料选取时需要重点考虑翻译质量、语料平衡和取样三方面的问题[3].基于此,本语料库在选取导游词语料时:一、首选正规出版的书籍,其次是网络等其他途径.二、所选文本若含有语法、翻译错误或翻译质量低劣,则不予收录.如果问题较小,修改并经课题组成员一致认可后进行收录.三、经课题组初步分析,河北省境内景点可分为两大类、十小类:自然类(生态、水体、山体、冰雪、休闲)和人文类(皇家、历史、寺庙、民俗、红色).故“库一”在选材上兼顾上述分类以保证语料尽可能的“平衡”.四、单篇导游词少于1000字,多3000字则进行分层抽样.五、如果某些类别的导游词语料不足,则课题组成员在选取优秀汉语导游词基础上自行进行翻译,再经过资深翻译老师和外教两轮校对.上述严谨的做法就是为了保证所选语料不但要有代表性,还要具有一定的质量,从而确保基于该库的研究及应用取得良好的效果.

(二)语料电子化

语料的来源主要为书籍等印刷制品,其次为网络.印刷制品的文字转写工作如果由纯人工完成需要花费大量的时间,本研究采用了一种比较高效的方法:扫描仪高清扫描、OCR软件进行字体识别、最后进行格式及文字校对.经试验,OCR软件字体识别的正确率可以达到90%以上,可以大大提高印刷制品的文字转写效率.网络文本主要涉及文字校对与格式整理,相对而言比较简单.

雅思王听力真题语料库:高考语文答题语料库 利器在手高分不愁!【140502】

另外,经课题组初步查证发现,公开出版的有关河北省景点双语导游词的书籍相当有限,网络上的高质量的双语导游词也不是很多.同时,课题组成员教师均为长期从事旅游英语教学的高校英语教师,在导游词翻译方面颇有心得且具备比较高的水平.基于此,课题组决定部分景点的导游词自行翻译,经过资深翻译教师和外教双重校对后进行收录.

(三)语料对齐

语料对齐(alignment)指将源语语料与译语语料分别保存,并使两个文本中的语料按段与段或句与句的关系一一对齐[7].这一工作至关重要,否则语料库检索软件ParaConc无法对建成的导游词平行语料库中的语料进行处理.目前,现有的句与句对齐软件处理准确率不是很高,仅60%左右[7].另外,由于英汉语言在表达、句式方面的差异,实际的翻译过程中并非全部以句为单位.所以本研究首先由人工通过Word工具完成段与段对齐的工作,进一步通过ParaConc软件粗略达到句与句对齐,再由人工排查,最终达到句子层级的对齐.最后,通过Paraconc反复进行检验,以确定全部文本已经达到句与句对齐的效果.

(四)语料标注

1.词性赋码

词性赋码(POSTagging)指把语料中的有用信息用一组符号系统标注出来,是为语料库赋予“增值”的效果,目的是从中提取远远超过从生语料库中可以提取的信息,使语料发挥更大的作用,从而适应更多的研究需要[8].本语料库中文导游词的分词及词性赋码采用中国科学院计算技术研究所开发的ICTCLAS汉语分词软件,可以同时实现词汇切分和词性赋码.据中科院计算技术研究所网页介绍,该分词系统的分词精度可以达到98.45%,但是词性赋码精度不够,仍需后期的人工校对[4];英语导游词的词性赋码采用TreeTagger,这是德国斯图加特大学计算语言学研究设计的一款可训练且免费的自动词性附码工具,据称该软件对英文赋码的准确率可以达到96%~97%[9].为了提高中、英文导游词语料词性赋码的准确性,经过软件赋码后的还需要经过人工校对与修正.

2.深层次标注

针对导游词语言自身显著的特点,本语料库会采用一些自主创设码来对语料进行标注.比如导游词语料中含有大量的中国文化专有词汇或表达方式,在语料中对这些词汇进行分类标注,通过检索和整理有助于发现这些中国文化独有的词汇和表达方式在导游词中是如何翻译的,采用了哪些策略方法,具有哪些独有的特点.当然,这些自主创设码需要与TreeTagger的码集格式相一致,以方便软件统一提取.这种标注方式没有现成的软件可以完成,只能采用人工完成,会花费很多时间,不过一旦将导游词所特有的这些语言特点标注出来,会大大提高导游词语言翻译研究与教学的深度与广度.

3.篇头标注

篇头标注可以为所收语料提供进一步的信息.该语料库将导游词主要的相关背景尽可能多地进行篇头标注,以方便日后各种研究和应用目的.本语料库篇头标注初步设计包括中文标题、英文标题、景点类别、景点所在地、语料来源(书籍、网络等)、文本字数、译者名、译者背景等.

三、导游词平行语料库的特色及应用前景

基于上述描述,该“导游词平行语料库”具有如下突出特点:

(一)专业性强.本语料库仅涉及导游词一种文体,同时主要针对河北省区域服务;(二)语料数量充足.从绝对字(词)数量上看,该库的语料数量并不是很大(约50万字),但是就专门类别语料库而言,该库的语料数量足以达到其设计的研究及用目标;(三)选材质量高、代表性强.选材及分类标准设计细致、完善,课题组成员教师水平高,均为高校专业旅游英语教师.这些条件保证所选导游词语料质量高、具有代表性,为后期良好的研究及应用效果打好了基础.

该语料库建好后,具有广阔的研究及应用前景.就翻译研究来说,可以研究中、英文导游词的语言特点、翻译规律、翻译策略及方法及其内在成因;不同类别景点导游词的语篇风格;句式选择上是否存在差异;导游词中的中国文化、修辞等特有现象的翻译特点及方式等.就翻译教学来说,可以直接用于课堂教学及翻译培训,为学习者提供丰富的语言材料;通过检索为学习者提供各种翻译范式,方便准确选择术语及习惯表达方式.也可以间接用于教学,基于该语料库可以开发各种教学材料,如导游词高频词表、导游词常用双语表达方式、各种句式、主题、形式的导游词翻译练习素材的开发等.最后,还可契合校企合作的理念,为企业开发“河北省旅游景点电子语音讲解器”及“河北省旅游景点导游词电子词典”提供数据支持.

李德俊在谈英汉翻译语料库建设时的代表性问题时,指出建设“专业翻译”为基础的核心语料库后,需要辅以学习者翻译语料库[10].基于此,课题组亦考虑构建学习者导游词平行语料库,将学生的导游词翻译作品收集起来,通过与前面描述的“库一”、“库二”对比,探索学生在导游词翻译过程常犯的错误及其原因.

本文介绍了导游词平行语料库的构建思路和操作流程,涉及语料选取、文体转写、语料库对齐和各个层级的标注,最后指出该语料库在导游词翻译研究及翻译教学等方面广阔的应用前景.今后,课题组需要尽力排除各种意想不到因素的干扰,进一步、高标准地落实该语料库的构建思路;同时进一步吸收语言学、翻译研究等多方面的专业知识,以使该导游词平行语料库发挥其应有的广阔的研究及应用价值.

参考文献:

[1]王克非,黄立波.语料库翻译学十五年[J].中国外语,2008(6).

[2]杨梅,白楠.国内语料库翻译研究现状调查[J].中国翻译,2010(6).

[3]王克非.双语对应语料研制与应用[M].北京:外语教学与研究出版社,2004.

[4]李德超,王克非.新型双语旅游语料库的研制和应用[J].现代外语,2010(1).

[5]Jonansson,Stig.Timeschange,andsodocorpus[C]//K.Aijmer&,B.Altenberg.EnglishCorpusLinguistics:StudiesinHonourofJanSvartivik.London&,NewYork:Longman,1991.

[6]Biber,D.Representativenessincorpusdesign[J].LiteraryandLinguisticComputing,1993,8(4).

[7]谢家成.小型英汉平行语料库的建立与运用[J].解放军外国语学院学报,2004(3).

[8]文秋芳,王金铨.中国大学生英汉汉英口笔译语料库[M].北京:外语教学与研究出版社,2008.

[9]梁茂成,李文忠、许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[10]李德俊.语料库的“代表性”问题及其对英汉翻译语料库建设的启示[J].外语研究,2007(5).

(责任编辑:粟世来)

总结:主要论述了语料库语料论文范文相关参考文献文献

雅思王听力真题语料库引用文献:

[1] 雅思教学论文题目集 雅思教学论文标题如何定
[2] 近几年雅思教学参考文献 雅思教学外文文献怎么找
[3] 雅思教学论文提纲格式 雅思教学论文提纲怎样写
《导游词平行语料库的构建应用》word下载【免费】
雅思王听力真题语料库相关论文范文资料