我国中文信息处理技术再上新台阶

我国中文信息处理技术再上新台阶

一、我国中文信息处理技术达到新水平(论文文献综述)

唐小雪[1](2021)在《汉维词语的人机翻译对比研究 ——以《习近平谈治国理政》为例》文中研究表明近年来,机器翻译随着计算机技术的不断发展,越来越多的被应用于汉维翻译中,在翻译界的重要作用日益凸显。本论文以公开发行的《习近平谈治国理政》(卷一、卷二)原文及维吾尔语版人工译本、在线翻译后的机器译本共三个文本,借Ant Conc3.5.8(windows)、Em Editor等软件工具,建立三语平行语料库并获取语料数据,通过分析人机两个维译本的语料数据,进行基于词语的人机翻译对比研究,一方面考察汉维语词类的人机翻译情况,一方面为汉维机器翻译提供改进意见,以期汉维机器翻译在未来得到更全面的发展。全文共分为六部分,引言介绍选题相关情况,并对现有机器翻译研究成果进行梳理综述。第一章是语料库的研制及数据分析,包括类符/型符、词性分布、词频以及平均句长,以此总结译本词汇特征。第二章从实词和虚词中挑选占比最大的8个词类,通过数据分析并结合实例探讨人机译本的翻译情况。第三章是以前文的数据作为支撑发现人机翻译在词语翻译时的差异主要体现在词语选择、词语形态及词类范畴三个方面。第四章是对机器翻译问题进行的探讨,总结出机器翻译具有过译、欠译、词序错误、选词错误及词形变化错误这5种错误类型,并根据本文反映出的问题为未来机器翻译提供了几点优化建议。结论部分概括总结全文。

宁鹏飞[2](2019)在《计算机技术在内蒙古自治区医学领域的应用及影响研究(1977-1990) ——以内蒙古医学院为例》文中进行了进一步梳理二十世纪科学技术繁荣发展,出现了以电子计算机等的发明和应用为主要标志的第三次科技革命。计算机技术在医学的多个领域渗透与应用,助力现代医学取得了很多令人瞩目的成就。计算机技术应用的社会历史条件及所产生的社会影响属于科学技术史的研究范畴,本文研究属于计算机技术在医学领域的应用及产生的影响。1977-1990年期间,由于我国政府相关政策的积极推动、医学研究者与计算机专家的有力合作以及国外技术的引入,计算机技术在内蒙古医学领域的应用开始起步发展,并逐渐与本地实际相结合,衍生出了新的本地特征。在现有研究中,对少数民族地区医学领域的计算机技术的引入、应用及影响少有涉及,本文工作是对现有研究的有益补充。本文研究中采用的资料包含了内蒙古医学院及内蒙古医学院附属医院档案馆的档案资料、来自于内蒙古计算机领域和医学领域在1977-1990年这一时期亲历者的口述资料,这些一手史料在以往研究中少有涉及。通过对史料的梳理和多个方面的对比研究,给出了1977-1990年计算机技术在内蒙古医学领域的引入历程、应用发展水平及特征,形成了较为完整的历史线索。本文分为四章:第一章,主要介绍研究背景、研究范围、研究目的与意义、研究综述、研究内容与创新之处、研究思路与方法;第二章,结合历史文献资料、社会背景及专家访谈资料,通过对国内外计算机技术发展历程进行梳理,辨析对于医学领域应用具有重要意义的计算机技术的起源及普及应用影响,为分析内蒙古自治区医学领域应用计算机技术的发展状况提供技术背景及社会背景依据;第三章,对1977-1990年在内蒙古医学领域应用计算机技术的社会背景、发展脉络进行较为深入的梳理分析,通过与国内有代表性的省市、其他少数民族地区以及内蒙古其他领域的发展水平对比,明晰了1977-1990年的发展特征,并对所产生的影响进行探讨;第四章,以内蒙古医学院及内蒙古医学院附属医院为例,以尽量翔实的具体事件作为支撑,具体的展示技术应用后的影响。通过对上述问题的研究,得出以下结论:1.无论国内还是国外,计算机前沿技术应用到医学领域都具有一定的滞后性。相比国外,我国起步稍晚,政府出台了多个相关政策措施促进了计算机技术的传播应用,1977-1990年这一阶段,很多专门的机构组织刚刚成立,我国医学领域很多开创性的工作得以实施,计算机技术的应用正经历从无到有的起步阶段,之后的发展速度非常快。国内外的应用范围及热点基本同步,我国的主要特色体现在中医专家系统的开发应用、数字化数据在计算机内的中文信息表达问题等。相比于国民经济其他部门,医学领域在应用计算机技术方面并不具有优势。从具体需求出发的应用较多,对技术应用可能引发社会问题的思考深度有所不足。很多以应用为目的的项目通过主管部门下达命令的形式开展,但是由于缺乏专门软件服务企业的主动参与,工业化水平不足。这种状况在20世纪90年代之后逐渐改善。2.通过研究发现,从1977年开始,在有限的条件下,内蒙古医学领域的科研工作者在新技术探索与引入方面积极与计算机领域的专家合作,在计算机技术辅助医学研究、辅助临床诊断、医院管理、医学情报检索方面均有与应用相关的科技成果产出,提高了工作效率、解放了生产力,推动了内蒙古社会经济的发展。各方面的应用虽然与我国有代表性省市发展水平有一定差距,但是应用范围相同,与新疆等少数民族自治区保持同步。尤其在蒙医专家系统的应用探索等方面独具特色,并开展相关的国际间交流合作,也形成了本地各类医学相关领域的数字化数据库的原始积累,这对于现今的内蒙古医疗大数据建设具有重要的意义。3.通过对内蒙古医学院及内蒙古医学院附属医院的实例研究发现,计算机技术的引入开始对传统医院管理的工作流程产生影响,1990年之前是计算机技术改变人们工作方式的发端。软件开发方式从自主开发探索逐渐过渡到引进成熟的工业化软件产品。存在重硬件投入、轻软件投入的现象。出现了人才外流现象,如何留住人才至今仍然值得深刻反思。CT等新技术引入之后,极大的提高了诊断水平,社会效益、经济效益明显,但是人的主观能动作用和经验知识仍然起到重要主导作用。

王倩[3](2019)在《现代汉语并列结构研究及二语习得》文中提出并列结构是现代汉语的重要组成部分之一,有很多文章和着作对其进行研究。从研究对象看,涉及并列标记、并列项、并列结构等各个领域;从研究范围看,包括了并列式合成词、并列式成语、并列短语、并列复句等各个层次;从研究方法看,综合运用了语义学、语用学、认知学、类型学等各种理论方法。这些研究已经揭示了不少并列结构的特征和规律,但仍旧存在一些问题,比如定义不统一、术语不统一;描写性研究充分,解释性研究不足;理论性研究充分,应用性研究不足;个体性研究充分,全貌性研究不足等。本文力求寻求一个较为全面的、准确的定义和术语,力求找寻深层的、可供解释的规律,尝试着进行全貌性的对比和分析。首先,本文对相似术语的定义进行了对比分析。然后,本文从不同角度对并列结构做出分类,从并列项单位看,可分为语素并列、词并列、短语并列、小句并列等类型;从并列项性质看,可分为常规并列结构和异类并列结构;从并列项数目看,可分为两项式并列结构和多项式并列结构;从并列标记看,可分为有标并列结构和无标并列结构;从并列结构逻辑语义看,可分为合取关系和析取关系并列结构。并列标记是并列结构中非常重要的部分,并列标记的种类也十分繁多,汉语普通话、民族语中的并列标记主要有:连词、关联副词、助词、语气词、数词、超词形式、词缀、语调等。各标记模式综合来看有居首型、居中型、居后型和错杂型四类,居首型目前尚未发现其存在,错杂型在汉语中不存在,中国境内的并列结构标记类型主要是居中型和居后型。此外,由于语音、语义、语用、认知等因素的影响,并列标记有时候还会隐匿不显。虽然并列标记可以隐匿,但并列项却是必不可少的,否则无法构成并列结构。并列项在排列顺序上有固定性和相对灵活性两种特征,前者我们称之为常规语序,后者为异变语序。常规语序要受到语音、语义、语境、文化、认知等方面的影响,而且这些原则之间不是互不干涉的,有时候它们之间会形成竞争优选关系,形成一个相对的优胜序列:语义/文化/认知>语音>语境。在实际的语言运用中,语言使用者受到“焦点”的影响,产生了“凸显心理”,导致语序出现“异变”。异变类型主要有:照应异变、加标异变、直接异变。异变主要受到语音、结构、语用、语境、社会时代等因素的影响。并列结构看似平等,实际上却含有语义段和语义层之分。根据一个句子中并列结构的数量,我们可分出单组、双组、多组并列结构三大类。单组并列结构内部可分为单语义段、双语义段、多语义段,主要通过语序、并列连词、标点符号、词汇、结构等方式分隔语义段,且这些分隔手段通常联合使用。单组并列结构各并列项之间以及与外部其他成分之间有分别搭配、加合搭配、串联搭配、平行搭配、对应搭配等几种类型。双组并列结构包含双层对应搭配、双层平行搭配、双层交错搭配等类型。多组并列结构的层次搭配类型主要是双层并列结构搭配类型的重复与重组。与标准的、典型的并列结构相对的就是异类并列结构,异类并列结构是对常规并列结构所遵循的各种规则进行破坏、重建而形成的。本文首先从形式、意义两个方面将异类并列结构分为音节异类、结构异类、单位异类、词性异类、语义范畴异类、语义层级异类、语义量级异类。然后,从形式、标记、语义、语用等角度对每种类型的具体情况进行综合性分析。在对外汉语教学中汉语并列结构同样占据着十分重要的地位,本文通过收集学生课堂用语,先分析了留学生使用并列结构的情况,然后分析了留学生在使用并列标记和并列项的过程中容易出现的偏误类型、产生偏误的原因、可采取的应对策略等。

孙盼盼[4](2018)在《基于依存语法的语义角色标注语料库构建研究》文中提出随着“互联网+”时代的到来,一些传统的学科受计算机技术的影响,产生了一些新的研究方向与研究方法。其中自然语言处理作为一门语言学与计算机科学相交叉的学科,逐渐成为人们关注的热点。自然语言处理的核心是对自然语言进行理解,而构建语义角色标注语料库可以有效地帮助计算机理解复杂的自然语言。本文的工作主要包括以下三个方面。第一,提出树结构的谓词论元结构标注框架并构建14463句规模的标注语料库。目前国内外基于语料库进行语义角色标注的研究很多,包括基于短语结构语法的语义角色标注和基于依存语法的语义角色标注。在利用依存语法理论构建语义角色标注语料库方面,目前大多数可用的语义资源标注后形成的是语义依存图的形式,其中包含多个父节点,并且允许依存弧相互交叉,这使得论元结构的自动标注在计算时更加费时费力。针对上述问题,本文提出一种新的标注框架,通过建立一种兼具谓词论元信息和句法依存关系的依存树,来确保句法和语义标签的兼容性,在该框架中句法标注和语义标注之间的依存弧相同,改变的只是依存关系标签,这样能保证标注语义信息后形成的依然是一棵依存树而非一幅依存图。第二,提出语义角色传递机制以描写包括主语在内的成分省略现象。据统计汉语中只有64%的句子有主语,这表明汉语中主语成分的空缺是一个非常值得研究的课题。比如句子“他应邀在北京举办了个人演唱会”,根据依存语法原则,“他”与“举办”之间有依存弧,在进行语义角色标注时我们可以将其标注为“主事”;但是“他”跟“应邀”之间没有依存关系,为了将这两者之间的语义关系构建出来,本文提出了语义角色传递机制,即主语“他”可以通过动词“举办”传给动词“应邀”,做“应邀”的主事。第三,基于标注语料库对语义角色传递现象进行系统分析。本文利用空语类理论对语料库中存在的语义角色传递现象进行了深入细致的描述,相较于传统的基于内省的汉语定性研究,本文的方法立足于真实语料,能够更加客观地对传递现象进行分析和总结。本文共分为以下四个部分:绪论,主要介绍本文的选题背景、相关理论、相关研究、研究方法以及研究意义。选题背景主要阐述本文选题缘由;理论背景主要包括依存语法理论、论元理论和空语类理论。相关研究主要阐述了语义角色划分、语义角色标注语料库构建、句法与语义角色对应关系以及现代汉语空语类现象研究这四个方面的内容;在研究方法上,本文主要采用人工构建语料库的方法、理论分析与定量分析相结合的方法。语义角色标注的意义在于对结构不同但具有相同语义关系的句子给出一致标注,并且为了保持句法与语义结构的兼容,提出语义角色传递机制。第一章,叙述语义依存树库的框架。所叙框架旨在对句法结构不同、基本逻辑语义相同的句子给出一致标注。本章主要介绍语义角色标注语料库的语料来源、语义角色类型、标注规则以及标注平台。第二章,语义角色传递机制。语义角色传递机制的提出是为了消解依存树库中句法结构信息和语义信息之间的不兼容性。本章主要介绍了语义角色传递机制的提出动机、具体内容和传递示例。第三章,语义角色标注语料库的研究分析。本章首先将宾州中文树库中对空语类现象的归类和本文作了对比;其次分别对主语、话题和宾语的传递做了统计分析;最后把句法和语义之间的关系进行了对应分析。结语,概括本文的主要研究内容、研究成果;总结本文对中文信息处理以及汉语语法、语义研究的意义;最后,分析本文研究的不足之处并对下一步工作进行规划。

施茜[5](2017)在《中国信息化政策创新与扩散研究 ——以中长期信息化规划政策文本为例》文中提出信息化是信息技术和信息资源与国家社会、经济、文化等综合发展高度集成的发展模式,是20世纪90年代兴起的全球性社会变革浪潮。信息化政策作为国家引导和调控信息化工作的主要手段,代表了国家或地方的战略需求与社会规范。目前,信息化政策研究关注政策主题演进或变迁,注重跟踪高频政策概念或核心政策概念,而大量的特征政策概念或创新政策概念并未完全纳入政策演化的分析体系。此外,我国自九五时期以来,积累了数量可观的政策文本,使得信息化政策文本的量化分析成为可能。因此,本文基于政策扩散理论和政策文本分析,提出建立并跟踪政策概念体系中的中低频政策概念的演化模型,包括行政级别、时区和主题类型三个分析维度,通过政策文本语料获取和主题建模,探索中国信息化政策在时区、行政级别和主题类型等不同维度的扩散特征,亦即两个典型研究问题:中国信息化政策的主题结构及主题演变特征和中国信息化政策的主题网络结构。中国信息化政策文本类型丰富,分为地方条例、信息化规划、信息化实施意见或细则、信息化项目管理办法、信息化相关政策以及信息化专项政策六大类。不同的政策文本具有不同的文献格式、版本和结构。本文以信息化中长期规划中的国民经济和社会信息化规划为研究对象,根据针对性和时效性原则确定文本采集范围,采用分级采集和多源采集,获得435份政策文本,并按照针对性、完整性和可用性原则进行政策文本清洗,最终获得412份有效样本。然后,按照文本分词、词性标注、语义合并、低频词剔除等过程进行主题建模。在文本分词阶段,设计了一定范围的禁用词表和过滤词表以提高文本分词性能;在词性标注中,利用ICTCLAS进行词性标注,从而筛选出体词和部分动词;在语义合并过程,基于同义词词林合并同义词、近义词;然后,剔除词频低于一定阈值的词语,获得信息化政策优选词集。最后,对本文的主题建模效果进行评估。利用同义词词林的语义标注以及语义词典内涵的体系结构,进行中国信息化政策主体、客体、行为等政策要素结构在时间演变与空间扩散中的特征分析,并指出同义词词林的语义体系结构在对政策要素解构过程的不足。基于信息化政策的主题优选词集的构建,建立了通过“备选词集-候选词集-优选词集”的映射机制,从而能够进一步针对政策样本个体实施主题索引,形成政策样本的向量空间模型以及政策文本的特征描述框架。通过政策文本-主题分布特征,分别构建了相似相关政策主题网络和特征主题共现网络,从功能和语用层面识别了信息化政策主题的相似性,并对整体网络结构、凝聚子群结构、主题位置等要素分析。并进一步讨论政策角色分层以及相关主题扩散议题,从时区和行政级别两个维度分析中国信息化政策的主题扩散特征。本文的不足之处一是在政策文本的自然语言处理环节,由于没有成型的信息政策或政策的规范受控词表体系,必须完全借鉴通用分词工具的自然语言处理,因而通用分词工具对自然语言的处理效率会对分析结果造成一定影响;二是评测样本的完备性对扩散指标测度有一定的影响。未来可进一步研究的方面:一是需要提供更为可靠的分词和政策文本处理工具,比如受控规范词表、信息化政策本体等;二是需要进一步加强信息化政策文本的搜集整理,通过全样本的内容解析,将能更好地理解和分析信息化政策热点与发展趋势;三是通过更多样本或主题验证政策扩散分析的可靠性,并将回溯性研究推广到更加一般化的应用场景,并应用于政策需求分析、前瞻性政策研判与比较。

李洪政,晋耀红[6](2017)在《汉语介词短语自动识别研究综述》文中指出作为一种重要的短语类型,介词短语在汉语中分布广泛,正确识别汉语介词短语对自然语言处理领域的很多任务和应用都有重要的作用和意义。该文对近些年与识别汉语介词短语有关的研究做了梳理,从研究对象、实验评价标准和具体研究方法等几个方面比较详细地介绍了相关工作,最后归纳了汉语介词短语识别研究中表现出来的一些特点,并对未来研究的发展提出了几点建议。

王爱云[7](2014)在《当代中国文字改革研究》文中指出当代中国文字改革,既是对近代以来在中国面临被世界列强瓜分的严重危机下兴起的文字改革思潮与实践的继承和发展,又是对对近代以来文字改革思潮与实践的扬弃。中国共产党继承、发展其中的合理部分,扬弃、摒弃其中的激进、错误主张,使当代中国文字改革取得前所未有的成功,成为中国百年文字改革上最辉煌的一章。论文以1949-1986年间中国共产党领导开展新中国文字改革的三大任务(即整理和简化汉字、推广普通话、制定和推行《汉语拼音方案》)为主要研究对象,系统考察当代中国文字改革理论与实践的来龙去脉和改革发展的曲折历程,客观评价当代中国文字改革所取得的巨大成就和所发挥的重要影响,并深刻分析当代中国文字改革工作中的缺陷不足,从中总结经验教训,以期对当代语言文字工作有所启示。论文共分为八个部分。绪论部分主要阐述选题的缘由和研究的意义,本选题的海内外研究现状述评,论文的研究思路、方法和基本框架,并对论文的重点、难点和创新之处作了说明。第一章主要回顾近代以来至新中国成立前夕文字改革的历史。先是梳理清朝末年、民国初年、五四时期至上个世纪二三十年代的文字改革思潮和文字改革运动中的理论主张和实践情况,然后追溯民主革命时期中国共产党领导进行文字改革的主要历程,指出中国共产党的文字改革思想和理论是对近代以来文字改革探索的继承、扬弃和发展,而中国共产党在根据地所推行的文字改革实践为当代中国文字改革积累了宝贵的经验教训。第二章论述当代中国开展文字改革的历史背景和中国共产党对文字改革的战略认识。一是分析新中国成立初期文字改革的理论准备,包括对马克思主义语言文字理论、近代以来文字改革理论以及对文字发展规律的认识等;二是阐述文字改革的时代需求,主要分析当时中共将文字改革提上日程所面临的国内外形势——新中国建设的需要和当时世界范围内拼音化文字改革的发展趋势。第三章记述1949-1978年社会主义革命和建设时期文字改革工作的全面展开,重点梳理中共在领导文字改革过程中如何确定文字改革的目标和文字改革三大任务,文字改革工作如何掀起高潮、在调整巩固中稳步前进,并在“文化大革命”时期和两年徘徊时期在低潮中蹒跚前行,展现新中国文字改革所取得的伟大成就和所走过的曲折历程。第四章考察1979-1986年党对建国以来文字改革工作进行的反思和新时期文字改革工作方针的调整。主要分析改革开放新形势下党和政府对文字改革“拼音化”方向、是否要继续推进文字改革工作等问题的反思,以及根据新形势需要对新时期语言文字工作方针所做出的调整,包括废除“文化大革命”时期制订的《第二次汉字简化方案(草案)》,完成文字改革工作的拨乱反正;召开1986年全国语言文字工作会议,确立新时期语言文字工作方针,将新时期语言文字工作重点由文字改革转向加强语言文字的规范化和标准化。第五章按专题概述1986年以后的新时期语言文字工作的主要内容和成就。由于这一时期的语言文字工作的重点已经不是文字改革,因此对这一时期的工作不作全面深入研究,而是从中共中央对新时期语言文字工作的重视和支持、大力推广积极普及普通话、努力推进汉字规范化标准化建设、继续推行并完善《汉语拼音方案》、积极开辟中文信息处理工作新局面这五个方面来概述这一时期的语言文字工作情况。第六章对当代中国文字改革作出总体评价。论文采取辩证唯物主义和历史唯物主义的原则,对当代中国文字改革的性质和特点、成就和影响予以客观评价,分析当代文字改革工作存在的不足和缺点,在此基础上总结对当前语言文字工作的若干启示。结束语部分主要对目前学术界关于文字改革等问题的继续探索,即“中国语文现代化”研究进行评述,并对如何大力推进语文现代化建设的探索提出了三点建议。

尹蔚[8](2008)在《多维视域下的有标选择复句研究》文中研究指明本课题的研究以小句中枢说理论为指导思想,先对现代汉语共同语中的有标选择复句做了较为全面的考察,然后对汉语方言、少数民族语言、中文信息处理领域的有标选择复句依次进行研究,最后是对“或者说”类有标选择复句的个案考察。在理论运用方面,小句中枢说是本文的灵魂、统帅,两个“三角”、“句管控”是本文的主要研究方法,与此同时,我们还借鉴了认知语言学、功能语言学以及类型学中的相关做法。全文共分为七个部分。第一部分对论题、研究意义、研究思路、研究方法、理论指导等做了具体阐释。第二部分以“小三角”理论为指导,对现代汉语共同语中的有标选择复句展开研究。具体考察了它的句式构成、语义关系以及语用价值。句式构成主要探讨关系标记、前呼句跟后应句;语义关系则着眼于前呼句跟后应句语义上的共性特征、个性特征以及复合型语义关系;语用价值部分则主要对广义语用价值和狭义语用价值作了辩证解读,并且从句法语义格式、交际双方的相互关系、语用场合、语用需求等角度探求了有标选择复句的语用价值。第三部分研究的是汉语方言中的有标选择复句。先具体考察它们的使用情况,然后将其与普通话中的有标选择复句就某些方面展开比较研究。发现官话区方言、非官话区方言以及普通话中的有标选择复句之间存在一种辩证关系,即“异中有同,同中有异”。第四部分探讨少数民族语言中的有标选择复句。先考察亲属语言中有标选择复句的使用情况,并将其与普通话中的有标选择复句进行比较,然后考察非亲属语言中有标选择复句的使用情况,并将其与普通话中的有标选择复句进行比较。得到的结论是汉语亲属语言、汉语非亲属语言以及普通话中的有标选择复句也是有同有异。第五部分研究的是中文信息处理领域的有标选择复句。主要包括两方面的内容:其一,以“是……,还是……”为例探讨合用型选择关系标记的自动识别,并总结归纳出四条规律,即语序制约律、相互制约律、句法空间制约律、亲密度制约律。其二,以小句关联理论为基础,探讨“两句式”、“三句式”、“四句式”有标选择复句层次关系的自动识别。第六部分是个案考察,以“或者说”类有标选择复句为研究对象展开考察。先考察它的语表形式,接着考察它的语里意义,最后考察它的语用机制。不仅从各个侧面观察了“或者说”以及前呼句、后应句,而且概括了六种主要的语义类型,考察了“或者说”类有标选择复句蕴含的哲学依据、认知依据及其所体现的语用策略。第七部分是对全文的总结。具体说来,先从理论价值和应用价值两个方面对本课题的研究价值予以总结,接着归纳概括本课题的几个基本结论,然后是与本课题有关的思考,其中包括“大科学”与“小科学”之思辨、“事实发掘”与“理论创建”之思辨、“国产理论”与“国外理论”之思辨、“中国特色”与“国际视野”之思辨、“两点论”与“重点论”之思辨,最后是对后续研究的展望。

李琼[9](2008)在《汉语复句书读前后语言片段的非分句识别》文中研究表明为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下:第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。第六章根据邢福义先生的有关论着从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。

何淑芳[10](2006)在《基于BBS文本信息的中文自动分词系统的研究》文中研究表明随着Internet技术的发展,各种网络应用服务越来越多,BBS(Bullet in Boards System )的开设为广大网络用户开辟了自由发表言论的空间,但一些不健康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用户言论中有效的清除不文明及反动言论成为当前网络管理人员越来越关心的问题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下,已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现BBS的安全管理工作就成为各网站越来越关注的热点。目前针对BBS文档的鉴别与过滤还不成熟。由于BBS的特殊性,用于普通Web文档和电子邮件的鉴别技术在用于鉴别BBS文档时效果并不理想。研究对BBS文本内容进行数据挖掘,发现并自动删除不健康及反动言论,对网络管理有着非常重要的现实意义。在处理大量文档时,需要从大量文档数据中分析和提取有用信息,需要相关的工具完成不同文档的比较,以及文档重要性和相关性的排列,或找出多文档的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研究课题。文本挖掘即文本数据库中的知识发现,它是数据挖掘的一个分支。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点。基于BBS的文本挖掘就是从BBS的内容或其描述中提取所需信息的过程,它在BBS的管理中扮演着越来越重要的角色。对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词是中文信息处理领域中的基础课题,也是一个难点问题。由于中文文本是按句连写的,词间无间隙,按句连写转换成按词连写,词的正确切分是进行中文文本处理的必要条件,它是一切工作的基础。本文的主要工作就是设计和实现一种快速分词算法,将BBS用户提交给服务器准备发送的内容截获并保存在文本文件中,并对这些文本文件进行分词处理,为下一步的文本分类及实现文本挖掘的要求和BBS的安全管理打下基础。本文采集登录BBS站点的每一用户基本信息( IP地址、用户名、信用等级

二、我国中文信息处理技术达到新水平(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、我国中文信息处理技术达到新水平(论文提纲范文)

(1)汉维词语的人机翻译对比研究 ——以《习近平谈治国理政》为例(论文提纲范文)

中文摘要
摘要
Abstract
引言
    一、选题背景及意义
    二、研究现状
    三、创新之处
    四、研究方法
第一章 《习近平谈治国理政》平行语料库的建立及数据分析
    第一节 版本选择
        一、汉语版本
        二、维语译本
    第二节 平行语料库的对齐与研制
    第三节 平行语料库的检索分析工具简介
    第四节 《习近平谈治国理政》语料库数据分析
        一、类符/形符比(TTR)
        二、词性分布
        三、词频
        四、平均句长
    小结
第二章 《习近平谈治国理政》各类词语的人机翻译对比
    第一节 实词的人机翻译对比
        一、汉维实词翻译问题概述
        二、各类实词的人机翻译对比探讨
        (一)名词
        (二)代词
        (三)动词
        (四)形容词
        小结
    第二节 虚词的人机翻译对比
        一、汉维虚词翻译问题概述
        二、各类虚词的人机翻译对比探讨
        (一)介词
        (二)副词
        (三)助词
        (四)连词
        小结
第三章 汉维词类人机翻译的共性与差异
    第一节 人机翻译的共性
    第二节 人机翻译的差异
        一、人机译本词语选择的差异
        二、人机译本词语形态的差异
        三、人机译本词类范畴差异
    小结
第四章 《习近平谈治国理政》机器翻译问题探讨
    第一节 机器翻译中的错误分析
        一、过译
        二、欠译
        (一)隐化
        (二)漏译
        (三)缺失适应维语语法结构的词语
        (四)缺失习惯性词语
        三、词序错误
        四、选词错误
        五、词形变化错误
    第二节 机器翻译的整体性效果评价
    第三节 未来机器翻译工作的建议
    小结
结语
参考文献
后记(致谢)
读硕期间发表的论文目录

(2)计算机技术在内蒙古自治区医学领域的应用及影响研究(1977-1990) ——以内蒙古医学院为例(论文提纲范文)

中文摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 研究范围的界定
        1.2.1 “计算机技术”的概念界定
        1.2.2 计算机技术相关术语的辨析
        1.2.3 研究分期的方法
        1.2.4 本文研究范围
    1.3 研究目的与意义
    1.4 研究综述
        1.4.1 国外研究现状
        1.4.2 国内研究现状
    1.5 研究内容与创新之处
    1.6 研究思路与方法
第2章 国内外医学领域应用计算机技术的发展特征分析(1977-1990年)
    2.1 国外医学领域应用计算机技术的发展特征分析
        2.1.1 国外计算机技术发展水平
        2.1.2 国外医学领域应用计算机技术的情况
    2.2 国内计算机技术在医学领域应用特征
        2.2.1 国内计算机技术发展水平
        2.2.2 国内医学领域应用计算机技术的情况
        2.2.3 国内相关机构、学术团体与开展的交流活动
        2.2.4 人才培养
    2.3 技术应用水平的综合评价分析
第3章 内蒙古自治区医学领域应用计算机技术的历史研究
    3.1 内蒙古自治区的地方相关政策、措施的支持
        3.1.1 国家政策引导及内蒙古自治区地方支持推动
        3.1.2 成立计算机技术研究应用的机构与开展交流活动..
        3.1.3 内蒙古计算机技术应用的人才构成及培养途径
    3.2 计算机相关技术的逐步引进与本地化应用
        3.2.1 技术的自主探索与国家支援
        3.2.2 计算机硬件设备的引进
        3.2.3 计算机技术在各领域应用的起步
    3.3 计算机技术在医学领域的应用研究
        3.3.1 辅助医学研究
        3.3.2 辅助临床诊断
        3.3.3 医院管理
        3.3.4 医学情报检索
    3.4 综合评价分析
        3.4.1 内蒙古自治区范围内计算机技术的发展与在各领域应用的特征
        3.4.2 内蒙古自治区医学领域应用计算机技术的总体特征
第4章 计算机技术在内蒙古医学院的应用影响实例研究
    4.1 关于内蒙古医学院的代表性
    4.2 计算机技术应用于医学研究领域的萌芽时期(1977-1985)
        4.2.1 辅助临床诊断——早期的探索与准备
        4.2.2 辅助医学研究——自主编程探索
    4.3 计算机技术在内蒙古医学院应用的起步时期(1986-1990)
        4.3.1 辅助医学研究——软件包的引进与代表性成果的产出
        4.3.2 辅助临床诊断——促进临床诊断水平的不断提高..
        4.3.3 医院管理——效率的提高与工作流程的初步改变..
    4.4 内蒙古医学院在促进计算机技术应用采取的措施
    4.5 综合评价分析
结论
参考文献
致谢
攻读学位期间发表的学术论文目录

(3)现代汉语并列结构研究及二语习得(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究缘起
    1.2 研究综述
        1.2.1 从研究对象看
        1.2.2 从研究方法看
        1.2.3 研究现状简评
    1.3 研究思路
    1.4 理论方法
    1.5 语料说明
第二章 并列结构的基本概念及类别
    2.1 引言
    2.2 基本概念
        2.2.1 “并列”与“联合
        2.2.2 并列结构
        2.2.3 并列项
        2.2.4 并列标记
    2.3 并列结构的类别
        2.3.1 并列项的单位类别
        2.3.2 并列项的数目类别
        2.3.3 并列项的性质类别
        2.3.4 并列结构的标记类别
        2.3.5 并列结构的逻辑类别
    2.4 小结
第三章 并列结构的关联方式及标记模式
    3.1 引言
    3.2 显性关联方式
        3.2.1 并列连词
        3.2.2 关联副词
        3.2.3 助词
        3.2.4 数词、数量短语
        3.2.5 词缀
    3.3 隐性关联方式
        3.3.1 辞格手段
        3.3.2 停顿
        3.3.3 零标记
    3.4 标记模式
        3.4.1 两项式并列结构
        3.4.2 三项式并列结构
    3.5 小结
第四章 并列标记的显隐及制约因素
    4.1 引言
    4.2 并列标记显现的特征
        4.2.1 形式特征
        4.2.2 语义特征
        4.2.3 语用特征
    4.3. 并列标记隐匿的特征
        4.3.1 形式特征
        4.3.2 语义特征
        4.3.3 语用特征
        4.3.4 认知特征
        4.3.5 辞格特征
    4.4 并列标记显隐的制约因素
        4.4.1 客观因素
        4.4.2 主观因素
        4.4.3 其他因素
    4.5 本章小结
第五章 并列结构的语序原则及排列动因
    5.1 引言
    5.2 常规语序的排列原则及相互竞争
        5.2.1 常规语序的排列原则
        5.2.2 各语序原则间的竞争与妥协
    5.3 异变语序的类型和原因
        5.3.1 异变语序的类型
        5.3.2 异变语序的原因
    5.4 本章小结
第六章 并列结构的层级与搭配
    6.1 引言
    6.2 单组并列结构
        6.2.1 语义分段
        6.2.2 分段方式
        6.2.3 搭配类型
    6.3 双组并列结构
        6.3.1 分组方式
        6.3.2 形式特征
        6.3.3 搭配类型
    6.4 多组并列结构
        6.4.1 分组方式
        6.4.2 形式特征
        6.4.3 搭配类型
    6.5 小结
第七章 异类并列结构的类型及特征
    7.1 引言
    7.2 形式异类并列结构
        7.2.1 音节长度异类
        7.2.2 词性异类
        7.2.3 结构异类
        7.2.4 单位异类
    7.3 语义异类并列结构
        7.3.1 语义范畴异类
        7.3.2 语义层级异类
        7.3.3 语义量级异类
        7.3.4 语义异类并列结构的形成基础
    7.4 各异类并列结构的独用与合用
        7.4.1 独用异类
        7.4.2 合用异类
    7.5 异类并列结构的异类度
    7.6 小结
第八章 面向对外汉语教学的并列结构分析
    8.1 引言
    8.2 留学生汉语并列结构的使用情况
        8.2.1 使用特点
        8.2.2 并列标记运用情况
        8.2.3 语序与认知
        8.2.4 使用熟练度
    8.3 留学生汉语并列结构的偏误分析
        8.3.1 偏误类型
        8.3.2 偏误原因
    8.4 汉语并列结构的二语教学建议
        8.4.1 教师方面
        8.4.2 教材方面
        8.4.3 学生方面
    8.5 小结
第九章 结语
    9.1 全文总结
    9.2 研究创新
    9.3 研究不足
参考文献
在校期间发表的论文
致谢

(4)基于依存语法的语义角色标注语料库构建研究(论文提纲范文)

摘要
Abstract
绪论
    一、研究背景
    二、理论基础
    三、相关研究
    四、研究方法和研究意义
第一章 语义依存树库的框架
    一、语义依存树库的整体框架
    二、语义角色标注
    三、语义角色标注平台
    四、本章小结
第二章 语义角色传递机制
    一、语义角色传递机制的提出
    二、语义角色传递机制
    三、语义角色传递类型
    四、语义角色在不同句型中的传递
    五、本章小结
第三章 基于语料库对语义角色传递的分析
    一、主语、话题、宾语传递现象统计
    二、语义角色传递与宾州中文树库空语类对比研究
    三、句法与语义对应关系研究分析
    四、本章小结
结语
    一、本文主要解决的问题
    二、本文研究不足及未来研究方向
参考文献
致谢
作者简历

(5)中国信息化政策创新与扩散研究 ——以中长期信息化规划政策文本为例(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 研究概念界定与研究现状
        1.2.1 概念界定
        1.2.2 相关研究进展与不足
    1.3 研究问题的提出
    1.4 研究内容与研究方法
        1.4.1 研究内容
        1.4.2 研究方法
    1.5 研究的难点和创新之处
        1.5.1 研究难点
        1.5.2 研究创新之处
第二章 中国信息化政策文本语料
    2.1 中国信息化政策文本界定
        2.1.1 中国信息化政策类型界定
        2.1.2 中国信息化政策文本类型
    2.2 中国信息化政策文本采集
        2.2.1 政策样本采集范围
        2.2.2 政策文本采集策略
    2.3 中国信息化政策文本清洗
第三章 中国信息化政策主题建模
    3.1 信息化政策主题建模方法
        3.1.1 主题建模的典型方法
        3.1.2 信息化政策主题建模方法设计
    3.2 信息化政策文本主题词集生成
        3.2.1 信息化政策文本分词
        3.2.2 信息化政策主题候选词集
        3.2.3 信息化政策主题候选词的语义合并
        3.2.4 信息化政策主题优选词
    3.3 信息化政策主题建模效果评估
        3.3.1 主题优选词集的表意范围
        3.3.2 主题优选词集编码的文本分布
第四章 中国信息化政策主题要素结构分析
    4.1 中国信息化政策主题语义结构与要素结构
    4.2 中国信息化政策主体角色及其政策变迁
        4.2.1 政策主体类属结构分析
        4.2.2 政策利益相关者主题的政策变迁
    4.3 中国信息化政策相关要素结构及其差异性分析
        4.3.1 政策对象、政策理念与政策行为
        4.3.2 中国信息化政策相关要素的历时演变
        4.3.3 中国信息化政策相关要素的空间扩散
    4.4 中国信息化政策主题要素结构分析小结
第五章 中国信息化政策主题相似网络分析
    5.1 中国信息化政策主题向量空间模型
        5.1.1 政策主题向量空间的建构原理
        5.1.2 信息化政策主题相似性
    5.2 中国信息化政策主题相似相关网络分析
        5.2.1 信息化政策主题相似矩阵
        5.2.2 信息化政策主题相似聚类
        5.2.3 信息化政策主题相似相关网络结构分析
    5.3 中国信息化政策特征主题共现网络分析
        5.3.1 政策文本特征提取
        5.3.2 信息化政策主题共现矩阵
        5.3.3 信息化政策主题共现网络
    5.4 典型政策主题网络演化
        5.4.1 典型政策主题网络历时演进分析
        5.4.2 典型政策主题网络空间扩散分析
        5.4.3 信息化政策主题网络演化分析结论
第六章 中国信息化政策分层主题扩散分析
    6.1 中国信息化政策分层主题扩散分析框架
        6.1.1 政策创新扩散维度
        6.1.2 信息化政策主题分层
        6.1.3 政策创新扩散测算指标
    6.2 中国信息化政策分层主题空间扩散分析
        6.2.1 信息化政策主题空间扩散的总体特征
        6.2.2 信息化政策分层主题空间扩散
    6.3 中国信息化政策分层主题历时扩散
        6.3.1 信息化政策主题历时扩散的总体特征
        6.3.2 信息化政策分层主题历时扩散
    6.4 中国信息化政策分层主题扩散讨论
        6.4.1 信息化政策分层主题空间扩散
        6.4.2 信息化政策分层主题历时扩散
第七章 总结与展望
    7.1 结论与启示
    7.2 研究不足与展望
参考文献
附录1 抽样名录
附录2 代码与程序
在学期间发表的学术成果以及研究成果
致谢

(6)汉语介词短语自动识别研究综述(论文提纲范文)

1 引言
2 介词组块与介词短语
3 介词短语识别实验指标
4 介词短语识别方法
    4.1 规则方法
    4.2 统计方法
        4.2.1 HMM方法
        4.2.2 ME方法
        4.2.3 SVM方法
        4.2.4 CRF方法
    4.3 混合方法
5 总结

(7)当代中国文字改革研究(论文提纲范文)

论文创新点
内容摘要
ABSTRACT
引言
    1. 问题的提出和研究的意义
    2. 海内外研究现状综述
    3. 研究思路、研究方法和基本框架
    4. 研究重点、难点和创新之处
1 当代中国文字改革的历史视野
    1.1 近代以来以救国图强为初衷的文字改革思潮与实践
        1.1.1 清末文字改良主义思潮与实践
        1.1.2 20世纪初激进主义文字改革主张及汉字存废之争
        1.1.3 四时期至二三十年代涌动的文字改革思潮与实践
    1.2 民主革命时期中国共产党领导的文字改革运动
        1.2.1 早期中国共产党人对文字改革的关注
        1.2.2 20世纪30年代中国共产党领导拉丁化新文字运动
        1.2.3 抗战时期中国共产党在根据地试验拉丁化新文字
        1.2.4 解放战争时期中国共产党领导的文字改革
    1.3 本章小结
2 当代文字改革问题的提出
    2.1 新中国成立前后文字改革问题的提出
        2.1.1 文字改革问题的提出
        2.1.2 文字改革的理论准备
    2.2 新中国成立后推进文字改革的历史必然性
        2.2.1 新中国建设对文字改革的迫切需求
        2.2.2 拼音化文字改革的世界趋势
    2.3 本章小结
3 社会主义革命和建设时期文字改革全面展开
    3.1 设立机构,高屋建瓴、全盘规划文字改革
        3.1.1 文字改革机构的设立
        3.1.2 文字改革方针和方案的确定
        3.1.3 整风运动中关于文字改革的争议
        3.1.4 中共中央调整确定文字改革三大任务
    3.2 人民群众的欢迎与文字改革工作的高潮
        3.2.1 《汉字简化方案》的推行
        3.2.2 掀起推广普通话热潮
        3.2.3 汉语拼音广泛应用
    3.3 文字改革在调整巩固中稳步前进
        3.3.1 修订《汉字简化方案》,编印《简化字总表》
        3.3.2 汉字整理工作取得突出成绩
        3.3.3 推广普通话工作持续进行
        3.3.4 扩大汉语拼音应用,改进汉语拼音教学法
    3.4 “文化大革命”及两年徘徊时期文字改革在低潮中蹒跚
        3.4.1 文字改革的中断与周恩来努力恢复文字改革工作
        3.4.2 拟订、发表《第二次汉字简化方案(草案)》
        3.4.3 重新恢复推广普通话
        3.4.4 恢复推行汉语拼音,努力扩大汉语拼音应用
        3.4.5 启动汉字信息处理工程
    3.5 本章小结
4 文字改革的拨乱反正和调整
    4.1 文字改革工作的复苏
        4.1.1 充实文字改革领导机构,重申文字改革方针
        4.1.2 修订《第二次汉字简化方案(草案)》
        4.1.3 完善《汉语拼音方案》,开展“注·提”教学实验
        4.1.4 各行各业踊跃推广普通话
        4.1.5 汉字信息处理取得阶段性成果
    4.2 关于文字改革的争议和反思
        4.2.1 改革开放对文字改革提出新要求
        4.2.2 文字改革工作座谈会研究新时期文字改革的方针任务
        4.2.3 对文字改革的不同意见
        4.2.4 对文字改革的再思考
    4.3 文字改革工作的里程碑
        4.3.1 全国语言文字工作会议确立新时期语言文字工作方针
        4.3.2 废除“二简字”,重新发表《简化字总表》
    4.4 本章小结
5 新时期语言文字工作全面发展
    5.1 中共中央对新时期语言文字工作的重视和支持
        5.1.1 调整健全语言文字工作机构
        5.1.2 与时俱进,创新对语言文字的认识
        5.1.3 加强对语言文字工作的指导和规划
        5.1.4 积极推进语言文字工作的法制化进程
    5.2 大力推广、积极普及普通话
        5.2.1 推普工作方针的调整
        5.2.2 推广普通话工作的新举措
    5.3 努力推进汉字规范化、标准化建设
        5.3.1 加强社会用字管理,巩固汉字简化成果
        5.3.2 整理现行汉字,促进汉字规范化、标准化
    5.4 继续完善并扩大《汉语拼音方案》的应用
        5.4.1 发布、修订《汉语拼音正词法基本规则》
        5.4.2 推广“注音识字,提前读写”教学实验
        5.4.3 扩大汉语拼音在中文信息处理等领域的应用
    5.5 中文信息处理标准化建设成绩显着
    5.6 本章小结
6 当代中国文字改革的总体评价
    6.1 当代中国文字改革的性质
        6.1.1 当代中国文字改革是对近代以来文字改革的继承、扬弃与发展
        6.1.2 当代中国文字改革是一个不断调整、自我扬弃的过程
    6.2 当代中国文字改革的特点
        6.2.1 当代中国文字改革以广大人民群众利益为出发点
        6.2.2 当代中国文字改革工作慎重而严谨
    6.3 当代中国文字改革的成就
        6.3.1 对推进新中国建设做出不可磨灭的贡献
        6.3.2 促进中华民族传统文化的传承
        6.3.3 对汉字和华语文化圈国家和地区产生积极影响
        6.3.4 当代中国文字改革成果在国际上发挥重要作用
    6.4 当代中国文字改革的不足
        6.4.1 文字改革指导思想上存在急于求成的毛病
        6.4.2 汉字简化方法存在一些问题
        6.4.3 文字改革工作一度存在学术问题政治化处理
    6.5 当代中国文字改革的启示
        6.5.1 文字改革必须处理好文字发展与稳定的关系
        6.5.2 文字改革必须遵循文字发展规律
        6.5.3 文字改革必须适应社会实践的需要
结束语 积极推进中国语文现代化探索
    1. 关注社会语文生活,积极解决所存在的问题
    2. 继续推动普通话、规范汉字和汉语拼音的科学发展
    3. 大力推进语言文字规范化、信息化、国际化进程
参考文献
攻博期间发表的与学位论文相关的科研成果目录
后记

(8)多维视域下的有标选择复句研究(论文提纲范文)

内容提要
Abstract
第一章 引言
    第一节 论题诠解
    第二节 研究现状
        一 专书研究
        二 专题论文研究
    第三节 研究意义
    第四节 研究思路
    第五节 研究方法
    第六节 理论指导
        一 小句中枢说理论的提出
        二 小句中枢说理论的发展
        三 小句中枢说理论的中国特色
        四 小句中枢说理论的国际视野
第二章 共同语视域下的有标选择复句研究
    第一节 导言
    第二节 句式构成之考察
        一 有标选择复句的关系标记
        二 有标选择复句的前呼句
        三 有标选择复句的后应句
    第三节 语义关系之辨察
        一 前呼句跟后应句语义上的共性特征
        二 前呼句跟后应句语义上的个性特征
        三 前呼句跟后应句之间的复合型语义关系
    第四节 语用价值之探察
        一 广义语用价值与狭义语用价值之辩证解读
        二 从句法语义格式的角度探求有标选择复句的语用价值
        三 从交际双方的角度探求有标选择复句的语用价值
        四 从语用场合的角度探求有标选择复句的语用价值
        五 从语用需求的角度探求有标选择复句的语用价值
    第五节 小结
第三章 方言视域下的有标选择复句研究
    第一节 导言
    第二节 官话区方言中的有标选择复句
        一 官话区方言中有标选择复句的使用情况
        二 官话区方言中有标选择复句的异同分析
        三 官话区方言与普通话中有标选择复句之比较
    第三节 非官话区方言中的有标选择复句
        一 非官话区方言中有标选择复句的使用情况
        二 非官话区方言中有标选择复句的异同分析
        三 非官话区方言与普通话中有标选择复句之比较
        四 非官话区方言与官话区方言中有标选择复句之比较
    第四节 小结
第四章 少数民族语言视域下的有标选择复句研究
    第一节 导言
    第二节 汉语亲属语言中的有标选择复句
        一 汉语亲属语言中有标选择复句的使用情况
        二 汉语亲属语言中有标选择复句的异同分析
        三 汉语亲属语言与普通话中有标选择复句之比较
    第三节 汉语非亲属语言中的有标选择复句
        一 汉语非亲属语言中有标选择复句的使用情况
        二 汉语非亲属语言中有标选择复句的异同分析
        三 汉语非亲属语言与普通话中有标选择复句之比较
    第四节 小结
第五章 信息处理视域下的有标选择复句研究
    第一节 导言
    第二节 从“是……还是……”看选择关系标记的自动识别
        一 问题的提出
        二 语序制约律
        三 相互制约律
        四 句法空间制约律
        五 亲密度制约律
    第三节 基于小句关联理论的有标选择复句层次关系自动识别
        一 “两句式”有标选择复句层次关系的自动识别
        二 “三句式”有标选择复句层次关系的自动识别
        三 “四句式”有标选择复句层次关系的自动识别
    第四节 小结
第六章 “或者说”类有标选择复句研究
    第一节 导言
    第二节 “或者说”类有标选择复句的语表形式考察
        一 选择关系标记“或者说”面面观
        二 “或者说”类有标选择复句的前呼句和后应句
    第三节 “或者说”类有标选择复句的语里意义考察
        一 “等义近义”型
        二 “概括→具体”型
        三 “绝对→相对”型
        四 “程度上的‘轻→重’”型
        五 “包含与被包含”型
        六 “迂回曲折”型
    第四节 “或者说”类有标选择复句的语用机制考察
        一 “或者说”类有标选择复句蕴含的哲学依据
        二 “或者说”类有标选择复句蕴含的认知依据
        三 “或者说”类有标选择复句体现的语用策略
    第五节 小结
第七章 结语
    第一节 本课题的研究价值
        一 理论价值
        二 应用价值
    第二节 本课题的基本结论
    第三节 本课题的相关思考
        一 “大科学”与“小科学”之思辨
        二 “事实发掘”与“理论创建”之思辨
        三 “国产理论”与“国外理论”之思辨
        四 “中国特色”与“国际视野”之思辨
        五 “两点论”与“重点论”之思辨
    第四节 本课题的后续研究
        一 有标选择复句中语表语里之间“一对多”现象的研究
        二 海量真实文本中有标选择复句层次关系自动识别的研究
参考文献
后记

(9)汉语复句书读前后语言片段的非分句识别(论文提纲范文)

内容提要
Abstract
绪论
    0.1 研究背景
    0.2 选题的意义
    0.3 本文的理论背景
    0.4 运用的研究方法
    0.5 论文的组织结构
第一章 非分句的性质和范围
    1.1 单复句的纠结和非分句的界定
        1.1.1 前人对单复句划界问题的研究
        1.1.2 单复句的纠结
        1.1.3 用“小句中枢”理论界定非分句的范围
    1.2 以标点符号为分句识别标记
        1.2.1 标点符号的作用
        1.2.2 逗号设下的“陷阱”
        1.2.3 初始程序的修改
    1.3 非分句分类分析
    1.4 小结
第二章 基于词性信息的自动识别和标注
    2.1 标注说明
        2.1.1 词性标注说明
        2.1.2 短语标注说明
    2.2 不含动词语言片段的识别和标注
    2.3 利用短语库进行识别和标注
    2.4 小结
第三章 基于句法信息的自动识别和标注
    3.1 计算机语言处理的工作模式
    3.2 句法信息的作用
    3.3 利用“形式标记”进行非分句识别
        3.3.1 显性句法标记
        3.3.2 识别和标注规则
        3.3.3 结构助词“的”
        3.3.4 关于“是”
    3.4 小结
第四章 实验及结果
    4.1 程序的设计
    4.2 实验结果分析
第五章 基于语义和搭配知识的自动识别
    5.1 语义知识对自然语言计算机理解的重要性
    5.2 国内外面向计算机的语义研究概况
    5.3 本章研究运用的语义理论
    5.4 阐述工作前提
        5.4.1 研究语料的选取和限定
        5.4.2 解决问题的思路
    5.5 动宾语义搭配框架
        5.5.1 框架描述要素
        5.5.2 动宾语义搭配框架描述
        5.5.3 “N_1(的)N_2”考察
        5.5.4 实例分析
        5.5.5 建立“动宾搭配频率表”的思路
    5.6 小结
第六章 名词充当核心词的分句
    6.1 “数量名”结构形成的分句
    6.2 “指代形(的)名”结构充当分句
    6.3 “形名,形名”或“数量名,数量名”结构充当分句
    6.4 “程度形(的)名”结构充当分句
    6.5 “(好)数量形(的)名”结构充当分句
    6.6 “NP了”分句
    6.7 小结
结语
    7.1 总结本文的工作
        7.1.1 我们的成绩
        7.1.2 困难与不足
    7.2 今后的研究计划
附录一:词性代码表
附录二:规则集
附录三:子语料库1中的部分语料
附录四:子语料库2中的部分语料
参考文献
后记

(10)基于BBS文本信息的中文自动分词系统的研究(论文提纲范文)

独创声明
学位论文版权使用授权书
摘 要
Abstract
第一章 绪论
    1.1 选题背景及意义
    1.2 国内外研究现状
    1.3 本文主要的研究工作
    1.4 本文的组织
第二章 文本挖掘概述
    2.1 文本挖掘的定义与过程
    2.2 文本挖掘常用技术与分类
    2.3 文本挖掘中的研究课题
    2.4 文本挖掘的应用领域
    2.5 文本挖掘与相关研究工作的关系
第三章 中文自动分词方法的研究
    3.1 自动分词方法与技术
        3.1.1 基本的机械分词方法
        3.1.2 其它的机械分词方法
        3.1.3 非机械分词方法
    3.2 已实现的中文自动分词系统
        3.2.1 几个国内大学研究的分词系统
        3.2.2 Microsoft Research 汉语句法分析器中的自动分词
    3.3 自动分词系统的评价准则
第四章 BBS 中文文本分词系统的设计与实现
    4.1 开发环境与开发工具
        4.1.1 系统开发环境
        4.1.2 SQL Server2000 介绍
        4.1.3 Jcreator 简介
    4.2 信息采集
        4.2.1 建立文本数据库
        4.2.2 BBS 文档鉴别的要点
    4.3 分词词典设计与实现
        4.3.1 GB2312-80 介绍
        4.3.2 汉语词的特点
        4.3.3 分词词典构造
    4.4 分词算法设计与实现
        4.4.1 本系统采用的分词方法
        4.4.2 分词系统的实现
    4.5 分词结果分析
第五章 总结与展望
    5.1 全文总结
    5.2 下一步工作及展望
参考文献
硕士期间发表的论文
致谢

四、我国中文信息处理技术达到新水平(论文参考文献)

  • [1]汉维词语的人机翻译对比研究 ——以《习近平谈治国理政》为例[D]. 唐小雪. 喀什大学, 2021(07)
  • [2]计算机技术在内蒙古自治区医学领域的应用及影响研究(1977-1990) ——以内蒙古医学院为例[D]. 宁鹏飞. 内蒙古师范大学, 2019(07)
  • [3]现代汉语并列结构研究及二语习得[D]. 王倩. 华中师范大学, 2019(06)
  • [4]基于依存语法的语义角色标注语料库构建研究[D]. 孙盼盼. 鲁东大学, 2018(10)
  • [5]中国信息化政策创新与扩散研究 ——以中长期信息化规划政策文本为例[D]. 施茜. 南京大学, 2017(01)
  • [6]汉语介词短语自动识别研究综述[J]. 李洪政,晋耀红. 中文信息学报, 2017(02)
  • [7]当代中国文字改革研究[D]. 王爱云. 武汉大学, 2014(06)
  • [8]多维视域下的有标选择复句研究[D]. 尹蔚. 华中师范大学, 2008(10)
  • [9]汉语复句书读前后语言片段的非分句识别[D]. 李琼. 华中师范大学, 2008(10)
  • [10]基于BBS文本信息的中文自动分词系统的研究[D]. 何淑芳. 中国海洋大学, 2006(02)

标签:;  ;  ;  ;  ;  

我国中文信息处理技术再上新台阶
下载Doc文档

猜你喜欢