加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 创业 > 点评 > 正文

人工智能的研究热点:自然语言处理

发布时间:2020-09-28 17:48:19 所属栏目:点评 来源:网络整理
导读:人工智能(Artificial Intelligence,简称AI)作为新一轮科技革命和产业变革的重要驱动力量,正在深刻地影响世界、改变世界。而自然语言处理(Natural Language Processing,简称NLP)已成为AI领域的研究热点,它推动着语言智能的持续发展和突破,并越来越多地

由于语言工程、认知科学等主要局限于实验室,目前来看数据处理可能是NLP应用场景最多的一个发展方向。实际上,自从进入大数据时代,各大平台就没有停止过对用户数据的深度挖掘。要想提取出有用的信息,仅提取关键词、统计词频等是远远不够的,必须对用户数据(尤其是发言、评论等)进行语义上的理解。另外,利用离线大数据统计分析的方法进行NLP任务的研究是目前非常有潜力的一种研究范式,尤其是谷歌、推特、百度等大公司在这类应用上的成功经验,引领了目前大数据研究的浪潮。

NLP是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商、金融、物流、医疗、文化娱乐等行业客户的多项业务中。它可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,也能够通过合作,定制个性化的解决方案。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决强AI的核心问题之一,其未来一般也因此密切结合AI发展,尤其是设计一个模仿人脑的神经网络。

训练NLP文本解析AI系统需要采集大量多源头数据集,对科学家来说是一项持续的挑战:需要使用最新的深度学习模型,模仿人类大脑中神经元的行为,在数百万甚至数十亿的注释示例中进行训练来持续改进。当下一种流行的NLP解决方案是预训练,它改进了对未标记文本进行训练的通用语言模型,以执行特定任务;它的思想就是,该模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练,以获得更好的预测性见解。

我们目前已进入一个以互联网为主要标志的海量信息时代,而这些海量信息大部分是以自然语言表示的。一方面,有关的海量信息可为计算机学习自然语言提供更多的“素材”;另一方面,这也为NLP提供更加宽广的应用舞台。例如,作为NLP的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,出现了以谷歌、百度等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家;基于自然语言处理的中文输入法(如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机和手机也正大行其道,协助用户更有效地生活、工作和学习。

现在,NLP领域已经有了大量的人工标注知识,而深度学习可以通过有监督学习得到相关的语义知识,这种知识和人类总结的知识应该存在某种对应关系,尤其是在一些浅层语义方面。因为人工标注,本质上已经给深度学习提供了学习的目标;只是深度学习可以不眠不休地学习,这种逐步靠拢学习目标的过程,可能远比人类总结过程来得更快、更好。这一点,从谷歌公司旗下DeepMind研究团队开发的围棋软件AlphaGo短时间内连胜两位人类围棋高手的事实,似乎能够得到验证。

深度学习在NLP中的应用非常广泛,可以说横扫NLP的各个应用,从底层的分词、语言模型、句法分析、词性标注、语音识别等到高层的语义理解、语用阐释、对话管理、知识问答等方面都几乎都有深度学习的模型,并且取得了不错的效果。有关研究已从传统的机器学习算法转变成更有表现力的深度学习模型,如卷积神经网络和回归神经网络。不过,目前的深度学习技术还不具备理解和使用自然语言所必需的概念抽象和逻辑推理能力,这方面还有待今后进一步的研究。

互联网搜索引擎已经有一段时间让人们使用会话语言和术语来在线搜索事物。现在,谷歌公司的云端硬盘用户已经可以使用这一功能。用户可以搜索存储在谷歌云端硬盘中的文件和内容,就像使用谷歌搜索提供的对云端硬盘内置NLP的新支持一样。该功能使用户可以使用通常用词组表达的查询以及在实际对话中将要使用的查询来更轻松地找到所需的内容。谷歌公司在在线和移动搜索、移动应用程序以及GoogleTranslate等服务中广泛使用NLP;该公司在这一领域的研究是为提高机器阅读和理解人类语言能力所做的更广泛努力的一部分。随着谷歌调整其算法,NLP应该会随着时间的推移变得更好。

英国剑桥量子计算公司(CQC)最近宣布,他们利用自然语言的“固有量子”结构,开辟了一个全新的可能应用领域。其通过将语法句子翻译成量子线路,然后在量子计算机上实现生成的程序,并实际执行问答。这是第一次在量子计算机上执行NLP。通过使用CQC的一流的、平台无关的可重定目标编译器t|ket??,这些程序在IBM量子计算机上成功执行并得到结果,整个突破朝着实现“意义感知”和“语法知悉”的NLP方向迈出了有意义的一大步--这是计算机时代早期以来计算机科学家及计算语言学家追寻的梦想。

美国哈佛大学医学院的研究人员借助NLP技术日前开发出一种工具,可以评估新冠肺炎(COVID-19)患者的病例、社交媒体和健康卫生数据。他们率先努力通过使用机器学习技术查看来自各种来源的数据和信息(包括患者记录、社交媒体和公共卫生数据)来寻找新冠肺炎病毒的解决方案。借助NLP工具,他们还可以搜索有关新冠肺炎病毒的在线信息,并了解爆发的当前位置。另外,研究人员还利用NLP技术对新冠肺炎、药物和疫苗等密集展开研究,同时包括临床诊断与治疗以及流行病学研究等。

中国阿里达摩院的NLP研究团队最近提出优化模型Struct BERT,能让机器更好地掌握人类语法,加深对自然语言的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿里小蜜、蚂蚁金服、优酷等业务。阿里达摩院的语言模型和阅读理解技术也被用于行业赋能,推进AI技术在医疗、电力、金融等行业的落地。据悉,StructBERT模型最近被评为全球性能最强的NLP系统。

根据市场分析机构Mordor Intelligence的一份报告,2019年全球NLP市场价值为109亿美元,预计到2025年将达到348亿美元,复合年增长率为21.5%。该报告指出,在过去的几年中,深度学习架构和算法在市场格局中取得了令人瞩目的进步,而语音分析解决方案正在主导着这一市场,因为传统的基于文本的分析已不足以处理复杂的业务问题。

总之,随着互联网的普及和海量信息的涌现,作为AI领域的研究热点和关键核心技术,NLP正在人们的生活、工作、学习中扮演着越来越重要的角色,并将在科技进步与社会发展的过程中发挥越来越重要的作用。

文/林峰、于利(作者单位分别为美国波士顿大学工学院、日本名古屋大学理学部)

 

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读