干货 |“NLP”与“语言学家”的那些事儿

时间:2019-07-18 来源:www.iraqge.com

澳门网络真人赌博游戏

bd4ec6595f3c40bc974876c2480608c9

2e3c285f794d4fb9bb6b7c178bf4a16e

想象一下,假设时间可以追溯到十年前或二十年前,您能想象没有手机,没有无线网络,没有所有电子设备的生命吗?

这可能很困难。

事实上,在不知不觉中,我们已经被信息浪潮所包围,我们已经处于知识,传播和迭代的时代。所以“AI”,它不是一种追求,一种新的或暂时的刺激,而是一种真正的未来方向,一种公正的需求。

同样,“语言”非常重要。在所有生物中,只有人类具有真正的语言能力,因此人工智能最重要的一点是它可以感觉像是一个人。如果没有办法打破最核心的语言障碍,如何实现所谓的真正智慧,显然这是不可能的。今天,许多“NLP”研究人员正在引入一些语言知识,以帮助他们提取更多的培训功能,并提供更可靠的视角。

下一点实际上是该学科的一个空白。如果我们通常关注科学技术领域,我们会发现主力是指在计算机科学或相关学科背景下为科学技术发展做出贡献的人,以及语言学的背景。更多地关注翻译和教育的两个方向,使用语言作为工具。因此,在未来,我们可能需要跨学科合作。

而且,自然语言分析有两个方向。首先,理解,首先,机器必须能够理解人类语言。另一方面是机器必须能够表达自己的想法。

这两个方面非常困难。如果你不投入大量精力并获得专业支持,你可能会闭门造车。如果只涉及行业中与计算机相关的人员,他们将只能不断优化和升级技术,但大多数人并未参与真正需要应用的核心问题,特别是在语言领域。因此,这是为什么具有文科背景的学生也可以选择AI行业的重要原因。

b1e956eff632420c86c2b1bdb2cf89ca

以智能客户服务为例。如图所示,用户输入首先在左侧。在收到用户输入后,需要首先通过“naturAI语言理解”处理,这是“自然语言理解”。在这样的步骤之后,分析的信息被移交给下一个“diAIog管理器”,它是“会话管理模块”,它确定我们的会话状态并调用“知识图”知识库的知识。

从这里面,我得到了一个非常简单和初步的信息,但是简单的初步信息显然无法直接将其提供给用户,因此它是以下关键节点,即“NLG”。

“NLG”,自然语言生成。

在达到这一步之后,非常粗略的方面被处理成易于理解和自然的语言,最后输出。在整个过程的中间,最重要的是“NLU”,“DM”和“NLG”。这三个模块是我们自然语言分析处理的核心部分。

一步一步的介绍。首先,第一部分是“NLU”,一种自然的语言理解。顾名思义,在分析和输出之前,您应该先了解,理解。这是迈出的第一步。

2710b3578cf34f29a26e769bf7476def

如图所示,右侧有三个例句,“在周日早上询问一小时的清洁工作。”“你能帮我叫我的阿姨来我家吗?”“你应该找一个小时工来清理。“

大多数人都会产生误解。您是否认为对机器的理解与机器翻译相同?看看这个词并结合起来理解?实际上不是,机器明白每个单词的确切含义对它来说并不重要。重要的是整个句子的意思。为了使机器处理,第一步是通过语义分析然后转换。

回顾这三句话。思考之后,你会发现这三个句子是一回事。这时,“NLU”是做什么的?

第一步是“域名识别”。例如,假设我们现在是淘宝的客户服务。此时,用户进来并直接说:“宇宙会爆炸吗?”然后它会立即判断。这是该领域之外的问题。它可以被其他系统筛选和拦截。上课,不会让它去后面的过程。

第二步是“提取意图”以了解用户试图分析的内容。

在成功完成当前两个步骤之后,第三点是填充插槽。回顾前三句话,最完整的信息是第一句话,因为以下两句虽然表达了,但要保留一份清洁信息回家,但没有说清楚时间。当我们分析以下两个句子时,转到插槽提取步骤,您会发现插槽是空的。第一个是不同的。第一个可以首先绘制一个槽,即服务类型和服务时间。插槽已满,然后可以直接处理。

72cfe6c1c5e44e08bce6d31d32c34408

“NLU”现在有两种方法,如图所示,它非常简单,在一个非常简单的答案的情况下,场景也是单一的,用简单粗鲁的规则来进行匹配。但是,正确的模型处理方式不同,模型非常依赖于大量的数据注释。两种方法都有其优点和缺点。

如图所示,如果有迫切需要并且紧急,那么你可以先考虑左边的规则,因为它不需要预先准备数据等步骤,但其容错性非常低,而且它的灵活性也很差,一旦像更新这样的过程发生,迭代维护也很困难。

正确模型的形式,虽然在早期阶段可能需要花费很多精力进行标记和分析,但它非常灵活,覆盖范围广,非常准确,其目标场景可能比左侧更复杂。一些。

接下来,作为对话系统的大脑的“DM会话管理”维持更新的会话的状态,并基于会话的状态选择最合适的动作。

例如,用户说“帮我叫车回家”。在这种情况下,系统的操作可能会询问用户“开始点”或“您的出发地和目的地是什么?” 。

如果用户说非常清楚,例如,“明天早上8点,帮我叫车从家里到公司”,那么此时处理DM的方式就是直接打电话给车。

7f5bc412d1064d439424a39038d8d057

最后,“NLP会话生成”。

例如,有一个关于机器可以自动编写小说这一事实的社会新闻报道。虽然这是一个惊喜,但人们发现机器使用了非常奇怪甚至不可能称之为句子的单词组合。当然,这些都是噱头,而且机器目前无法做到人们真正想要看到的东西。

机器学会表达自己。这需要很多准备。它比今天的理解更复杂。首先,我们必须完全收集和整理知识,然后选择合适的形式,将其保存到计算机系统,并且要有效,使用它们,如果个别链接出错,可能会导致遗弃。这部分需要大量的语言应用。文本和字符串有很多含义。一对多,多对一是自然语言的最大魅力,也是现在分析和处理的主要障碍。

在自然语言生成的过程中,“应该表达什么”和“我们应该如何表达”是非常重要的,但通常忽略“为什么要以这种方式表达”这也是一个非常有价值的观点。

有哪些机会和挑战?首先,在NLU之前,有一个非常必要的,同样重要的过程,这是一个注释。假设一个用户,输入的是“灯泡不亮”,四个字,现在根据这个现象来标记,应该如何标记?有些人可能会标记断电,或者标准灯丝被炸毁等,很有可能的人会采用这种想法。

7fb39a8a622d4b9d825b38b3c1f41e8a

如图所示,左侧的白色字符实际上是灯泡不亮的原因。由于灯泡不亮的原因很多,因此一开始就无法预测。一种方法,将范围定位得太窄会导致很多错误。

83ec6db9db5c426b813c302a5d080ad8

如图所示,在右侧面板中,我们需要做一些预判断和优化。在对话系统中,我们需要及时发现用户是否偏离。如果出现异常,我们可以考虑是否主动结束主题或更改主题。

将来,如果机器人学习这样的处理机制,对话就会更加智能化,甚至可以预测客户的真实需求,我们可以更好地指导。

在进行自然语言处理时,需要面对三个问题,一个是系统的建立,一个是数据,另一个是算法,这是对话机器人的痛点。

这里有一个非常有趣的现象。语言背景的语言学家在这个领域无处不在,可以参与各种链接,如智能音箱,语音助理等,将语音转换为单词,然后重新输出,然后将文本转回语音,相当于在大框架中访问一些语音技术,并成为一种语音助手。很多人认为他们只能处理语言,只能处理文本,范围太窄,但事实并非如此。我们现在可以看到,其背后的真正核心是“NLU”,“DM”和“NLG”。三个模块。

1ffb899d07b143009c6665ae3933902e

接着是“搜索”,通过“命名实体识别”,您可以在句子中找到我们需要的最关键信息,例如做售前和售后工作的人,可能更关心设备模型,以及然后例如,智能扬声器,每个人都使用诸如播放歌曲或城市温度等的大多数功能,可以通过检索来实现。

所有产品的核心都是基于用户需求。如果你掌握了这一点,就会简化许多问题。

对于对话机器人,它带有一种新的交互形式。虽然道路有点长,但我们已经在路上了。大多数人不是专业的电脑专业。如果他们加入情报领域,他们将非常不自信。 “这没用吗?” “专家不会瞧不起我,也不会让我进入。”这些担忧是不必要的。首先,我们必须去了解。许多恐惧是由未知引起的。如果我们仔细了解,我们就会知道我们的能力可以发挥什么,并学会更多地思考。这是最重要的事情。

c14ddaeecacf40aea4f835e372cd6dd1

如果我们将“AI”与“飞机”进行比较,它就处于“引擎”的关键位置。我们的目标是利用我们对语言的自然敏感性,并运用语言知识让机器理解和学习人类。语言,同时,这些文本可以发挥最大的价值。只有这样,真正的“智慧”才会变得“可能”。

47e2bbb7034c4d0ba834cd5538a573e9

80af6d19cf5c4b62ad011ba3d6f7e978

[讲师介绍]

沉泽熙

语言文学学士,AI从业者,AI语言分析师和算法研究员。具有科学思维的非典型文科学生输出了人体必需的各种氨基酸维生素,如快乐,创造力和乐趣。他们与不同的背景,不同的语言和不同的部门合作,他们在数据和文字的海洋中笑和笑。

22d054fc1d1a4a1aaffbd83b6e619117

干货|一句话打破中国NLU,智能客户服务,多伦对话,多模式互动实际困难。

你会嫁给“AI Robot”吗?“

Deepfake“全民面前的狂欢”

当你离开这个世界时,“AI”将继续你的故事。

《三体》编辑花了12万美元来冻结大脑,你能获得“永生”吗?

被“垃圾分类”驱动?让AI帮助你更好。

李艳红被泼水,百度的内部信息:谁告诉你无人驾驶.

9e11fdd0d92d4378a95fca0148866409