自然语言处理（1）基本概念

lightsmile

NLP

字数：919字

时长：3分钟

发布于：2018年5月26日

自然语言处理（Natural Language Processing，NLP）：自然语言处理是人工智能和语言学领域的分支学科，主要研究如何让计算机处理和运用自然语言。
自然语言处理广义上分为两大部分，第一部分是自然语言理解，是指让电脑“懂”人类的语言；第二部分为自然语言生成，是指把计算机数据转化为自然语言。

自然语言处理研究的内容：
1. 机器翻译（machine translation，MT）：实现一种语言到另一种语言的自动翻译。
2. 自动文摘（automatic summarizing或automatic abstracting）：将原文档的主要内容和含义自动归纳、提炼出来，形成摘要或缩写。
3. 信息检索（information retrieval）：信息检索也称情报检索，就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索（cross-language/trans-lingual information retrieval）。
4. 文档分类（document categorization/classification）：文档分类也称文本分类（text categorization/classification）或信息分类（information categorization/classification），其目的就是利用计算机系统对大量的文档按照一定的分类标准（例如，根据主题或内容划分等）实现自动归类。
5. 问答系统（question-answering system）：通过计算机系统对用户提出的问题的理解，利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答。
6. 信息过滤（information filtering）：通过计算机系统自动识别和过滤那些满足特定条件的文档信息。通常指网络有害信息的自动识别和过滤，主要用于信息安全和防护、网络内容管理等。
7. 信息收取（information extraction）：指从文本中收取出特定的事件（event）或事实信息，有时候又称事件抽取（event extraction）。
8. 文本挖掘（text mining）：有时又称数据挖掘（data mining），是指从文本（多指网络文本）中获取高质量信息的过程。
9. 舆情分析（public opinion analysis）：舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。
10. 隐喻计算（metaphorical computation）：“隐喻”就是用乙事物或其某种特征来描述甲事物的语言现象。简要的讲，隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。
11. 文字编辑和自动校对（automatic proofreading）：对文字拼写、用词，甚至语法、文档格式等进行自动检查、校对和编排。
12. 作文自动评分：对作文质量和写作水平进行自动评价和打分。
13. 光读字符识别（optical character recognition，OCR）：通过计算机系统对印刷体或手写体等文字进行自动识别，将其转换成计算机可以处理的电子文本，简称字符识别或文字识别。
14. 语音识别（speech recognition）：将输入计算机的语音信号识别转换成书面语表示。
15. 文语转换（text-to-speech conversion）：将书面文本自动转换成对应的语音表征，又称语音合成（speech synthesis）。
16. 说话人识别/认证/验证（speaker recognition/identification/verification）：对一说话人的言语样本做声学分析，依据推断（确定或验证）说话人的身份。
  （摘自《统计自然语言处理》（第2版））
自然语言处理涉及的几个层次：形态学（morphology）、语法学（syntax）、语义学（semantics）、语用学（pragmatics）。

你好，2019

再见，2018. 终于领悟到，自己早就已经成年，已经步入社会，该是个成熟的成年人了，不再是小孩子了。要学会一个人照顾好自己，经营好自己，不要发脾气，不要因畏惧而胆怯。要学会先做应该做的事，...

腾讯云SDKforJS开发实战

前面曾经提到过的，我想要把自然语言处理相关的技术接入到我的毕设微信小程序里面。由于腾讯云未提供JS的SDK，要自己编写HTTP请求来实现，之前觉得比较麻烦，相关说明文档没有整明白，不想尝试，后...