示例项目

Word Hashing是非常重要的一个trick，以英文单词来说，比如good，他可以写成#good#，然后按tri-grams来进行分解为#go goo ood od#，再将这个tri-grams灌入到bag-of-word中，这种方式可以非常有效的解决vocabulary太大的问题(因为在真实的web search中vocabulary就是异常的大)，另外也不会出现oov问题，因此英文单词才26个，3个字母的组合都是有限的，很容易枚举光。

那么问题就来了，这样两个不同的单词会不会产出相同的tri-grams，paper里面做了统计，说了这个冲突的概率非常的低，500K个word可以降到30k维，冲突的概率为0.0044%。

但是在中文场景下，这个Word Hashing估计没有这么有效了。

词汇共现

词汇共现是指词汇在文档集中共同出现。以一个词为中心，可以找到一组经常与之搭配出现的词，作为它的共现词汇集。

词汇共现的其中一种用例：

有若干关键词，比如：水果、天气、风，有若干描述词，比如，很甜、晴朗、很大，然后现在要找出他们之间的搭配，在这个例子里，我们最终要找到：水果很甜、天气晴朗、风很大

http://sewm.pku.edu.cn/TianwangLiterature/SEWM/2005(5)/%5b%b3%c2%c1%88,%20et%20al.,2005%5d/050929.pdf

关键词提取

主要三种方法：

1.基于统计特征，如TF-IDF。

2.基于词图模型，如TextRank。

3.基于主题模型，如LDA。

自然语言理解

Natural language understanding(NLU)属于NLP的一个分支，属于人工智能的一个部分，用来解决机器理解人类语言的问题，属于人工智能的核心难题。

上图是语义理解中，最有实用价值的框架语义表示（frame semantics representation）的原理简图。

机器学习与文本分析部分

第一期：深度学习与文本分析（CIPS ATT5）第一讲：深度学习基础知识（邱锡鹏，复旦大学）

第一节基础知识、前馈神经网络、分布式表示

第二节卷积神经网络、循环神经网络、外部记忆与注意力模型

第三节概率图模型、深度生成模型、深度强化学习

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-Basic.pdf

第二讲：深度学习工具实战（龚经经，复旦大学）

第一节 TensorFlow介绍与深度学习模型实现

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-Practice.pdf

第三讲：深度学习与词法句法语义分析（车万翔，哈工大）

第一节词法、句法与语义分析简介；结构化预测任务（序列分割、序列标注、句法分析）；传统的结构化预测方法（基于图方法、基于转移的方法）

第二节基于神经网络的图方法；基于神经网络的转移方法

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-NLP.pdf

第四讲：深度学习与知识获取（刘康，中科院自动化所）

第一节基于深度学习的词表示（NNLM、Word2Vector、Log-Bilinear等）、知识图谱表示学习（RESCAL、TransE、TransH、TransD、KG2E等）

第二节基于深度学习的知识抽取：实体关系抽取、开放域关系抽取、事件抽取

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-Knowledge.pdf

第二期：深度学习与NLP应用（CIPS ATT6）第一讲：深度学习与机器翻译（熊德意，苏州大学）

第一节神经机器翻译基础知识：神经机器翻译发展过程简介，串到串模型，基于注意力的神经机器翻译，注意力模型，集外词翻译，覆盖度模型，神经机器翻译与统计机器翻译比较与融合，神经机器翻译开源工具与平台

第二节神经机器翻译进阶：字符与subword级神经机器翻译，基于句法的神经机器翻译与外部语言学知识融合，神经机器翻译新架构，多语与多模态神经机器翻译，神经机器翻译未来发展方向

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-NMT.pdf

第二讲：深度学习与自动问答（冯岩松，北京大学）

第一节自动问答简介；传统知识库问答；基于深度学习的知识问答 I

第二节基于深度学习的知识问答 II；基于深度学习的阅读理解；基于深度学习的对话系统

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-QAI.pdf

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/QA_2017_QAII.pdf

第三讲：深度学习与社会计算（赵鑫，中国人民大学信息学院）

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-IRII.pdf

第一节网络表示：主要以network embedding作为主要技术点，包括一些基本的network embedding模型（包括DeepWalk、LINE、Node2vec等），同时也包括一些拓展工作（包括异质关系网络融合表示）

第二节推荐系统：主要介绍最近几年深度学习在推荐系统中的应用，将分为两大块，刻画用户与物品交互以及刻画附加内容信息。将会涵盖大部分最新的深度学习推荐模型。

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-NetworkI.pdf

第四讲：深度学习与信息检索（郭嘉丰，中科院计算所）

第一节基于分布式表示的信息检索：深度学习搜索发展历史简介、分布式表达、基于分布式表达的信息检索模型及其在检索问题上的应用

第二节基于深层匹配的信息检索：信息检索的深层匹配建模、深层匹配模型及其在不同检索问题上的应用，相关的Toolkit介绍

ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-IRI.pdf ppt：http://cips-upload.bj.bcebos.com/2017/ssatt2017/ATT2017-IRII.pdf

示例项目原文
 NLP教程原文
 机器学习与文本分析部分原文

墨染半纸，清心煮字

NLP自然语言处理学习资料库

示例项目

NLP教程

NLP

教程

书籍

网站

工具

Natural Language Toolkit(NLTK)

OpenNLP

FudanNLP

Stanford CoreNLP

THUCTC

gensim

GloVe

textsum

jieba

NLPIR

snownlp

HanLP

AllenNLP

其他

NLPchina

Ansj

Word2VEC_java

ansj_fast_lda

nlp-lang

词性标注

Word Hashing

词汇共现

关键词提取

自然语言理解

机器学习与文本分析部分

墨染半纸，清心煮字

Categories

Tags

示例项目

NLP教程

NLP

教程

书籍

网站

工具

Natural Language Toolkit(NLTK)

OpenNLP

FudanNLP

Stanford CoreNLP

THUCTC

gensim

GloVe

textsum

jieba

NLPIR

snownlp

HanLP

AllenNLP

其他

NLPchina

Ansj

Word2VEC_java

ansj_fast_lda

nlp-lang

词性标注

Word Hashing

词汇共现

关键词提取

自然语言理解

机器学习与文本分析部分