用于自然语言理解的多任务深度神经网络 Posted on 2019-05-30 | In 自然语言处理 本文是对论文对Multi-Task Deep Neural Networks for Natural Language Understanding的归纳与总结 动机学习文本的向量空间表示是自然语言理解(Natural Language Understanding, NLU)任务的基础。有两种流行方法 ... Read more »
NLP toolkits Posted on 2019-05-25 | In 实用工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。 Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger), ... Read more »
线性回归 Posted on 2019-05-22 | In 机器学习 回归问题与分类问题回归问题与分类问题都是典型的监督学习。不同的是,分类的问题的输出是一个离散变量,而回归问题的输出则是一个连续变量。回归问题是通过对训练样本的学习,得到样本特征到样本标签之间的映射。 基本线性回归对于线性回归问题,我们可以从训练数据中学习到线性回归方程:\begin{equation ... Read more »
聚类算法的评价指标 Posted on 2019-05-21 | In 机器学习 $purity$在文档聚类中,$purity$表述为正确聚类的文档数占总文档数的比例:\begin{equation}purity(\Omega, C) = \frac{1}{N}\sum_k \max_j \left| \omega_k \cap c_j \right|\tag{1}\end{eq ... Read more »
自然语言处理的基本任务 Posted on 2019-05-20 | In 自然语言处理 词法分析(Lexical Analysis):对自然语言进行词汇层面的分析。 分词(Word Segmentation / Tokenization):对没有明显边界的文本进行切分,得到词序列。 新词发现(New Words Identification):找出文本中具有新形势、新意义或是新用法的词 ... Read more »
DBSCAN-Density Based Spatial Clustering of Application with Noise Posted on 2019-05-20 | In 机器学习 基于距离度量相似性的聚类算法的缺点k-means算法、k-means++算法和mean shift都是基于距离的聚类算法。基于距离的聚类算法的聚类结果是球状的簇,当数据集中的聚类结果是非球状结构时,基于距离的聚类算法的聚类效果很差。于是,为解决基于距离的聚类算法不能够对非球状的数据进行很好聚类的缺点 ... Read more »
k-means Posted on 2019-05-19 | In 机器学习 k-means是一种广泛使用的聚类算法。k-means算法是基于相似性的无监督算法,其通过比较样本之间的相似性,将较为相似的样本划分到同一类中。 相似性的度量对于样本$X$和$Y$,要度量其相似性,我们定义距离函数$d(X,Y)$来表示样本$X$和样本$Y$之间的相似性。常用的距离函数有闵可夫斯基距 ... Read more »
经典排序算法 Posted on 2019-05-17 | In 数据结构与算法分析 十大排序算法的时间复杂度(最好情况,最坏情况,平均情况),空间复杂度,排序方式以及稳定性。 排序算法 平均时间复杂度 最好情况 最坏情况 空间复杂度 排序方式 稳定性 冒泡排序 $O(n^2)$ $O(n)$ $O(n^2)$ $O(1)$ In-place 稳定 选择排序 $O(n ... Read more »
tensorflow API Posted on 2019-05-16 | In 实用工具 1 tf.sequence_mask(lengths, maxlen=None, dtype=tf.bool, name=None): 返回表示每个单元的前$N$个位置的mask张量。参数: lengths: 整型张量,张量的值$<=maxlen$ maxlen:数值型整型张量,是返回张量最 ... Read more »
ACL2019笔记——A Unified Linear-Time Framework for Sentence-Level Discourse Parsing Posted on 2019-05-15 | In 自然语言理解 注:该笔记不是对论文原文的翻译,而是对论文理解的一种表述。 摘要本文提出了一种根据修辞结构理论(Rhetorical Structure Theory, RST)的有效的神经框架,用于句子级的。该框架由篇章分割器和篇章解析器组成。篇章分割器用于识别基本的篇章单元(Elementary Discour ... Read more »