钱爽's Blog

每一次不一样都来自一个勇敢的开始

37.0 知识图谱之知识表示、知识抽取、知识融合

知识图谱介绍 下面我们将从三个问题出发来帮助大家理解知识图谱: What,即什么是知识图谱? Where,即知识图谱的应用场景有哪些? How,怎样构建知识图谱? What 知识图谱(Knowledge Graph,KG)是NLP的一项技术领域。有人说关系型数据库的出现是人类社会的倒退,因为大千世界的信息并不是结构化存储和表示的,而是通过图来表示节点与节点之间关系的网状...

36.0 深度学习模型部署及在线预测

模型导出 我们在前面的内容中讲到过,可以使用tf.train.Saver.save()和tf.train.Saver.restore()方法保存和恢复模型变量,但是这只是在模型训练过程中用来做checkpoint,保存的也只是模型的变量。只有导出整个模型(除了模型变量、还包括模型计算图和图的元数据),才能做模型部署和在线预测,这时就必须使用SavedModel(也可以导出Session B...

35.0 GPU加速

TensorFlow的并行分为操作间并行和操作内并行,二者同时发生,并且都是通过线程池技术实现的。操作间并行是指node与node之间可以并行执行,操作内并行是指每个node内的运算可以并行计算。 对于MLP,因为后一层的输入来自于上一层的输出,所以层与层之间无法并行,但是在每一层内部,不管是执行前向计算还是执行反向传播,都是可以并行计算的;对于RNN,我们前面讲过,将RNN沿着time s...

34.0 基于Attention-CNN的语义匹配模型

算法原理 前面我们说到,DSSM与QQ-match模型非常类似,解决的问题领域也差不多,只不过QQ-match的输入是QQ pair(一对一),判断用户query与doc是否match。而DSSM的输入是一对多,即一个query,多篇doc,相当于直接做语义相似度检索。但是在实际工作中,DSSM的操作比较复杂,需要将输入打成固定的一query多doc的格式,但是搜索引擎往往需要在海量数据中...

33.0 语义检索DSSM

算法原理 以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序。 在召回时,传统的以全文检索的方式计算文本相似性的方法,比如TF-IDF,无法有效发现语义类query-doc结果对,如”从北京到上海的机票”与”携程网”的相似性、”快递软件”与”菜鸟裹裹”的相似性。 在排序时,一些细微的语言变化往往带来巨大的语义变化,如”小宝宝生病怎么办”和”狗...

32.0 强化学习

算法原理 强化学习其实是独立于机器学习和深度学习的一门学科,既不属于有监督学习,也不属于无监督学习。在强化学习中,智能体(agent)在环境(environment)中进行观察(observe)并采取行动(action),它会收到奖励(reward)作为回报。其目标是学会以最大化其预期的长期奖励(long-term rewards)行事。 agent用来确定其action的算法称为其策略(...

31.0 Autoencoders

算法原理 Autoencoders是一种无监督学习,它通过神经网络来学习输入数据的有效表示。它的作用主要有以下几个方面: 降维。通过Autoencoders学习到输入数据的有效的稠密向量表达。 特征提取。Autoencoders是一个功能强大的特征探测器,它们可以用于深度神经网络的无监督预训练。 生成模型。可以利用Autoencoders生成与训练数据相似的新数据。 Au...

30.0 Attention机制

算法原理 Attention机制的核心原理是,通过在输出target时,paying “attention” to relevant source content,在目标和源之间建立直接的快捷连接。因为source和target之间有一种隐式的对其关系(通过Attention刻画),我们可以在训练完成后将这种对其关系以矩阵的形式可视化出来: 为什么Attention机制能够显著提升seq...

29.0 seq2seq

算法原理 前面我们说到,机器翻译是delayed seq to seq,又叫Encoder–Decoder。Encoder模块将原始输入sequence压缩成一个“有意义”的向量表示,Decoder模块将该向量解码为目标输出sequence。 下面以一个实际例子来给大家详细介绍Encoder–Decoder模型的基本原理。该示例的目的是输入一个字符序列,输出这个字符序列的字典正序列,比...

28.0 生成对抗网络

算法原理 GAN,生成对抗网络,该模型主要包含两个核心模块:一个是判别器,一个是生成器。比如,我们有一批真实数据,同时也有一批随机生成的假数据,生成器A拼命地把随手拿过来的假数据模仿成真实数据,并揉进真实数据里,判别器B则拼命地想把真实数据和假数据区分开。A类似于造假币的,B类似于稽查警察,A一个劲地学习如何骗过B,而B则是一个劲地学习如何分辨出A的造假技巧。如此这般,随着B的鉴别技巧的越...

1 2 3 4 5 6 7

返回顶部