钱爽's Blog

每一次不一样都来自一个勇敢的开始

47.0 语义分割

记于加州斯坦福大学校内。 语义分割(semantic segmentation),是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标,比如说下图,经过语义分割之后的图片就是一个包含若干种颜色的图片,其中每一种颜色都代表一类物体。 解决语义分割任务的经典网络模型有很多,比如FCN、U-Net、Mask RCNN等。现在的深度学习语义...

46.0 目标检测

目标检测(Object Detection),就是在给定的图片中精确找到物体所在位置(方框框出它的位置),并标注出物体的类别。object detection技术的演进:RCNN->Fast RCNN->Faster RCNN。 RCNN RCNN(Region CNN),是最古老也是最经典的基于深度学习的目标检测算法,该算法使用Selective Search方法预先从图...

45.0 人脸识别

构建一个人脸识别系统相对来说还是比较容易的,首先通过人脸检测技术提取出静态的图片和动态的视频当中的人脸部分,再将所提取出的人脸部分输入分类模型做人脸识别。下面我们一步步来进行介绍。 人脸检测 人脸检测用来提取出静态的图片和动态的视频当中的人脸部分,一般使用OpenCV或者dlib自带的人脸检测库就能够达到很好的效果(在实际中,dlib的人脸检测效果比opencv要好,但opencv速度比...

44.0 端到端OCR

到目前为止,我们进行OCR的思路都非常暴力,大概都是这样:提取目标文本(去噪+二值化、自定义模板)-> 文字分割 -> 字符识别。 相对而言,第2步字符分割难度最大,而且最重要,原因有以下几点: 因为现实生活中字符粘连是很常见的问题,一旦字符粘连,文字分割效果就会急剧下降。 文字分割的错误会传播到字符识别阶段,从而直接影响字符识别的准确率。 语义修正只能缓解部分问...

43.0 身份证、发票等关键信息提取

身份证识别 身份证识别的方法有很多,最常用的方式是三步走:第一步图像预处理,第二步文字分割,第三步文字识别。 图像预处理。因为所有文字都是黑色的,所以先split图片的RGB通道,留下黑色通道,这样基本上所有背景都被去掉了,然后再把头像部分也去除。 boundary = ([0, 0, 0], [100, 100, 100]) preprocess_bg_mask = ...

42.0 OCR

概述 OCR(Optical Character Recognition,中文叫做光学字符识别),是利用光学、数学以及计算机技术把图像上的文字(打印体或手写体)识别出来。OCR作为计算机视觉的核心课题之一并且经过这么多年的发展已经是比较成熟了,而且已经渗透到我们生活的方方面面,比如身份证识别、车牌号识别、票据单证识别、手机拍照搜题等等。 OCR要识别的内容将是人类的所有语言(汉语、英语、...

41.0 图像处理

计算机视觉(computer vision,CV),是不同于NLP的一个全新的领域,主要有图像识别、图像分割、目标检测、语义分割等几个不同的方向。其实CV和NLP的底层原理都是相通的,都使用多层神经网络结构,只是输入层的不同,NLP需要先将自然语言做word embedding后才能输入给模型,而CV的输入可以直接是图像的像素点的像素值。正因为如此,CV在他的不同方向上都有比较成熟的应用和技...

40.0 tensorflow高级特性

TensorFlow 1.10及以上版本有很多的高级特性,这些高级特性能给我们的编程带来极大的便利,下面我们将一一进行介绍。 Colaboratory Colaboratory是google发布的一个托管的Jupyter notebook环境,可以免费使用,它具有以下特点: 完全云端运行。相当于Google在云端帮你申请了一台免费虚拟机,TensorFlow已经预先安装并针对所使用...

39.0 知识图谱之应用与实战

智能搜索 前面在介绍语义检索时,我们讲到了DSSM以及QA match,这两种方式都是基于模型的检索,首先将用户Query和Answer映射到语义空间内的稠密的向量表达,然后通过有监督的方式训练match模型,这种方式由于存在召回损失和匹配误差,一般准确率不会太高。基于知识图谱的智能搜索先对用户的Query进行实体抽取,然后在知识库中进行知识检索,最终以知识卡片的形式将搜索结果展现出来,这...

38.0 知识图谱之知识存储与知识推理

知识存储 知识图谱的知识(数据)通常存储在图数据库中,图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系(边)来体现,也可以处理键值对。它的优点是能快速解决复杂的关系问题。 图数据库的种类很多,其中开源的如Apache Jena、RDF4j、gStore等,商业数据库如Virtuoso、AllegroGraph、Stardog等,原生图数据库如Neo4...

1 2 3 4 5 6 7

返回顶部