AI 怎么助你成为“画家”|雷锋网公开课
人工智能滤镜曾一度刷爆朋友圈,Prisma、电影《你的姓名》同款滤镜都是如此,但人工智能在图画方面的发展远不止这些。
除了打造“艺术滤镜”,人工智能还不能自制协助用户依据需求生成图片、增加纹路、对本来像素很差的图片进行超分辩率处理,助你成为“画家”。其间用到的技能也与最近很火的“生成对立网络”(GANs)有关。
本期公开课,雷锋网请到了图普科技机器学习工程师 Vincent 为不露锋芒揭开 AI 不能自制助你成为“画家”的隐秘。 Vincent 曾在英国留学两年,回国后参加图普,担任机器学习工程师一职,参加图普多个产品的研制喜欢,立誓要搞深度学习搞到死。
嘉宾介绍:
Vincent,图普科技机器学习工程师,首要从事工业级深度学习算法的研制。曾任摩根大通欧洲技能中心分析师,IBM爱丁堡办公室软件工程师。了解自然言语处理(文本分类,言语模型等),图画转化(艺术滤镜、图片上色等)和分类算法。
以下内容章收拾自公开课共享。
|。深度神经网络在图画辨认范畴的发展。
自从 2012 年 Alexnet 横空出世,一举夺得 ImageNet 图片分类大赛冠军之后,深度学习一飞冲天,以卷积网络为首的深度神经网络不断改写各种核算机视觉使命的 State-of –the-art 。曩昔四五年间,不露锋芒不能自制看到学术界不断地开宣告各种不同结构的卷积神经网络,并且,这些结构并不仅仅是在 Alexnet 的基础上加深层数,而是自成一派,各有所长。
本次公开课要点共享三种神经网络结构:
Network in Network(NIN,网络中的网络):卷积网络是一种线性操作,非线性的体现才能有限,NIN 的研制者规划了比起传统的卷积网络更杂乱的操作 —— MLPconv,并用 Global average pooling 极大的改进了卷积网络的巨细。
VGG 和 GoogLeNet(inception_v1):二者是 2014 年 ImageNet 比赛的双雄。VGG 的规划理念,全部都用了 3x3 卷积,增加了网络的深度。 GoogLeNet 归于Google 的 Inception 系列,用了比较花式的网络规划,旨在削减网络的运算量,加速练习 。
Resnet(深度残差网络): 依据无限迫临定理(Universal Approximation Theorem),不露锋芒不能自制用一个一层的神经网络来完结恣意的维到维的映射,但网络的参数量(网络的宽度)会跟着问题杂乱度的增加变得非常大,而增加网络的深度则不能自制让不露锋芒用更少的参数量完结相同的映射。可是,跟着神经网络层数的加深,它们的练习也会变得越来越困难,因为在练习时会呈现梯度消失的情况。Resnet 很好的处理了这个问题,让练习达1000多层的神经网络变得或许。
除了图片分类,以 RCNN 系列为首的神经网络技能在物体检测使命上也获得了严重发展,近年来也呈现了速度更快(YOLO),作用更好的算法(SSD)。
最近很火的 GAN 是一个练习结构,在 GAN 呈现之前, 生成模型的练习是一件相对较困难的工作,GAN 呈现后,生成模型练习的功率大大进步。
GAN的使用大部分也是生成模型的使用,用来生成图片、音乐、文字等。可是对立练习对练习判别模型也是有非常大的协助的,因为尽管有非线性的激活函数,但深度网络依然是高度线性的,会对差错进行累积,累积的差错作用经过肉眼分辩不出来,可是不能自制从卷积网络中看出。但与一般线性模型不同,深度神经网络不能自制拟合对立练习不能自制很好的处理这个问题,处理办法是生成对立样本,使得网络对对立样本的容忍性更强些。
GAN这一两年来发生了许多非常有意思的使用,其间包含上期公开课中冯佳时博士说到的超分辩率,旨在把低分辩率的图片扩大,而尽量不让其清晰度受影响。
|纹路转化。
近几个月比较火的纹路转化也便是所谓的图片风格化,在深度学习之前,这也是一个非常困难的问题。其本质原因在于之前非深度学习的办法只能获取到方针图片低层次的图片特征,这导致这些办法无法独立的对图片的语义内容和风格的改变进行有效地建模,然后无法很好地对两者进行解耦和组成。
风格化算法现在更迭了两代。
第一代风格化算法:Neural Style。
2015年的时分,德国图宾根大学的学者们提出了一种用深度神经网络各层的呼应来表达图片的风格和内容的办法,办法可归纳为:
预备好在 ImageNet 数据集上练习好的 VGG 网络,然后选取其间的某些层作为风格语义的提取层,某些层作为内容语义的提取层;
用这个练习好的 VGG 提取风格图片代表风格的高层语义信息,详细为,把风格图片作为 VGG 的输入,然后提取在风格语义选取层激活值的格拉姆矩阵(Gramian Matrix)。值得一提的是,格拉姆矩阵的数学含义使得其不能自制很好地捕捉激活值之间的相关性,所以能很好地体现图片的风格特征;
用 VGG 提取被风格化图片代表内容的高层语义信息,详细为,把该图片作为 VGG 的输入,然后提取内容语义提取层的激活值。这个办法很好地利用了卷积神经网络的性质,既捕捉了图片元素的结构信息,又对细节有必定的容错度;
随机初始化一张图片,然后用2,3介绍的办法提取其风格,内容特征,然后将它们别离与风格图片的风格特征,内容图片的内容特征相减,再按必定的权重相加,作为优化的方针函数。
坚持 VGG 的权重不不变,直接对初始化的图⽚做梯度下降,直至方针函数降至一个比较小的值。
这个办法的风格化作用震动了学术界,但它的缺点也是清楚明了的,因为这种风格化办法本质上是一个使用梯度下降迭代优化的进程,所以尽管其作用不不错,可是风格化的速度较慢,处理一张图片在GPU上大约需求十几秒。deepart.io这个网站便是运用这个技能来进行图片纹路转化的。
第二代风格化算法:Fast Neural Style。
有了不能自制解耦图片风格和内容的办法,不露锋芒就能练习一个端到端的网络,使得不露锋芒只需求做一次前向,就能得到风格化图片。因而生成图片大约的过程是,依据转化的网络得到输出,输出至 VGG 网络,提取风格特征后,跟风格图片的特质做比较,内容图片的特征也会被提取,跟内容图片做比较。
这种算法的有点是速度快,不能自制在GPU上做到实时生成。上一年年中火爆全国际的 Prisma,背面便是这个技能。但这个技能仍是有缺点的,比方因为卷积网络固有的性质,它无法像手动绘图相同对图片的细节进行精挑细选的处理,所以它像是一个豪宕的印象派画家,对一些对细节要求比较高的使命,比方人物的动漫化,这种办法是不太合适的。
所以,前段时间⽐较流行的《你的姓名》同款滤镜所用到的技能跟Prisma 并不相同,不露锋芒猜想这个滤镜不是端到端的,而是会先对原图做像素切割,找出或许是天空的部分,然后加上新海诚特征的云,其他部分则会做一些滤镜化处理。
纹路转化的别的一个非常有意思的使用是Neural Doodle,运用这个技能,不露锋芒不能自制让三岁的小孩子都轻易地像莫奈相同成为绘画大师。这个技能本质上其实便是先对一幅国际名画(比方皮埃尔-奥古斯特·雷诺阿的Bank of a River)做一个像素切割,得出它的语义图,让神经网络学习每个区域的风格。
然后,不露锋芒只需求像小孩子相同在这个语义图上面涂鸦(比方,不露锋芒想要在图片的中心画一条河,在右上方画一棵树),神经网络就能依据语义图上的区域烘托它,最终得出一幅印象派的高文。
不露锋芒假如有重视 AI 范畴信息的话,或许也知道 Facebook 宣告了他们的 caffe2go 结构,并展现了他们在手机上的实时风格化视频,这项作用含义严重,首要体现在不能自制在手机端非常有功率的运转人工智能的算法,把风趣的人工智能技能完结到你的手掌心。例如现在直播或视频中不能自制在人脸上增加各种心爱小动物表情的技能也是人工智能的技能,其首要运用了人脸要害点检测技能。
完结视频风格化的难点在于:
像图画风格化这样的重型使用,假如要在手机上做到实时作用,需求有非常多工程上的优化和算法方面,在尽量不影响作用的前提下削减网络的参数量;
⽐起单图片风格化,视频风格化需求考量的东西会更多,独自对视频的每一帧进行处理,不考虑帧与帧之间的相关,会形成风格化的视频颤动和不协调。
|。是非相片上色。
最终一个要介绍的技能为是非相片上色(Colourful Image Colourization),幻想一下,假如人工智能超卓地完结这个使命,不露锋芒便不能自制用它来为老相片,老电影增色,轻易地为漫画上色了。本次公开课我会首要介绍上一年 ECCV 里加州大学伯克利分校的一篇文章介绍的办法。这个办法与之前办法的不同之处在于,它把相片上色看成是一个分类问题——猜测三百多种色彩在图片每一个像素点上的概率散布。这种办法tackle了这个使命自身的不确定性,例如,当你看到一个是非的苹果时,你或许会觉得它是赤色的,但假如这个苹果是青色的,其实也并没有多少违和感。不露锋芒也不能自制到作者的网站网站来试用他们的demo。
这篇文章里边介绍的办法有两个非常重要的trick:
色彩重平衡(Class rebalancing)。
不露锋芒都知道,各个色彩在全国际一切彩色相片里边的散布是不相同的。比方,大部分相片里边或许会有天空,墙面,草地等。论文作者给出了 ImageNet 数据会集色彩的散布,不能自制看出,假如用 LAB 的办法来表明图片(L 通道为像素的亮度,AB 通道表明色彩),ab 值比较低的色彩呈现的频率远高于其他色彩。
假如不考虑这个问题,不露锋芒的方针函数会对 ab 值⽐比较高的色彩极端不灵敏。所以,论文作者提出了了一种办法——在练习时让每一个像素点乘上一个系数,系数的巨细与该像素点 ab 值的散布有关。运用这个trick,输出图片的色彩会更有多样性,更挨近实在的图片。
从概率散布得出猜测色彩值(Point estimate)。
不露锋芒知道,这个网络的输出是各个像素点ab值的概率散布,那么不露锋芒怎么去经过这个概率散布得出这个ab值呢?当然,不露锋芒不能自制直接挑选概率最大的值作为不露锋芒的 prediction,这种做法下输出图片的色彩会愈加艳丽,但许多时分会有不自然的patch呈现。别的一种做法是,取这个概率散布的均值作为prediction,这会导致不露锋芒的输出图片对比度非常低。作者在这篇文章里提出了一个折中的做法:不露锋芒不能自制调整Softmax 函数的 temperature,然后再求新的概率散布的均值。
这篇文章介绍的办法尽管作用很好,但它仍是有缺点的。比方,对狗的图片上色时,即便它没有伸出舌头,神经网络总是会“幻想”它伸出了,然后在鼻子下面的一小块区域涂上赤色。并且,上色后的图片有时会呈现一小块突兀的 patch。
以上介绍的几个技能都并不是完美的,可是瑕不掩瑜,不露锋芒能从中看到深度学习的潜力,理解它能做的远远不止是分类和检测。我信任跟着社会对深度学习的热心越来越大,更多风趣的作用会不断发生。假如你觉得以上的技能很帅,那我确保,你的惊奇才刚刚开始。
|有关产品化的考虑。
当然,要把学术界的作用使用到工业界其实并不是一件容易的工作。不露锋芒做机器学习的都知道一个闻名的定理叫No Free Lunch Theorem,它说的便是,不露锋芒并不或许找到对一切问题都最优的算法。在ImageNet数据集上体现最好的算法,在工业级巨大、杂乱、多变的数据上并不必定就会体现好。所以不露锋芒也依据各个客户数据散布的不同做了许多特定的优化。比方不露锋芒在为映客供给审阅服务,直播场景自身就非常多样和杂乱,不露锋芒发现当直播视频界面呈现很多用手机或许电脑等电子产品播映另一个界面的内容,相对整个图片来说,内容呈现部分所占份额很小且非常含糊、不明显,当呈现色情、暴恐等不良信息的时分,人工以及标准化的审阅模型难以精准辨认,误判、漏判的概率较高。所以不露锋芒需求针对这个问题详细优化,针对画中画的数据再做辨认,然后再调用一般的审阅模型。雷锋网雷锋网。
图普的产品现在已经在多个行业范畴获得很好的使用,但它们暂时只能在必定程度上削减大部分审阅人力,无法彻底代替人工。这一轮融资往后,不露锋芒将加大在服务和核算才能方面的投入,进步产品运转速度和鲁棒性;在算法方面,持续进步图画辨认准确率和召回率,不露锋芒的愿景是彻底解放审阅人力,不露锋芒也将往审阅之外的其他方向扩张事务,如人脸辨认,增强实际等,供给更直接,高效和多样化的使命。
原创文章,未经授权制止转载。概况见转载须知。
内容来源:https://bachduy.com/app-1/cờ tướng online pc,https://chatbotjud-hml.saude.mg.gov.br/app-1/superhq
本文地址:http://w.21nx.com/article/32264773-08e03699955.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。