深度学习时装周

人工智能和自编码从 3000 张伦敦时装周秀图中得到了什么?
Screen Shot 2017-08-15 at 5.09.47 PM.png

报告标题:深度学习时装周 Deep Learning Our Way Through Fashion Week
副标题:人工智能和自编码从 3000 张伦敦时装周秀图中得到了什么?

报告作者:Alejandro Giacometti
整理翻译:Niroktia
[本份翻译文档含部分删改、增补及解读内容,仅供学习交流使用]

概念串简介

让我们从题目出发——「深度学习 Deep Learning」「机器学习 Machine Learning」研究中的一个新的领域,「机器学习」则又是「人工智能 Artificial Intelligence」领域的一个分支。「人工智能」,众所周知地,探索人工制造出来的系统所表现出来的智能。其中,「机器学习」则致力于设计和分析可以让计算机自动「学习」的算法,使计算机从数据中自动分析获得规律,并利用规律对未知数据进行预测。(e.g. 今年六月战胜了中国职业棋手柯洁九段的 AlphaGo 最初通过模仿人类玩家、尝试匹配职业棋手的过往棋局来「学习」围棋,对弈时,它调用估值网络来评估大量选点,并通过走棋网络选择落点)。在这类「学习」中,基于对数据进行表征学习的、强调多种方式表示像素强度值等观测值的、从而格外精擅于人脸识别及图像识别的,就叫作「深度学习」。「深度学习」组合低层特征,形成更加抽象的高层,从而表示并加工属性、类别或特征。

另一个我们将在稍后遇到的概念是,「卷积神经网络 Convolutional Neural Network, CNN」——作为将当今语音分析和图像识别领域的研究热点,这一方法进一步降低了网络模型的复杂度、允许了图像直接作为网络输入、避免了传统识别算法中复杂的特征提取和数据重建过程。最常见的二维码就是一个对位置平移、比例缩放、倾斜颠倒等形式高度灵活的可识别图像,在识别行为的背后,即有卷积神经网络的支撑。

所谓数据集的时装图像

当下,各产业都竞相与以上热门词汇、热门工具扯上关系,并从而解决行业问题。时装零售也不是例外。时装行业坐拥丰富的图像资源,这使我们对技术所可能提供的行业指导充满好奇。

我们搭建了一种叫做「卷积网络变分自动编码器 convolutional variational autoencoder」的神经网络,以来自 2017 春夏伦敦时装周 67 家品牌的近 3000 张标准秀图作为数据集,利用神经网络进一步将这些图像转换为可被操控的数字和数据信息——时装周是时装产业中设计基因、文化定位的最佳展示时机,因此,这 3000 张图片从服装到背景都饱含信息,各自迥异且极具分析价值。

将图像转化为数字

上面提到的「自动编码器 autoencoder」是一种数据的压缩方法。通过其中的编码器(encoder)结构,它首先为原始数据降维,从中提取对下一步计算真正有效的信息,接着,信息被经过了神经网络训练的解码器(decider)加工,生成一个和原数据差不多的数据——在我们的项目中,即生成一幅和原图像差不多的新图像。这样的操作能够帮助我们更清晰地得到一组数据集的共同点。

「变分自动编码器 variational autoencoder(VAE)」则是自动编码器的升级版本——自动编码器从既定图片中取得了特定的隐含向量,可我们不曾介入向量的生成,因此,依这一隐含向量解码所得图片这一图片依然并非任意的、自由的,分析价值较低。现在,通过变分自动编码器,我们可以为编码过程添加限制,迫使提取出的隐含向量遵循需要的标准正态分布。当进一步了解了编码器和解码器的参数、编码前与编码后的差异,我们对数据的控制力就进一步增强。这一过程的示意图如下:

Screen Shot 2017-08-15 at 5.07.14 PM.png

在为伦敦时装周秀图这一数据集所搭建的网络中,我们不仅仅做逐像素的学习,同时也把更大面积的图像纳入考虑,从而方便提取出诸如几何形态、图案印花、色彩色泽等多项图像属性。

本文中提到实验所采取的工具是一套变分自动编码器,下文中简称作自动编码器。

走进「编码」

我们首先训练自动编码器从每张秀图提取出共计 16 项数值即隐含向量、核心属性,自动编码器依次这些时装 Look 的几何形态、图案印花、色彩色泽、模特姿态等等细节,最终,解码输出为新一幅浓缩着这 16 项隐含向量的图像。我们刚刚提到,变分编码器较自动编码器的优越之处即在于它可以设置、控制隐含向量的权重、配比——在下面的柱形图中,你所看到的即是这 16 项隐含向量分别活跃在图像的哪一编码区域(显然,我们将重点放在时装 Look 上,所以多数重要数据位于照片的中部):

Screen Shot 2017-08-15 at 5.59.31 PM.png

拥有了这些被精心提取、处理过的数据,我们就可以开始诸多有趣的计算:我们是否可以为一套设计师系列总结出一个「平均 Look / Average Look」?我们是否可以严谨地推算出,一项设计与另一项究竟有怎样的相似比率?

重组图像

当解码器发挥作用,我们也就以一种更加精炼、严谨的方式重构了原有的时装 Look。需要时刻记得,组成这新一幅图像的,其实都不过是纯粹的数据而已。也因此,我们对它们进行分析、控制、重组的可能与能力是无限的,甚至可能是随机的

Screen Shot 2017-08-15 at 6.06.48 PM.png

上图是我们进行的一个小游戏。这些图像显然像极了传统的时装秀图,但它们无不是完完全全虚构的、不存在的、数据化的生成这些新图像的数据(即隐含向量)随机地来源于由整个 3000 多张图像所组成的数据集。

这样的小游戏已经足够有趣,但我们还可以进一步操控手中 3000 多套 16 个一组的隐含向量,给它们更为明确的方向执导:

Screen Shot 2017-08-15 at 6.21.58 PM.png

在上图中,我们探索了两个时装 Look 的「技术中点」,即,当两个时装 Look 公平地混合在一起,它将会是什么样子的?

让我们展开来看看这个「混合」(编码-解码)的线性过程:Screen Shot 2017-08-15 at 6.22.47 PM.png

即使是在线性的变化过程之中,这幅混合图像始终稳定地保持着一张时装秀图的特质和属性——它始终描绘着一个穿着裙装的模特(这套裙装有着介于原来两件时装之间的廓形,色彩也是有所调匀的),背景始终保持着自然的灰色,也始终绝非是两张任意图像间的简单过渡。变化中,狭窄的廓形一点点向挺括展开,色彩也逐渐晕染,过程中的每一张都和那些「原版时装秀图」所生成的几乎别无二致。一开始,这看上去是迥然不同的两个时装 Look,可在变化的过程之中,我们却可以看处它们同样用到了色块组合和层叠的手法与概念,变分自动解码器正是抓住这些隐秘的共同点,从而打造了一个平滑移动、效果有趣的渐变过程。

下图中是更多经过了同样操作并试图以假乱真的「时装秀图」。其中,第二排左一是当 Gareth Pugh 遇上 Simone Rocha,第二排左三则是 Charlotte Olympia 与 Huishan Zhang 相混合的结果。你可以看到,在演变、融合的过程之中,共同点被联系得更加紧密,分歧点同时突出地保留:

Screen Shot 2017-08-15 at 6.34.35 PM.png

将整个时装系列用一个 Look 来表达

既然我们可以利用两幅不同图片的编码组合来生成新一幅图片,运用同样的技术,我们就可从设计师的整个系列中提取出一套「平均编码」,最终将整个系列用仅仅一个时装 Look 总结出来。

Screen Shot 2017-08-16 at 11.10.10 AM.png

上图,自动编码器为每一个品牌生成了一张总结性的 Look。这样的重建图像和重建过程帮助我们瞬时理解一场秀的主题、风格,同时,我们还可以从这一个高度浓缩的 Look 中拆解出稍多的几张图片、几个部分,看看定义了这种总结的究竟是什么。

在这一分析过程中,我们找到了视觉风格最为明确的几个品牌,他们是,Margaret Howell, Antonio Berardi 以及 Emilia Wickstead。Margaret Howell 以简明、休闲、略携复古气质的风格而闻名,在自动编码器所形成的代表性图像中,有着柔和色调的及膝风衣、插着兜的模特姿态正是佐证了这一特点。

Screen Shot 2017-08-16 at 11.20.54 AM.png

Antonio Berardi 被由蓝色调、紫色调的紧身短裙所代表。

Screen Shot 2017-08-16 at 11.21.05 AM.png

Emilia Wickstead 则可能是视觉呈现上最具代表性的一个例子了。在重新生成的图像中,你可以明确见证轻柔、飘逸的面料质感和宽松的裙装廓形,甚至看到浅色调的花卉印花被表现出来。

Screen Shot 2017-08-16 at 11.21.11 AM.png

绘制时装周风格地图

16 项向量值为每张图像都在「编码空间 encoding space」(简单说就是包含所有字符、熟知的表的维度)中定位了一个独特的位置。只要测量两点之间的距离、方位关系,就可以得出两张图像 / 两个 Look 有多么不同/雷同。

为了更好地在二维空间中表现这些图像的分布状况,我们采用了一种叫做「t-SNE」(t-distributed stochastic neighbor embedding) 的技术来实现数据可视化。t-SNE 是一种非线性的降维算法,其原理是通过向量空间之间的「仿射变换 affinitie」将数据点映射到概率分布上来。

Screen Shot 2017-08-16 at 11.21.38 AM.png
Screen Shot 2017-08-16 at 11.21.53 AM.png

在上图,我们为每一间品牌对应一种颜色,将每一张图片表示为一个点,依品牌属性来为这些点染色。我们看到,有些颜色的小点极为密集地聚在一起,这代表自动编码器认为这些图片的属性相似度较高、其设计风格的独立性强、与其他品牌风格相重复或交汇的地方少。据分析,这一类品牌包括 Julien Macdonald, Versus, Bora Aksu 等。

Screen Shot 2017-08-16 at 11.22.46 AM.png

拿出经过解码后重新压缩生成的几个代表性 Look 来看,Versus 的看起来十分相似。深色调、几何感廓形、短、收腰..... 正是系列内部的高度统一性让 Versus 和 Julien MacDonald 的散点阵从整个编码空间中脱颖而出。

有趣的是,Bora Aksu 却是用了许多种类的材质以及包括蕾丝、褶皱、波浪处理等在内的众多技法,其色彩也较为多元,Look 与 Look 之间的剪裁手法不尽相同。可尽管如此,自动编码器依然为每一张图像所对应的小点都进行了精准的定位并依此进行分析。

在编码空间的示意图中,出现了许多团状区域——代表多家品牌的彩点汇集在一起,还有些品牌的小点几乎是从上到下、从左到右地遍布整张「风格地图」,这就代表着自动编码器并未找到太多其系列内部的相似性。

机器检测

看过了对不同之处的分析,让我们来看看自动编码器在定义「相同」也就是总结潮流方面的表现。下图,自动编码器在同一品牌、同一系列间找出了最为相似的一对 Look:

Screen Shot 2017-08-16 at 11.23.05 AM.png

当在同一品牌、同一系列间选择最相似的一对 Look,所谓相似点似乎与造型、模特、模特姿态这三个元素有着最为密切的关系。如我们所一贯认知的,同一系列中还是有一些极为相似的 Look 的,这样做可以帮助设计师打造更强的季度风格、品牌风格。

自动编码器致力于捕捉两个时装 Look 间的细微差别。在上图左下角的一组 Erdem 秀图中,自动编码器识别出了二者在胸口处同样拥有 V 字结构线条的这一共同点,而两件裙装一蓝一白、一蕾丝一印花的区别则被刨除、跨越了。在 Erdem 右侧是一组 Burberry 的秀图,和左上角的 Versus 一样,这里「最相似的一对 Look」竟由一个男装 Look、一个女装 Look 共同组成——自动编码器甄别出了其在男性化时装廓形以及层叠造型结构上的相似,并将它们自动匹配。

同样地,我们可以跨设计师、跨品牌地寻找相似的、在编码空间里拥有紧邻的时装 Look:

Screen Shot 2017-08-16 at 11.23.15 AM.png

上图是一幅对本季廓形、材质、纹样等方面潮流趋势的有趣导览。这些由自动编码器精选过的 Look 展现了当季潮流元素,并将不同品牌设计中相交叉的部分呈现出来。例如,(第三排右一)Anya Hindmarch 和 Burberry 带来了有着同样长度的外套设计,(第二排右一)Paul Smith 和 Simone Rocha 同步推出了轮廓宽松的 tea dress(tea dress 原指享用下午茶时所着的裙装,现指色彩明丽、长度微微过膝的小礼服式设计),(第二排左一)Joseph 与 Molly Goddard 则双双用到黑白双色的单频花纹。

自动编码器也同时带来了一些意料之外的、有趣的结果。我们可以看到,一些配对是根据波浪皱褶的应用、大衣外套的形态、肩线等细节对应而完成的,在这里,Look 被解构地分析。举例来说,(第一排中间)Roberts Wood 和 Anya Hindmarch 就整体风格而言显然大相径庭,但其中却有古怪但的确相配对的时装元素;看到 Ashish 因为同样用到了银色金属质感材料而出现在 Mulberry 旁边(第三排左一),这同样令人吃惊。就设计外观而言,它们只是共享了一点共通之处。我们知道的是,Mulberry 近来正向一个更加摩登的方向转型——正是这一点被我们的自动编码器揭示出来。

揭示品牌定位

接下来,我们抓住同一家品牌不同秀图呈现在编码空间中彼此之间的距离,从此入手了解其众多时装 Look 之间的关系。对那些在 Look 中保持着相当一致性的品牌来说,其散点间的距离较小,分布紧凑;而对那些在 Look 中经营着多中风格的品牌来说,分布也就相对稀疏。

Screen Shot 2017-08-16 at 11.23.27 AM.png

上图是我们得到的总表。纵轴为被纳入数据集的伦敦时装周各品牌,横轴计数了其每对散点之间的距离。在最下方被特别提出的,是有着最紧凑散点布局情况的 Simone Rocha, Roberts Wood, Sharon Wauchob 和散点最为稀疏的 Edeline Lee、Emilio de la Morena。

Screen Shot 2017-08-16 at 11.24.01 AM.png

拆开成多几个(作为输出结果的)Look 来看,上图的 Simone Rocha, Roberts Wood, Sharon Wauchob 在时装周秀图上呈现出非常鲜明、凝聚力极强的品牌视觉形象,无论色彩、时装的廓形、模特的姿势还是整场秀图的背景都高度统一。

再看 Edeline Lee、Emilio de la Morena 的秀图,我们就能理解为什么自动编码器为代表其 Look 的散点分配了十分分散的位置:

Screen Shot 2017-08-16 at 11.24.06 AM.png

——不仅背景上变化多端,设计本身也较为多元。Emilio de la Morena 这一案例更为有趣,它显然有着简洁、同一的秀场背景,但却因变化实在丰富的时装设计本身被拣选出来。

一场时装秀、一个时装系列能够展现出如此的多元化程度,这实属罕见。人类分析学家很有可能会漏掉这些被自动编码器通过重建图像所识别出的属性、特点,而自动编码器却凭借其对各项数据一视同仁、不加鉴别的统一分析而将许多信息轻而易举地展现出来。

在数据分析中采用深度学习方法可以帮助我们拓宽从数据集中获取专业洞悉、获取可计量指标的可能性,而这些洞见往往是仅凭粗略观看无法获得的。和这些时装周秀图打交道很有趣,但就这一技术手段对整个行业而言,其影响可能是巨大的。人工智能可以帮助人类买手挑选设计师所呈现的系列中究竟哪一件才是最具标志性的单品(iconic piece),还可以实时呈现出本季的重点潮流趋势是什么,或者帮助零售商打造一个可以将多个设计师品牌合理组合起来的的空间陈列。

——一切都还刚刚开始。

致谢及参考资料

  • Eigenstyle, Principal Component Analysis and Fashion
  • Front Row to Fashion Week
  • Tutorial - What is a variational autoencoder? Understanding VAEs from two perspectives: deep learning and graphical models
  • Variational Autoencoder: Intuition and Implementation
  • Building Autoencoder in Keras

原 PDF 文件下载地址