![undefined](https://cbu01.alicdn.com/img/ibank/O1CN0164lLAe1R6RhPRNNr4_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN014zJU5D1R6RhQ9dlLL_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01yIySTF1R6RhPzapqV_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN013bLjZy1R6RhSjPt7I_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01fiCwIg1R6RhPzZpTX_!!3191592062-0-cib.jpg?__r__=1732084261409)
![undefined](https://cbu01.alicdn.com/img/ibank/O1CN01AjwF4O1R6RhNMjOhW_!!3191592062-0-cib.jpg?__r__=1732084261409)
设备之心专栏
设备之心编辑部
本文是蚂蚁集团和武汉大学一起提出的, 一种面向多场景多任务优化的自动稀疏专家选取办法。论文题目为《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》,它经过简洁有效的架构,实现了样本级细颗粒度的自动网络结构学习,对各样场景结构有较强的普适性。论文已被 SIGIR2022 录用,同期已然在支付宝数金搜索场景上进行了全流量推全,得到了明显的业务效果。
1、业务背景和问题
支付宝数金搜索是财富、保险等多个业务的重要流量入口。其搜索场景入口如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/745db1f0dc68450e907d060607852ca8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=edUCRbEYhTq7c%2FdPCim9hOnNhhs%3D)
图 1:数金搜索场景各个入口和详情页实例。
因为业务种类与目的的丰富性,数金搜索较通常的垂类搜索面临更加多的挑战。以基金搜索为例,它包括:
多入口场景:主搜(即支付宝首页顶端的搜索框,包括小程序, 生活号,理财等内容)理财 TAB(指支付宝下方第二个 tab 理财的搜索框,又叫垂搜,专注于数金服务,如理财和保险)多种卡片:区别的搜索词类型会触发区别的搜索卡片,例如:热门基金:指用户搜索 “基金”,“股票基金” 等品类词时,会展示类似举荐规律的 “热门基金” 卡。基金制品:指搜索精细制品名,或板块词(如新能源,白酒基金等),会展示 “基金制品” 卡。多维度目的:点击 (PVCTR)、购买转化 (CTCVR),且用户交互行径相对电商更加繁杂,决策周期更长。在单场景上进行分别迭代,带来了巨大的守护成本;同期,各个场景都比较重要但又有很强差异。主搜流量大,用户新,但成交相对稀疏。理财 TAB (指垂搜),流量较小,但成交金额是主搜的 3.96 倍,且用户多为资深用户。有部分用户会同期运用主搜和垂搜,倘若用户行径信号不可实现迁移,亦较难得到满意的线上效果。因此呢,在多个场景运用统一模型是非常必要且急迫的。
然则,将所有线上样本进行混合,直接运用 hard embedding sharing 的网络结构带来了比较严重的负迁移问题。经过近一年来从 MMOE, PLE 等办法的应用和科研,并调研了 STAR 等多场景办法, 咱们提出了一种新颖的,基于自动专家选取的多场景多任务搜索框架(AESM^2,Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文简叫作 AESM)。
AESM 用一个框架,并以相同的视角同期处理多场景和多任务问题,它经过简洁有效的架构,实现样本级细颗粒度的网络结构学习,如下图所示。值得重视,该办法不仅可应用于搜索,还能应用到其他多场景多任务的算法场景。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/282d7a9bdcdc4adfae4a9b82c6bb7308~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=WIGf3DqcnLenbD9bT6Y2%2F7ATyCY%3D)
将 AESM 模型安排在数金搜索的四个子场景中,相针对各个各场景中单独安排的模型取得了明显提高。相针对基线模型,CTR 整体提高 0.10%、 CTCVR 提高 2.51%,成交 GMV 提高 7.21%。仔细的数据分析可见后续章节。
2、多场景和多任务学习状况
多任务算法(MTL)和多场景学习(MSL)在学术界和工业界被广泛的科研和应用,经过多任务联合训练提高应用效果,如 ESMM、MMoE、PLE 等。但它们无直接思虑多场景 + 多任务的状况。且 PLE 的场景 / 任务间的繁杂相关,需要经过人工指定网络结构来适配。
多场景学习旨在处理多个相同的任务标签,且空间结构类似的场景。例如 STAR [19] 尝试经过星型拓扑捕捉场景关联性,其中包含共享中心参数和场景特定参数,预设了各个场景是扁平的,并无无层级关系。其他科研 [8, 15] 阐述了将多场景问题做为一个多任务学习问题,但这些工作都需要足够的行业知识来设计网络结构。
与 MSL 区别,多任务学习侧重于建模任务间关联性和区别 。例如,CTR 预测和 CVR 预测 [8, 12] 和信用危害预测 & 信用额度设置 [9]。下面是几种平常的处理多任务的办法:
硬参数共享 (hard emb sharing)[1] 是最简单的模型,它经过共享底层学习内在关联性。然而,它们饱受 “跷跷板现象”[20]—— 一项任务的改进常常引起其他有些任务的性能退化。MMOE 经过 gate 门控机制对各个专家 (experts) 进行组合,但各个专家之间是无交互的,且不具备稀疏性,所有的任务都会运用所有的专家,这使得模型规模变大后,推理性能下降显著。PLE [20] 采用渐进式路由机制并将 experts 分配给共享和特定的任务,这缓解了举荐系统中的跷跷板现象,然则它需要人工指定所有的网络结构,如哪个专家是独享或共享的,就地景和任务关系繁杂时,这是比较繁杂的。综上,现有办法的问题是:
只关注单场景下的多任务学习 (SSL&MTL), 或纯粹的多场景模型 (MSL&STL)。无直接思虑多场景 + 多任务的状况。这就引起了这类场景丰富的上下文信息,会受到跷跷板和负迁移影响。为每一个场景 / 任务研发模型,研发和守护成本都会大大增多。场景 / 任务间存在相关和区别,而以往的模型都经过人工指定网络结构来适配。但这需要海量的实验和人工调参,是不是存在简单有效的自动专家网络选取?咱们将从这几种网络的优点和劣势总结如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/af9736f6b7ba48deb87bbb59e642aba5~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=kxeRurv0Yi1ftyBfeZ0hrcSMpXg%3D)
3、算法方法设计
挑战:各场景存在很强的差异
咱们能够将基金场景抽象成如下树状结构,分别是场景层,卡片层和任务层。
场景层重点是人群间差异。垂搜流量和成交显著比主搜更大,专业用户更加多,但交集用户较少。卡片层重点存在 Query 差异性,其原由是搜索 query 触发规律的区别,搜 "基金","股票型基金" 等泛品类词会触发热门基金卡片,而其他基金词则会触发基金制品卡。任务层重点存在任务间差异。基金购买是重决策过程,用户会反复对比多只制品,且购后都会反复搜索和点击,关注价格走势和其他信息。点击和转化率皮尔逊关联性较低。![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0f376669d6c04166b16c5d7b504fd25f~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=S%2FuHKqFQU9hb%2F15L5%2FEN32m%2F2Ik%3D)
图 3:真实业务中繁杂的场景和层级带来的迁移困难
而运用 PLE 训练统一数据 + 模型,其效果不如在各个场景上独立训练的 PLE 模型,存在必定的跷跷板效应。因此呢,怎样设计一个统一模型来处理多场景和多任务?怎样自动学习场景任务间的相关,并使得各个场景都有正向收益?
整体模型结构
咱们针对如上的场景树结构,构建多层堆叠的,结构类似的 AESM 网络。在下图中实例中,真实场景中的场景层 / 卡片层 / 任务层,都由两层 AES 层来堆叠建模。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3fd6ac10fc7f4f79aedb3b275b40e133~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=L3eBR%2B1xBaAbaTYcyWOS1dRdoPM%3D)
图 5:AESM 主结构图
AESM 将多场景和多任务问题视为同一问题,并采用分层架构将它们融合到一个统一的框架中。与 PLE 区别,AESM 利用通用且灵活的架构, 分别进行区别场景和任务下,设置共享和独享的专家。
如下图 c 所示,上面区别颜色的 E 表率专家被区别的任务所运用: E1, E2 被 A 任务运用, E2 和 En 被 B 任务运用。E2 为 share 专家,其他为 specific 专家。
为了简化,咱们首要介绍单独的多场景 / 多任务层,并讨论怎样做自动专家选取;后续再讨论拥有多层任务设置的状况。
共享嵌入层
与其他模型类似,咱们设计了共享嵌入层,将底部的类别和数值特征转换为连续的特征向量。假设有 组特征,例如,用户特征(如年龄、性别)、物品特征(如价格、品牌)和行径特征(如 q2i,u2i 等)。针对给定的样本,首要将数值特征转换为类别类型,而后对类别特征进行 one-hot 处理,如下所示:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/28a91778412f47fab8e4485db34ac219~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=etxB82584to2K3jcymi9EPp%2FGZE%3D)
其中,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1d08a1695412429a9f3b11e99faa57b7~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=r0pwghtlmZMh%2BLIcprR5s3UDsVA%3D)
暗示用户特征的个数,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/d2163fc6e1644adda5346261a514db1c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Fxj3VLCIdYxuei0IhRefudrb9yQ%3D)
暗示特征向量的拼接;其他类型的特征处理方式同用户的特征处理方式;将处理后的各样类型特征进行拼接,得到输入
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/81473c35c1f44fd49d0ffd85bfa4a46d~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=s3xD27T62WVB6OKK5Eq8ICPD8HU%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/f4e5ffe4341e4a259ab7227678316e50~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ab5ZlacbYE8pzk0jY0XoLop0pWQ%3D)
多场景层和专家选取
在共享嵌入层之后,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/bd4c9907fb754a8fa48c79605d16bc14~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=b8IRZC4p0vddcZ0rXScNJtNRg%2FA%3D)
做为后续层的输入,经太多层专家选取层得到最后的输出。这儿的核心问题是,怎样进行专家选取?
全部过程用下图暗示如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0e1b27f4c968425396ba7e036fcba66b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=38UK8Kb6jJ0aUIExwvUxiFSFdms%3D)
图 7:AESM 的探索和稀疏化约束机制
为简单起见,咱们只展示一层的选取过程。假设有 n 个专家和 m 个输出(即 m 个 gate)的场景层,咱们首要利用线性变换来计算每一个场景的门控向量如下:
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/662a06439eee4220a21898c33f7370e3~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=eKSn4E2BVj0W5VIxR71b9U8SKiE%3D)
其中,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e3eb2f25c7354b8aaf8a09423b34f438~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=w3p7WNzbXU%2BPr093ctqJ81mfp5k%3D)
是第 j 场景和第 k 个专家关于输入实例的关联性分数;
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5c8f1bc9128e40e9abeb35f7de2a6f51~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=b8BW1LCWRr03ynX64yz3fa%2BxWZs%3D)
是可学习参数,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1a25e10275ab4cac8fe5242aa527cd0c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=S4Pw4Eg%2B%2Bakmi9CtusDvhkFn2Xk%3D)
是场景 embedding 表征,
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a4645f12229e4cdc900ac4b0abe00fe1~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=zWfmtaf%2BFmZACcavLK45H5cimIE%3D)
是高斯噪声(
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/7b6a3724428e46e0ab7aea68a8189b81~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=1fOOTi5VRJCBYjBYJlRUBihL8DQ%3D)
)。
行向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5c640485c4df4fdda78ce94ce4b5b24c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=qFGly0YGgndgSi49P695y0S1nrI%3D)
是选取专家模块的关键过程。咱们做出如下假设
倘若相对大于其他向量,则暗示,第 k 位的专家更加多可能被归类为第 j 场景的 specific 组。倘若中的值都相对接近,则第 k 个专家可能包括所有场景之间的共享信息。因此呢,咱们首要对矩阵执行逐行 softmax 操作 G 如下:
![](https://p6-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/4d05437d6bc649f1873836e0e7ae0562~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Kl1Y8A5HUu0aKb5K1uiMQ8ah8mM%3D)
而后,针对第 j 场景,咱们形成一个 one-hot 场景向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/30759a6b14444e82b99127fb8dee2e66~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=z9InuaK6d88lRQZBpNg4r0lccv0%3D)
,其中仅有第 j 个元素为 1。如上所述,能够按照
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/1c758674f234496ab31d8fb243b449c4~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=iNzmQXw798Eax9tGK7iexC%2BQ2Mc%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/aa5bacc6896f4033b9f1a6ad585a9aae~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=lKtfFFm5TsuYJKgshmgOkqDMzxs%3D)
之间的类似性来衡量第 k 个专家是第 j 个场景特有专家的概率。
类似地,咱们还为第 j 个场景引入了一个均匀分布的向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3e7e1cf9bf55412089acb983ae1b350a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=l6zoY882Pi4pgyybKfc4utjcXt0%3D)
,
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/049db529337041029acc886f3d4da457~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=UKhbSSt9wLltZ7wivCXhE758aYI%3D)
能够按照
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5d4c765aec6b43459d93b26536bdb98a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=joW5ifMpE3N9P%2FiVIdzWYOSLZAY%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/7ccaed43218645ffbba9ad5c6e7c6fff~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=TCTdTIXfQuc6ZRWe2u8ce%2FziOI8%3D)
之间的类似性来衡量第 k 个专家是第 j 场景共享专家的概率。
因此呢,选取场景特定和场景共享专家的过程形式化地描述如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6d5f748e00ac4d96826ce978de1b2146~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=gIJw8eUvt%2BZ3%2Fplps0Jgrmvs4vA%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/54905bf8c02a4665a65dbc3a254ec8e2~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=dtXZmEAApUehVsuTNEvtSSRyibw%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/3609dc15a49942c8b7d4df146666e325~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=aIe%2BNMMYGS6HcNkFGkKCt8BYKMo%3D)
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2db5cbd3badf43cfb0362ea899dc0e93~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=WxfU%2B2HCS%2BUKSxeoi0FOm0pQTwk%3D)
其中
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/576565cb1d8b45ad8cfea73bc7cfae88~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=XchUAMW4YvqTAwM3gE%2F0qp%2F0JqI%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/16ca100dbb154d6c92302fc23e6eb1bb~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=i%2FTshdeK0gAo%2BjjABTlWNB6V7R8%3D)
分别为第 j 个场景的特定和场景共享设置的专家 index,算子 TopK 是返回 top- 索引的参数操作值,( ) 计算 Kullback-Leibler 散度。
运用
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8edd01ab660b41669c863448d500c02c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=oDAJ2DRUTmZoc5I%2BKcEYdOB%2Ftcc%3D)
和
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/77c873d27e9745198eaf06c9a6689433~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=iXVLWwqEK0qc76hufQO2FFLyVqQ%3D)
来更新门控向量
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/82aa52937831449291fb20909e8cdb8b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=RCHDiVlKqCWUmdfajVT9w6b5HqQ%3D)
,实现稀疏专家网络:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8e39c7970ee94e2a9d2a0427d5136e24~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=9HkEdXaNcOqpyub1TPV75BwOtCI%3D)
然后,将门控标量矩阵
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8178205db98248468d8b7f20cfd749a8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=KP8G2D8F0KnQwwUtE3ahrMtH1K0%3D)
和专家输出
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2409d7ff70164d53ab2c063a0166ee42~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=7FDES5Ye0aQFryZveIv%2BG%2By50BM%3D)
输入标准的 MMoE 模块得到这个场景层的输出:
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/fe782bce70e7451d843e2193e43d6f53~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=imv0bcC0ogjtKzKbt7V4B8GFcb8%3D)
综上,本办法最重要的是三点:
噪音探索:在 gate 上增多高斯噪声,使得模型去学习区别专家的组合带来的效果,从而选取最佳的专家组合,噪音大幅扩大了专家组合的探索效率。噪声强度是超参,无限大的噪声等价于在专家维度进行随机 dropout,会必定程度影响下面的 loss 约束收敛,而较小的噪声起不到探索效果。因此呢噪声的施加策略是后续进一步优化的方向。如,随着训练步数增大,专家选取逐步稳定,那样噪声强度应逐步变小。稀疏化专家选取:经过计算门控列向量与 onehot 向量与均匀向量的 KL 散度,使得 gate 选取最适合的共享和独享专家,并实现专家网络的稀疏化,并实现了稀疏激活。这明显提高了泛化性,同期模型规模变大,亦不会增多推理时延。集中性约束:在以上机制的基本上,进一步增多基于 KL 散度的约束。本质上便是让相同场景 / 任务的样本,尽可能选取同一组最优专家。这种基于距离度量的约束,类似样本聚类的功效,但其实现是更简洁的,能够与深度学习模型一块集成。在多任务部分,咱们给定以上场景层的输出
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/617ee703e8f6451abfcea2399766303e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=T%2Bf%2BgckxaHD%2BIAIWz6pR%2FflDQ90%3D)
,咱们亦利用相同的选取过程来实现多任务学习。此处再也不赘述。
多层堆叠和扩展
此处可参考 AESM 主模型图。
在实质应用中,一个场景可能很繁杂,并且在本质上表现出层次结构 [11,15]。例如咱们的基金搜索场景,经过堆叠多个场景层和任务层,咱们的模型 AESM 能够非常方便地处理这种繁杂的场景。这与深度网络(DNN)的优良同样,经过更深的深度,而不是宽度,能够以更少的参数表达更繁杂的问题。
例如在有 层的场景,每层有 N_i 个场景繁杂系统中,只需要调节每一层的输入S_i ,最后咱们能够对n_1n_2…n_L_s个细分场景进行建模。当咱们运用标准的 MMoE 架构时,每一层咱们需要相同的专家数量。因为
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/90f1268ec19f4f849aca39cbddcb21ad~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ZlrV2wOQ%2FrexnfhhkzptiO211OE%3D)
,能够节约海量的计算成本。
另外,咱们仍然能够将 多任务层堆叠在一块,自适应地为更高级别的任务进行特征提取。与多场景区别,由于在第1个多任务之后,每一个任务都有区别的输入层。在后续的多任务层中运用相同的专家结构,运用区别的输入进行专家选取。当层数大于 1 时,咱们运用前一层的输出做为后一层的输入。
模型优化
针对数金搜索的精排模型,选取 sigmoid 做为激活函数。因此呢,第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/61af043ce20f41b8a1f268c4dda80c6e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=p4fwrpbAgDe3d%2FWz5xGICWQiavg%3D)
个实例的交叉熵损失如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0f605cefed52413780209a3b477ca672~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=QQx9E%2F%2F%2ByUd4SLYnvzCkYWiJf1c%3D)
如上一节介绍,咱们增多辅助损失来加强场景 / 任务特定的专家选取。详细来讲,针对第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5afec20ff2fd47c6a223f72ab7c4404b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=fjWaZJVSyxGV5KEC1m7ZPcgdPEQ%3D)
的多场景层,可增多下面的 loss 约束:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/95c53807912242958d46a432b7ba0f8b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=4IrcXbY6lQL8%2FYKYi4RXJ%2FTlWLI%3D)
其中
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/35d60e56d42e4af783efb30f2154b505~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=cb0AqCQj65ATJSK9lIoLB0b%2BEP0%3D)
是第
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6ea8e9e951f542b2a7a85952d047fe47~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=KKKvuqaAM3jmeevxDDRGRSwZHbI%3D)
个多场景中的输出层。一样,针对第
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/456f1893ffd04942a14901e3f7422082~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=MXLInU8yucnssnfeBqjMqAqEh%2BQ%3D)
的多场景层,可经过
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/53088b5e992d4eb0867de39ad02ab49e~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=upMj5pQFeqUX7ipbb4pf8m2LjJQ%3D)
加强训练过程中专家的选取决策;一样多任务层中共享专家的损失函数暗示为
![](https://p26-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/741fc421fd184163a3e628afaff2fb24~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=RUycKn4xogSvN91xfpNvi13CTqk%3D)
;综合得到,辅助损失函数
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/26acd5ff09794010a560bdbf47018289~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=0RjwJ%2BS5cGrNoXb2%2BQoz4zic3fE%3D)
定义如下:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5f9bdc185bd04808a0377b4b9efe7a34~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Gg6LGQ30pwyL4aV9Q%2FH36nGjIKQ%3D)
整体的损失函数可定义为:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0a8f146d595a4a13af3f096371cb913b~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=bJIGnq1nEshIVm43KUYAilqll%2Bo%3D)
四. 线仿真和消融实验
为了验证 AESM 的有效性, 咱们在多个数据集上,将 AESM 于其他多场景 / 多任务模型进行对比。并做了海量消融实验。
实验设计
离线实验中共收集了两个真实场景中的数据集,分别是支付宝和速卖通数据。
支付宝数据集:收集了从 2021 年 11 月 15 日到 11 月 30 日, 两周用户支付宝搜索的行径日志。分为主搜 (HP) 和垂搜 (VP) 两个场景(channel),同期每一个 channel 中还能够进一步划分为 热门基金(BS)和基金制品(RI) 两个卡片(这儿被抽象为)。因此呢,全部数据集经过 channel 和 domain 正交分为四个详细的场景。按照行径数据的日期将数据集切分为训练集、验证集和测试集:11 月 15 日 - 11 月 28 日为训练数据,2021 年 11 月 29 日为验证数据,2021 年 11 月 30 日为测试数据。进行点击率和转化率的预估。观察到两个数据集中的数据分布不平衡。例如,仅 VP&BS 场景中的展示次数在所有场景中占比 6.44%,大部分点击出现在场景 VP&RI,反而占 82.33%。
速卖通数据集:一样此数据集存在多场景(按用户国籍划分)和多任务的设置。在这次实验中,选择了、、和四个场景的数据集。由于原始数据集只包括训练集和测试集,咱们随机抽取 50% 的原始测试数据做为验证集。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/d3bc03a1927143bdb9ebe08ae1760d15~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=oRYG%2BpeNPi5E8MGARjN5Wc23Jfc%3D)
表 2:速卖通数据集统计状况
咱们将 AESM 与两类基线模型进行对比:
门感知 (gate-base) 模型,它运用门控机制来处理多场景或多任务问题,包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多门混合专家隐式建模专家之间的关系,来自多个门的合并暗示能够分别转换为多个场景 / 任务预测层;HMoE [8] 运用梯度切割技巧显式编码场景之间的相关关系,HMoE 采用两个拥有单独参数的模型来优化 CTR 和 CVR 任务;PLE [20] 是另一种先进的 MMoE 变体,它将专家分为任务特定组和任务共享组,避免了区别任务之间的负迁移和跷跷板现象;无门模型,如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一个简单但广泛运用的模型,经过共享的底层对共享的信息进行编码;Parallel DNN 是在基本 DNN 上增多适应多场景或任务的转换而来;Cross-Stitch [13] 经过线性交叉网络将多个网络结构进行组合,用于学习任务暗示;STAR 采用星型拓扑结构,由共享中心网络和场景特定网络组合而成;借鉴 ESMM [12] 的思想,咱们优化全部空间中的 CTR 和 CVR,即 = × 。运用 auc 评定模型的性能。为了保准公平,咱们做了以下工作:
因为以上的基线模型中并不可同期处理 MSL&MTL。咱们在基线模型上进行结构扩展,来适应咱们多场景多任务的需求。例如,针对多场景模型 STAR,我们在任务级实现另一个星型拓扑结构。针对多任务模型 PLE,在原有的公司上再叠加一层 PLE 结构来处理多场景问题。所有的基线模型同 AESM 同样运用合并场景数据进行训练,网络的结构的深度及选取专家的个数等超参均保持一致。基线效果对比
表 3 和表 4 是支付宝和速卖通数据集上区别模型的性能对比。两个表中的结果都显示咱们提出的模型 AESM 在所有状况下始终优于所有基线任务。尤其数据稀疏度最高的主搜热门基金,提高更为明显。这显示模型能够适应区别的配置的场景和任务。但其他模型则不必定,例如在 CTR 任务中,PLE 在 VP&BS 场景中的表现优于 MMoE,但在 HP&BS 场景中的表现不如 MMoE。
与多场景和多任务设置中训练的模型相比,所有基线都受到来自区别场景的负迁移的影响。例如,它们在 HP&BS 上的性能不如在单一场景中训练的模型。然而,AESM 在所有场景中都优于所有单一场景模型,显示 AESM 能够更好地利用场景关系,避免负迁移。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5fc87162fe324fce94e465e93436d25d~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=nrZvEeuZSTyYQpTgmUPUsTDvUH4%3D)
表 3:区别模型在支付宝数据集上性能对比
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/2c82a8c1a9b74672976ff38befc45fc8~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=GU760W90iVgcP90cGIH3%2B5tKJCE%3D)
表 4:区别模型在速卖通数据集上性能对比
消融分析
为分析每种优化的影响,采用两种区别的 AESM 变体进行消融分析:(1)无高斯噪声和辅助损失 (2)无辅助损失。从下表的结果能够看到,去除高斯噪声和辅助损失后,所有任务上性能均有下降。
对比(1)(2)两种变体 AESM,能够看到高斯噪声在所有的场景中均有着良好的表现。这寓意着恰当的波动给模型带来了更为广泛的探索空间, 得到更为精确的模型参数。
辅助损失能够引导专家网络选取更接近假定的分布。下图的结果暗示,当删除辅助 loss 时,场景和任务的性能均会下降。咱们进一步地绘制了门控矩阵下,选定的场景 / 任务分布与假设分布(独热和均匀分布)之间的 KL 散度的差异。能够看到增多辅助损失后,两种分布之间的 KL 散度损失是逐步下降的。显然,加入辅助损失后模型能够稀疏地进行专家选取。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5fe476e37d254f578f9c46bb7b023de1~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=irE5ZLz8CNSGRhaRS0jyP3U%2FRhA%3D)
图 8:稀疏化辅助 loss 的训练收敛对比
专家选取的可视化
咱们可视化了支付宝数据集中,场景 / 任务的 specific/share 组的专家利用率,即 gate 激活程度。为了简单起见,每一个层(即通道、域和任务)都包括两层专家选取层。
特定专家集和共享专家集都配置为仅选取一位专家 (topk=1)。下图表示,在 channel 级别,共享同一类型通道的场景拥有更类似的分布。这显示咱们的模型能够动态地模拟繁杂的共享信息和场景之间的差异。相比之下,PLE 以静态方式定义特定 / 共享专家。在任务层面,咱们观察每项任务,几乎在特定 / 共享组中选取一位专家,这寓意着咱们的模型亦能够收敛到 PLE 设置。
这些观察结果显示,AESM^2 是一种更通用的模型,能够适应区别场景 / 任务的区别结构。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8b7caf9a759e4c71b8880bf8441ed6bf~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=Ok%2B5zKv11RBRiq2wwI%2BQMEXCrbY%3D)
图 9:区别层级专家的被选取概率可视化对比
AESM 自动专家选取的讨论
为了定性的讨论这个问题,就需要先思考多场景和多任务问题的本质区别是什么?
多场景和多任务,都属于多目的问题的一个子集。笔者认为,多场景问题本质上需求泛化性,帕累托最优中的资源是模型参数的归属,任何一个事件(如点击和转化),不可能在两个场景同期出现;而多任务问题恰恰相反,帕累托最优的资源约束,重点是参数权重本身,是梯度冲突引起的参数更新方向的冲突,但并不尤其强调泛化性:一般模型参数量越大,帕累托前沿越向前,但却会损害泛化性,这一点可经过下图的实验证明,来自文献 [13]。
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/340c862a389043198f3f05f75f221104~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=3bg5TJoyoAwi0FEy%2FqQqikGAIXQ%3D)
参数量会明显地影响多任务模型的泛化性和效率。因此呢想要同期处理多场景多任务,就必须平衡效率(帕累托前沿)和泛化性,它们是天然冲突的。处理这一问题最直观的思路,是经过 bottleneck 网络结构,在靠近输出层增多模型参数,提高帕累托前沿;而在底层施加稀疏性约束,使得底层提高泛化性。
值得指出,倘若只是处理多任务优化问题,会有非常多办法能够做到。但 AESM 办法却经过相当简单的方式,经过施加噪声和稀疏化,在类似 MMOE 的框架下,实现了类似 bottleneck 和 dropout 的思路来实现专家选取,让参数尽可能在底层而不是上层实现共享,从而必定程度上平衡了多场景和多任务分别需求的泛化性和帕累托前沿的问题。
5、业务效果和在线实验
线上推全实验
咱们在 2022 年 1 月底起始,与四个场景的线上基线(基于行径序列的 DIN+ESMM) 进行了两周的在线 A/B。效果明显优于其他所有场景,并进行了推全。
以下是在各个场景各自的提高(其中在主搜热门基金和主搜基金制品观察到 darwin 实验的置信提高):
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/70390959a5a44907bb052709bdf9ee0a~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=5V0VM4XmvubZ9gsl7TEBb5TOcHY%3D)
以下是所有场景汇总后,实验桶相比基准桶整体的提高:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6e92fc3825dc45618d8edf28369d110f~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=V%2BCjFCDiXmfOOleClQ2naWJLqgY%3D)
线上消融实验
尽管咱们做了扎实的离线消融实验。但与强 baseline,如双层 PLE 等办法进行线上 AB 对比,则更能反映算法和系统的真实性能。
为验证 AESM 模型有效性, 咱们在主搜、垂搜的热门基金和基金制品四个场景分别设计如下四组实验:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/69026f554434456d9e4276c4fc5a9b1c~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=kAtex9bc7LDnxCCE6TR49gTtNbU%3D)
经过实验咱们发掘,对基金搜索所有的揭发点击行径数据来看,AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三个指标上相比其他基线有明显提高。其中关键指标 CTCVR,相比统一训练 + 单层 PLE 提高 4.7%。
以 CTCVR 为 KPI,拆解到区别场景的的效果对比。垂搜基金制品做为主力场景,其他场景为其带来的优良微乎其微,然则它能够较强地为其他稀疏场景供给迁移效果,详细见下图:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a6947088187e4dcfa64eb1ae835762c0~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=UVYawGhuw4Vcn2gYj0ys6UCFh5A%3D)
咱们将以上数据绘制到下图中,可更知道地表现 AESM 的优良:
![](https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/09a0c94051c8442db730fc3a6290bf47~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1737046614&x-signature=ODn3FrVavsVdcXU%2Bwl%2F6cA%2FaHHM%3D)
图 10:经过线上消融实验,与其他办法的效果对比
6、总结和后续改进
日前 AESM 已然在数金搜索的基金主场景进行了全流量安排。这可能是第1个在统一框架内,同期处理 MSL 和 MTL 问题的办法,并拥有以下优点:
大大降低繁杂场景间的负迁移现象,以实现最优的信息共享。实质业务中,非常多场景能够组织为层次结构,对其进行层叠式的建模,可进一步加强性能,并明显降低计算成本。经过噪音探索,稀疏化专家选取和集中性约束的机制,实现了自动提取场景 / 任务 specific 和 share 样本级专家选取算 法。详细的,基于 multi-gate 混合专家的稀疏化结构,实现自适应结构学习,并设计了辅助损失函数来指点训练过程。值得指出,AESM 后续有有些值得继续探索的方向。
AESM 经过噪音提高探索空间,但噪音强度做为超参难以选取,应探索和实验更稳健和鲁棒的专家探索方式。当需要增多场景 / 任务时,之前模型需要重新设计和训练。怎样优化 AESM,使得其能够进一步适应动态和异构的场景任务结构,并更好的处理冷起步问题,将会是一个有挑战的问题。咱们在横向专家层面做了自动专家选取,但在纵向(深度)上亦存在自动专家选取的可能性必要性:自动残差网络,将会是一个令人兴奋的方向。AESM 和谷歌最新的 MOE 架构 Pathways 有有些类似性,能帮忙咱们实现更加多异构任务的统一训练和优化。后续咱们会积极地探索新的改进计划。欢迎业界同仁一起讨论。
7、参考文献
[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.
[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.
[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.
[4] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.
[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.
[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).
[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).
[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.
[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.
[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.
[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.
[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.
[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences