世界今亮点!原创 | 一文读懂机器学习中的shapley值方法
作者:贾恩东本文约2000字,建议阅读9分钟本文为你介绍更公平分配利益权重的一种算法——Shapley值方法。
(资料图)
本篇文章是数据派一文读懂系列的新年第一篇原创,在这里祝贺大家新年学业有新成就,生活有新气象!这次带大家了解一种有趣的从数学角度计算合作博弈贡献从而更公平分配利益权重的算法——Shapley值方法。
相信大家在日常生活中都接触过这样一个现象,那就是1+1不等于2。好了,不开玩笑,作者想说的是,很多时候多个主体分别产生的影响和共同产生的影响是不具备严格加性的。有句俗语,一个和尚挑水吃,两个和尚抬水吃,三个和尚没水吃。分开的三个和尚每个每天都挑水,但放在一起“协作”反而就没有水产出了。这里是一个关于协作的负面例子,但更多的是协作的正面例子,就是1+1大于2的效应。以下用一个案例具体来说明。
某公司有三个程序猿,分别是屌丝A,大佬B,美女C,如果大家不合作,A每个季度可以完成3个项目,B每个季度可以完成10个项目,C每个季度只能完成1个项目。但是老板小王为了充分挖掘员工潜力,合理配置公司资源,让A,B,C尝试了各种合作模式。王老板观察发现,屌丝都是潜力股,美女都是催化剂:屌丝A和大佬B合作每个季度可以完成15个项目,合作效果提升还行;屌丝A和美女C合作每个季度可以完成50个项目,合作效果爆炸;大佬B和美女C合作每个季度仅完成了12个项目,看来对大佬来说不影响拔刀的速度就不错了;ABC一起合作每个季度可以完成70个项目。最终王老板拍板让ABC以后就一起工作,按照小组完成的项目数额外发放项目奖金。请问聪明的读者,按照最公平正义的分配方法,哪位员工获得的奖金是最多的呢?
说A的同学:明显屌丝是潜力股,虽然单独工作表现一般,但是和美女一起合作,大大激发了工作热情,肯定是A贡献最多!说B的同学:应该是大佬贡献最大,因为单独来看,大佬本身能力是最强的!说C的同学:应该是美女贡献最大,虽然美女单独工作没什么效率,但显然对团队的影响无法替代!
请先别急,我们接下来使用理性的数学思维分析这个问题,可以顺便推导出shapley值的公式。
设想我们顺序将ABC放到合作队伍中(合作队伍一开始为空),那么合作的组合会有3!=6 种,如下表:
加入顺序 | A加入的贡献 | B加入的贡献 | C加入的贡献 |
A+B+C | 3-0=3 | 15-3=12 | 70-15=55 |
A+C+B | 3-0=3 | 70-50=20 | 50-3=47 |
B+A+C | 15-10=5 | 10-0=10 | 70-15=55 |
B+C+A | 70-12=58 | 10-0=10 | 12-10=2 |
C+A+B | 50-1=49 | 70-50=20 | 1-0=1 |
C+B+A | 70-12=58 | 12-1=11 | 1-0=1 |
表中的贡献计算方法可以举个例子来说明,B+C+A的顺序组合中,A的贡献是ABC的合作扣除BC的合作,即70-12=58;B的贡献就是B加入空的贡献,即10-0=10。其他类推。
但最终的加入顺序只有一种,而各个顺序都是等可能的。因此, A的贡献可以计算期望:(3+3+5+58+49+58)/6=176/6 B的贡献可以计算期望:(12+20+10+10+20+11)/6=83/6 C的贡献可以计算期望:(55+47+55+2+1+1)/6=161/6
这些贡献期望加在一起,(176+83+161)/6=70也恰是ABC的整体合作效果,验证了我们计算的合理性。做个简单除法,得出最终A的贡献占比是29.33%,B的贡献占比是13.83%,C的贡献占比是26.83%。A的贡献是最多的,C也很多,B最少。同学你猜对了吗?
我们接下来把问题抽象化。假设有n 位合作人,任何一种合作组合例如第1位和第2位合作组合记为{1,2},是一个有序集合的概念,对于组合 s 来说,它的收益表现记作 v(s)。假如某集合 s 包含 第 i 位合作人,则第 i 位 合作人在这种情形下的贡献为 v(s)−v(s\textbackslash{i}),解释为集合 s 的效益减去 集合 s 扣除第 i 位合作人后的新集合的效益。
因此我们可以得到第i 位合作人的贡献期望为:
这里Si 是所有包含 i 的所有子集的集合, P(s)是对应合作顺序组合 s 的出现概率。可以这样计算该概率,首先 s 中 前|s|−1 合作人顺序进入合作集合,然后是合作人 i 加入集合,最后是后 n−|s|个合作人加入合作集合。这样构成了该种顺序组合,这样有(|s|−1)!×1×(n−|s|)! 种,一共则有 n! 种顺序组合,所以有:
最终的shapley值公式即:
到这里,关于shapley值方法的公式就已经推导完毕了。
值得一提的是,Shapley值方法是有严格的公理化体系支持的,感兴趣的同学可以自行检索学习。Shapley值方法很公平,在经济、金融、管理、政治中都有不少的推广应用。比如多方金融投资合作如何分配利润;不同人数的党派团体如何更科学地设置投票通过票数;安全管理团队中按照重要性对事故中的不同责任方进行责任判定等等。在机器学习中,也可以使用Shapley值方法对不同的特征进行重要性评价,进行特征的筛选工作,即使是深度神经网络这种黑盒模型也可以获悉不同特征对于整个算法的贡献分布。
在文章的最后,需要多提一句,Shapley值方法虽然很好,但对于n 值很大的情况,计算很不友好,因为需要获悉所有组合集合的获益,这种组合集合一共有 2^n 种,不论是数据获得还是后续计算,都有不小的成本开销,所以有几种补救办法,有的是将合伙人分成若干组,按照组为最小合作单位进行计算;有的则是只考虑 n−1 大小的组合上增加合伙人带来的边际贡献等。无论是何种方法,本质上都和本文核心内容类似。
编辑:黄继彦数据派研究部介绍
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”加入组织~
推荐
- 世界今亮点!原创 | 一文读懂机器学习中的shapley值方法
- 首届央华·保利剧场戏剧节在京收官-热点在线
- 中山西环正式通车,广东高速公路建设新年喜迎“开门红”
- [快讯]金浦钛业公布年度业绩预告-当前头条
- 特斯拉全球大降价,中国售价依旧世界最低
- 全球新消息丨长信科技董秘回复:公司为Meta提供最新款VR Quest2显示模组,同时,根据客户的需求
- 每日热讯!各种土地承包合同范本(优选10篇)
- 焦点快播:佳节近年味儿浓 各地花市迎来销售旺季
- 【全球新要闻】一万!
- 今日热闻!2022年人民币贷款增21.31万亿元
- 2023年1月中国自然资源报社招聘程序是什么?_每日快播
- 春节杭州灵隐寺开放时间一览 全球要闻
- 稳健医疗预计2022年净利同比增长31%至49%;天威视讯2022年净利同比下降23%
- 世界新动态:追光丨健身er们“阳康”后,如何科学稳妥地恢复运动?
- 热资讯!工信部推动工业母机高质量发展 国产替代加速
- 中国散裂中子源二期工程可行性研究报告获批
- 2023作为白羊座的你一月份的运势-天天资讯
- 美国国债收益率上涨 关注周四通胀数据 今日关注
- 火星人(300894)1月10日主力资金净买入1269.83万元-环球通讯
- 北京通州区永乐店大集怎么坐公交车?-世界聚看点
- 男生如何搭配上衣才能显得活泼一点 全球微头条
- 一起来聊聊关于WebIDE的实现|最新快讯
- 世界微头条丨形容武松的句子(精选346句)
- 侵犯财产罪的辩护程序主要有哪些?
- 每日关注!广州取消144平方米豪宅界定标准,且认房不认贷了?银行回应消
- 《中国奇谭》之《林林》导演杨木:用三维和水墨营造“画意”
- 将打造百万级电动SUV 蔚来联手至星_今日热议
- 犀牛宝逾期15天会上征信系统吗
- 观点:淮树母公司IPO能否过关?
- 中国生态旅游(01371.HK)附属成功中标甘肃体彩终端机采购项目
- 火箭科学和官僚主义——2022年国外航天发射的一些事件回顾
- 腊肠上白色的东西是发霉吗
- 环球速递!电池题材活跃,今日15位基金经理工作变动
- 新时代 新征程 新伟业丨小模块的大作为-环球即时看
- 四川乐至开展“春雷行动2023”专项执法行动
- 粉笔将于下周一赴港上市,今日暗盘涨超4%,上半年亏损3.92亿
- 头狼:黄金1850加仓多,干掉马后炮,准备好暴涨
- 艾比森2022年预计净利1.8亿-2.3亿增长501.16%-668.15% 合计推出45款新产品-天天快播
- 百瑞赢早评:房贷利率下限将取消,新能源汽车销量创新高
- *ST公司频现“花式保壳” 交易所追问四类问题
- 2023“开门红”!140辆宇威高端公交交付武汉-环球聚焦
- 每日快播:历代《街头霸王》人物的画风演变,每个形象都代表一个时代
- 网贷逾期58万不还的后果会怎么样?|天天看点
- 世界热资讯!港股异动 | 同道猎聘(06100)盘中涨超20% 机构称公司有望充分受益下游需求转暖
- 经济日报年终述评⑬:民生保障有温度
- 世界微动态丨翡翠手镯太大了怎么戴?8个小妙招解决难题
- 当前报道:A股异动 | 软控股份涨5.3% 料去年净利同比增33.56%-54.65%
- 外媒:厄瓜多尔总统称已与中国达成自贸协定,“开启2023年的好消息”
- Castor Marine为Acta Marine海工船队整合Starlink连接
- 广告语频受质疑,海信“擦边营销”能走多远? 新资讯
- 1月3日龙虎榜追踪,机构青睐这些个股_环球滚动
- 沃格光电:部分监事及高管拟增持160万元至270万元公司股份
- 世界快播:这个国家贫穷到只剩黄金!上千座金矿!却被拿去换食物!
- 1月3日远程办公板块涨幅达4%:世界时讯
- 全球今亮点!艺龙旅行APP发布首部微电影《朋友》 为用户提供更简单可靠的出行服务
- 环球微速讯:民生策略:下一个“左侧”
- 自制深度学习推理框架-实现我们的第一个算子Relu-第三课
- 天天视讯!微信上订立的合同怎么签
- 通讯!nabati威化饼干有反式脂肪吗?
- 非法捕杀野生动物要追究什么责任:每日速讯
- 保利发展: 保利发展控股集团股份有限公司关于公司最近五年不存在被证券监管部门和交易所采取监管措施或处罚的公告
- 过年玄关摆什么 过年玄关摆啥|当前资讯
- 申请新易贷贷款逾期了会怎么样
- 东华软件于保定新设子公司 注册资本2亿元
- 环球百事通!环球舆情调查中心对10国调查发现:“中国好故事”打动海外观众
- 最大CLIP!LAION发布CLIP的扩增定律_世界微速讯
- 银保监会拟删除非金融机构出资汽车金融公司的资产规模限制条件|全球热点
- 河北雄安商务服务中心首批40余家企业入驻开业
- 世界看点:益盛药业:公司正加班加点生产相关药品及健康食品 已满足市场需求
- 天天快讯:福达股份(603166.SH)与湖南道依茨就内燃机领域达成战略合作
- 超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former-当前热门
- 全球微头条丨聚焦高质量国剧,《2022国剧盛典》汇集百位主创
- 微动态丨北向资金今日净买入39.18亿元 连续4日净买入
- 新成昆铁路全线通车运营 打通“一条线” 连起“一个圈”:看点
- 建发股份拟发债200亿补流偿债 双主业发力年内营收增近千亿_今日热讯
- 松发股份: 松发股份:股东集中竞价减持股份结果公告_天天速递
- 中上协:11月境内市场净增上市公司33家,首发募资总额超280亿元 每日讯息
- 新冠感染后会不会引发心肌炎?哪些人容易发生心肌损伤?如何尽量避免心肌损伤?......专家回应【科学防疫小贴士】(58)|环球播资讯
- 日本长期利率调整的市场效应|天天视讯
- 劲拓股份最新公告:拟2000万元参设合伙企业 投资半导体产业内具备高成长性标的
- 小米首款钛金属保温杯来了 189元泡枸杞更健康|焦点速看
- 易方达恒生科技ETF(QDII)净值下跌2.04% 请保持关注
- 环球关注:腊肠出油多怎么办
- 回顾2022年不幸去世的10位歌唱家,每一位都让人十分惋惜-今日快看
- 金财互联: 独立董事候选人声明(徐跃明)-微速讯
- 天天热推荐:小鹏汽车50亿成立电池公司,曾否认自研电池
- 天天观热点:人民币汇率双向波动韧性足 稳定器功能持续显效
- 真是烦死这些垃圾网站了!
- 力盛体育:截至2022年12月20日,公司股东总数为17404人
- 非凡三年,共同铭记——新华社重磅述评四连发|今热点
- 提升常态化监管水平 支持平台企业发展|法经兵言
- 天天视讯!志邦家居(603801)12月21日主力资金净卖出160.52万元
- 【焦点热闻】上美股份国际发售获适度超额认购 发售价每股25.2港元
- 通讯:内蒙古冬忙记:“抢”订单 “推”项目 “享”冰雪盛宴
- 世界最新:联想小新预热 2023 年新品:数字、Pro、Air 三大系列 5 款机型
- 速递!项目建设忙 发力稳投资
- 价格前线|12月19日钒(≥99.5%)现货异动提示:报资讯
- 蓝帆医疗:公司进口支架产品BioFreedom于2021年6月在中国取证,当年就实现上市 前沿热点
- 业务流程建模,细到几层?_每日观察
- 世界今日讯!永利澳门(01128.HK)附属WRM获授予博彩批给
X 关闭
行业规章
X 关闭