tao37淘宝论坛

标题: 千人千面的工作原理 [打印本页]

作者: 运营干货分享 时间: 2019-4-6 13:39
标题: 千人千面的工作原理
我一直想盘算着基于算法层面来讲解，想把千人千面的工作原理讲透彻一些，但是又怕学术性太强，绝大多数读者读不懂，所以整理了很久，决定用学术性内容+通俗易懂的场景讲解方式让大家理解。
我发现很多人对千人千面的理解都是错误的，这里举几个典型的错误理论供大家参考：
1.刷单是可以控制精准人群的，也就是所谓的精刷。
2.刷单的时候，通过提前收藏，加购，第二天或更长时间再成交，会让链接人群更精准。
3.只要我用女性账号来刷单，就是女性标签，用宝妈账号来刷，就是宝妈标签。
4.通过直通车人群溢价来刷单就会避免人群不精准问题。
5.人群精准会让链接的权重更高。
6.在不登录账号的情况下，我的搜索结果是没有千人千面的。
以上的论点，在很多人心中都根深蒂固了，大多数人对人群标签的理解就止步于这里了，因为一些机构，民间的传播，所以造成类似这样的说法大行其道（大家会发现上面的举例大多跟刷单有关，其实这也是想告诉大家刷单是不可能保证人群的精准性的），但是，这些说法确实都是错的。可能大家觉得不可思议，那这些论点究竟是怎么错的呢，我们从推荐算法原理本身来给大家讲解，让大家认识什么是真正的千人千面，相信大家可以自行找到答案（如果看完文章还不能理解，可以再问我）。
说到千人千面，人群标签这些名词，不得不说到推荐算法，这个数学与信息技术完美结合的伟大发明，它是基于用户行为的大量样本统计和协同过滤，对用户需求进行预测的技术。从买家角度而言，这种技术会让用户实现所想即所得，从卖家角度而言，可以扩展竞争维度，减少单一维度的竞争压力，让产品多样化，百花齐放。------------好，这只是个千人千面的概念，可能不太好理解，下面我们从场景中理解一下千人千面的存在。
相信大家都有这样的体验，比如你坐月子的老婆给你打电话说家里的尿不湿不够用了，打开淘宝，首页就出现了尿不湿的推荐；比如你和朋友在微信聊汽车，微信朋友圈就开始推汽车广告。这些现象让我们感觉像个人信息泄露一样。其实像淘宝，微信这些工具，是不会窃取你的个人隐私的，是你的行为数据让平台知道你的需求。我们以淘宝的千人千面举例，在买家用户注册账号的时候，需要填写个人的性别，身份证号等信息，很多人认为这就是千人千面的依托数据，但这些数据并不可靠，且数据过于基础。淘宝会采集你更多的行为数据，比如你使用过的手机，上过的app，看过的新闻，打车的频率，发红包的金额次数，欠银行的贷款等等，这些都会构成你个人数以万计的事实标签。标签的采集是很容易的，难在模型的建立，如何通过标签模型来准确的预测用户的需求。我们拿淘宝首页内容板块为例，常规的行为推荐算法是类似这样的公式：内容访问权重=行为权重*时间权重*衰减因子，行为权重：我们点击一篇内容，回复，点赞等行为，都会计入行为权重，根据平台积累的大数据，计算出了不同类目不同产品下的各种操作行为权重分数，在用户进行回复，点赞，收藏等行为时进行权重加分；时间权重：停留时间越长，时间权重也会越高；衰减因子：用户的单次行为不能作为用户喜好的直接评定，随着时间的推移权重也会慢慢衰减。由这样三个权重维度的综合计算得到了我们的内容访问权重，在我们多次访问同类型内容时，每次都会获得对应的内容访问权重，平台对这些权重进行累加，然后利用神经网络的阈值函数（Sigmoid函数）进行标准化，得到一个阈值为（0,1）的结果，通常推荐算法标准化过程是对Sigmoid函数的变形公式，得出一个阈值位0-10的结果，也就是我们所说的质量分（直通车的质量分也是以这样的方法计算来的哦），权重（或说质量分）越高，内容板块推荐类似内容的比例和频率就会越高，这就是行为推荐算法（你的行为影响了你），值得一提的是，世界上所有推荐算法的处理过程都是类似如此的，没有太大差异。这个过程，也就是大家常说的打标签（比如我们搜索看过一个产品后，猜你喜欢就会推荐类似的产品，并且看过多种产品，猜你喜欢推荐的频次是不一样的）。
但是这只是个人的行为推荐，比如我们在刷单的时候，让刷手提前浏览一下某个产品，第二天再去搜索，位置就会很靠前，很多人会想当然的认为这样会提高产品权重，其实只是这一个刷手看到的位置变高了，并不代表其他用户浏览结果下你的链接排名也会变高，是刷单者的一种错觉、误区！
行为推荐结果本身是有一定的应用场景的，比如我们在使用推广工具（如直通车）时有浏览未购买的人群标签，这些场景下，使用行为推荐结果是有意义的，前提你的访客是真实的，而不是刷手，否则系统只会让你的刷手看的到你的链接，真实用户依然是看不到的。除此之外，我们更希望获得的是广大的新客，那在新客获得过程中，推荐算法又是如何发挥作用的呢？
大家在开直通车的时候都知道，官方给提供了一系列人群包，比如年龄，性别等等，这些是作为用户的基础数据呈现的，但是，前面讲到的行为推荐结果难道就对千人千面没有作用吗？显然这是不可能的。平台会通过用户行为采集用户偏好，来把有相似需求的人整理到一起，进行关联推荐。下面我们说一下工作原理：我们每个人的行为偏好，都会以权重的形式记录在云平台，而一个人是会有很多偏好的，系统会把你的各种偏好转化成特征向量，比如你的消费能力，兴趣，社交偏好权重分别是3,6,7，那么你的偏好值会作为一个坐标点r(3,6,7)被存储在多维空间的数据模型中，然后把每个人的坐标带入余弦公式中，就可以计算出特征相似的人了。这样平台可以轻易的根据与你特征相似的人的购买行为来对你的浏览结果进行推荐，即使你没有过浏览行为，也是会给你推荐一些产品或内容的。这种推荐算法是要远比行为推荐给你的结果更有意义且更准确的，我们称为关联推荐算法（你的行为，影响了别人，别人的行为，也影响了你）。我们平时开直通车圈人群，搜索购买行为影响的人群，都是基于关联推荐算法的，而关联推荐算法的前提是行为推荐算法。
然而，用户的行为特征与用户的基础数据是没有直接关系的，比如我们在开直通车的时候，传统的人群包里都是年龄，性别等这些维度的属性，而不是特征属性，而我们每个用户在产生行为的过程中，系统也并没有直接跟用户填写的基础数据做直接关联，我们用户的基础数据（年龄，性别等）为显式数据，称系统统计的用户行为特征数据为隐式数据，平台会根据大部分已知的显示数据与他们的隐式数据进行关联，然后训练未知的用户数据，来预测用户的显式数据是否正确，比如通过平台内所有相同特征的人来预测这些人是不是都是男性，大部分成熟平台这样的预测结果准确度现在都在90%以上（换句话说，你用户填写的性别年龄数据，平台并不会当真，而是通过大数据确定的）！这样，再把显式数据作为商家可选标签用于选择和购买广告等，比如直通车选性别，年龄人群这些，是商家可选的显式数据，系统会对应找出这些人群的隐式数据关系，来推荐给你真正想要推荐的用户。这也解答了开始我们提出的一个问题，并不是你用宝妈人群刷单，就能打上宝妈人群的标签！
到这里，推荐算法的原理和在平台内的使用场景，我们就已经基本掌握了，因为这篇内容学术性较强，可能很多人读到这里已经叫苦不迭了，没办法，就算大家读不懂，我也要先把原理给大家讲清楚，对于做过算法工程师的小伙伴来说，应该会好读的多。不过没关系，就算前面的内容你都没看懂，也不要紧，大家记住后面的内容就好了！
首先，一切刷单的行为都是无法模拟系统对人群偏好的算法的，所以大家不要指望刷单的同时还能兼顾人群的精准，这是永远都不可能实现的！
第二，用户标签是被动形成的，商品标签也是如此，在用户的购买过程中，才慢慢形成标签，千人千面固然重要，但是也不要把它过于神化，它只是对概率论与数理统计学科的应用过程，你的产品符合什么样的人群，是打娘胎里就定下的，而不是你能通过一些技术手段来改变的，你要做的不是找到更好的人群，而是找到匹配你产品的人群，这个人群是客观存在的。
第三，人群标签在竞价系统中（比如搜索结果）并不是一种权重，竞价权重本身还是依赖产品产值的，只是比如在一个类目中有几款产品是符合同一种人群的，系统就会给这类人群优先推荐这几款产品，那么我们开直通车的时候，当这类用户搜索产品的一瞬间，系统会根据我们跟竞品的出价关系来决定先把哪个产品展现给用户而已。
讲到这里突然想到一点，很多类目的刷单比例是很大的，那么在这些类目中，用户的特征收集势必是有很大误差的，所以这种时候哪怕我们通过付费开的人群是最适合这个产品的人群，也不一定能得到最好的数据，所以很多商家会感觉刷单多的类目，做付费推广好难。其实大家理解了原理后，只要知道，被动的去测试所有的人群条件，找到表现最好的人群来做就好了，而不要通过主观思想认为我的产品一定是男性标签，或者一定是高消费群体标签，这样在这种类目里，你的数据就能优化的好了。
另外还想说的是，根据法律要求，推荐算法形成的商业广告是不允许定位到个人的，所以大家不用担心个人数据的泄露（即使泄露也不是因为推荐算法导致），同样因为这个原因，即使你不登录账号，你的操作行为依然会被平台采集，并且会关联你的硬件信息，方便下次行为推荐结果的推送。
到这里，关于千人千面的原理，我想我已经讲得非常透彻了，可能大家会觉得很晦涩，但是只要反复读，一定是读得懂的。这篇文章能方便大家理解千人千面的工作原理，不会因为错误的认识而做出一些掩耳盗铃、看似有效实则无意义的行为，也不会被一些错误的方法所欺骗。

欢迎光临 tao37淘宝论坛 (https://www.tao37.com/)