SimRank--基于结构的相似度度量方法学习笔记

来源:本网整理

您好,这个不能一概而论,确实有一张就值20W左右的,但是也有一麻袋才10W的。下面小编就说说一张20W的老人民币拾圆工农像(大黑拾)在第二套人民币中,大黑拾已经成为名副其实的“大黑马”,一张纸币可以卖到二十万左右。下面小编说说一麻袋也大概只能卖个10W的第三版人民币,1953,一分带油纸币,800/捆,9000元/包,10万元/麻袋;小编继续把某网2017年8月份征收的价格表发转载在下面,希望可以帮助您,供您参考。第二版某网址2017年8月发布的收购价格单张(1张),整刀(100张),整捆(1000张),整包(10000张),整麻袋(100000张)壹分长号码8800全品整刀贰分长号码7600

详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity?

一、简介

  1. 目前主要有两大类相似性度量方法:

    家庭用的导线是BV型号,空调器的插座选用BV-3X4mm2的导线;接一个空气开关20A单独加一个漏电保护器。(北京美宅客家装)厨房的插座用一路BV-3X4mm2的导线;接一个空气开关20A可以与卫生间共用漏电保护器。卫生间的插座也用一路BV-3X4mm2的导线;接一个空气开关20A可以共用漏电保护器。其他插座用一路BV-3X2.5mm2的导线;接一个空气开关16A可以与卫生间共用漏电保护器。照明用一路或两路BV-2X2.5mm2的导线;接一个空气开关16A。注意:根据国家的住宅中的规定,1.5mm2的导线是禁止使用的,所以不能用1.5mm2的导线,必须用2.5mm2及以上的规格。哪怕你家里只有

    (1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等;

    河南方言文化博大精深,很多词汇都相当传神,分享一些常见的河南方言。1、醭(bú)——面醭,发霉生醭。2、大(da)——父亲或父亲的兄弟。三大。3、捣(dǎo)——欺骗,坑害。捣人。4、嬎(fàn)——鸡等禽类下蛋。鸡嬎蛋。5、薅(hāo)——拔,揪、抓。薅草,薅胡子。6、老(lǎo)——婉称死亡。他爷都老三年了。7、馏(liù)——把凉了的熟食再蒸热。馏馍。8、冇(mǎo)——错过。把他冇过去了。冇(mù)——没有。冇钱。9、觅(mī)——雇、租。觅三轮儿,觅保姆。10、脬(pāo)——膀胱。猪尿(suī)脬。11、搉(quō)——打、敲打、砸。搉你一顿。搉(quō)——捣、舂。搉蒜汁儿。12

    (2) 基于链接(对象间的关系)的方法,如PageRank、SimRank和PageSim等。最近的研究表明,第二类方法度量出的对象间相似性更加符合人的直觉判断。

  2. Simrank的基本思想是:如果两个实体相似,那么跟它们相关的实体应该也相似。比如在图一中如果a和c相似,那么A和B应该也相似。
  3. SimRank的特点:完全基于结构信息,且可以计算图中任意两个节点间的相似度。

    在银行方面绑定:绑定支付宝属于:网上支付通业务。网上支付通现包括支付宝卡通和财付通一点通,您须先申请第三方账号,再去中国邮政储蓄银行网点开通,最后登录第三方网站进行激活,即可开通此项业务。目前支付宝、财付通快捷支付业务每日单笔、日累计限额均为一万元,月累计限额为二十万元。邮储银行快捷支付(卡通)网银开通流程1登录邮储银行:http://www.psbc.com2进入【申请开办】—【签约加办】3点击【同意】按钮,确认协议4选择【支付宝卡通】并填写相关信息;5输入手机验证码,点击【签约】,邮储银行快捷支付(卡通)功能即可开通成功

    这里写图片描述

    图一

二、基本公式

  • 在普通的同构网络中:

    这里写图片描述

    其中,s(a,b)是节点a和b的相似度Ii(a)Ii(a)表示a的第i个in-neighbor。参数c是个阻尼系数,它的含义可以这么理解:假如I(a)=I(b)={A},按照上式计算出sim(a,b)=c*sim(A,A)=c,很明显,c应该大于0小于1,所以c∈(0,1),论文中c都设为了0.8。还有一种理解是说,两个节点间相隔的节点越多,相似度衰减的越厉害。

  • 在二分网络中,如图一所示:

    这里写图片描述

    理解:

    • A和B之间的相似度等于A,B出度间相似度的平均值。

      a和b之间的相似度等于a,b入度间相似度的平均值。

    • 如果A,B分别代表顾客A和顾客B,a,b,c代表三件商品的话。买家A和B的相似度等于他们购买的物品之间相似度的平均值,物品a和b的相似度是购买它们的买家之间相似度的平均值。

三、朴素计算方法(矩阵计算)

这里写图片描述

利用上面的公式即可进行simrank的编码实现,编程实现部分本文不考虑,如果读者感兴趣可以参考博客http://www.cnblogs.com/zhangchaoyang/articles/4575809.html

四、理解simrank的物理意义(Random Surfer-Pairs Model)

  1. expected distance,即为两节点间步数的平均值

    这里写图片描述

    u为出发点,v为终点且不为中间节点。引入图二帮助理解,如图中所示,从u节点到节点v有2条路径,公式中t即代表路径,例如t=w1–w2–w3–w4,为u到v的一条路径,l(t)代表路径t的长度,即为t中的步数,此处若t=w1–w2–w3–w4,则l(t)为3。p[t]为选择路径t的概率,它的值为1/o(wi)的乘积,出度的倒数的乘积。———sigma(概率*步数)= 两节点间步数的平均值。

    这里写图片描述

    图二

  2. Expected Meeting Distance(EMD)

    这里写图片描述

    Note:分别以相同的速度从a,b节点同时出发,x点为终点,即最后在x节点相遇。

    **存在路径无限长问题

    图三

    图三

    如在图三(a)中,任意的a,b两点永远不会相遇,路径l(t)无限长,导致相似度无限大。

    针对上面的问题:

    1)参考pagerank方法,给它一个跳出循环的机会,给一个小概率可以跳到循环外某一随机点上。

    2)本文中采用了函数映射的方法,将l(t)映射为指数函数这里写图片描述并且指数函数可以满足题意。两点相遇所需要的平均步数越大,两点间相似度越小,最小为0;两点间相遇需要的步数为0时,即两点为同一点时,两点间相似度最大,值为1。

    这里写图片描述

    ——所以函数映射以后,引出Expected-f Meeting Distance的概念

  3. Expected-f Meeting Distance

    define s’(a, b), the similarity between a and b in G based on expected-f meeting distance, as

    这里写图片描述

    其中,c是(0,1)间的常数。

    有了上面的概念以后,我们可以计算:

    这里写图片描述

  4. Equivalence to SimRank,有了上面这个概念,接下来推导相似迭代形式的s‘(a,b),最后得到实际上:s‘(a,b) = s(a,b),s(a,b)为上面提到的同构网络中的基本公式。推导过程如下,最终可以得

    这里写图片描述

  5. Theorem. The SimRank score, with parameter C, between two nodes is their expected-f

    meeting distance traveling back-edges, for f(z) =这里写图片描述.

    两节点间simrank相似度的值即为此两节点间期望-f相遇距离,也就是(随机漫步所有的

    可能性)从这两个节点出发到相遇时所需要的步数的平均数。

五、回顾总结:

1)simrank的基本思想和主要特点

2)simrank的基本公式

3)理解Simrank的物理意义Theorem. $(function () { $('pre.prettyprint code').each(function () { var lines = $(this).text().split('\n').length; var $numbering = $('

免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
Copyright © 2017 www.zgxue.com All Rights Reserved