当前位置:100EC>数字生活>马蜂窝造假始末 这是最完整的8千字报告
马蜂窝造假始末 这是最完整的8千字报告
发布时间:2018年10月23日 16:09:25

(网经社讯)相关推荐

近日,马蜂窝“造假门”事件进一步发酵。昨日晚间,铅笔道记者收到的乎睿数据团队发来的,关于揭露马蜂窝数据造假的完整报告,该报道从最初的75页精简为25页。根据报告中内容,该团队在马蜂窝上发现了7454个抄袭账号,这些抄袭账号平均每个人从携程艺龙美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评、1221万条酒店点评,占到马蜂窝所有点评总数的85%。乎睿数据负责人对铅笔道表示,其实发现马蜂窝的问题完全是一个巧合,团队自5月份才组建,恰逢创业大赛准备参加,不成想叫外卖吃坏了肚子,去差评那家餐馆才发现评论很多都是刷单刷出来的。间接发现了马蜂窝造假事件,最初是因为兴趣觉得好玩,后面越挖越深,由于价值观和性格使然,所以花了四个月完成了这份揭露报告。

10月23日凌晨,乎睿数据就马蜂窝数据造假及起诉一事发表官方声明。声明表示,其团队已对大量可疑行为进行视频录屏,截屏截图和司法公证,并掌握了一些接管抄袭账号的马蜂窝内部员工信息,所有了解和确定的分析内容和点评消失账号链接全部收录在其官网上。声明强调,马蜂窝事件纯属顺手为之,没有针对任何个人或企业。

一天前, 马蜂窝起诉深圳乎睿数据有限公司、丁子荃名誉侵权案已获立案。

此次马蜂窝“造假门”事件始发于10月20日,媒体“小声比比”发布一篇文章,题为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》。文中指出,旅游社交分享网站马蜂窝上的2100万条“真实点评”中,有1800万条都是“通过机器人和从点评和携程等竞争对手那里抄袭过来的”。次日晚间,该自媒体发布了第二篇直指马蜂窝充斥僵尸和水军的数据报告,指出马蜂窝疑似存在评论搬运、游记掺水、问答抄袭的现象。

以下为乎睿数据报告全文,个别用词和标点符号经过铅笔道编辑。

报告目录:

一. 以马蜂窝官方账号为代表的大量账号存在严重侵权,九成内容或为抄袭。

二. 官方推广活动奖品奖励多被机器人和内部员工获得。

三. 增长黑客的邪门玩法:使用机器人来回复用户,以提高社区活跃度。

四. 内容发布时间诡异,通常为为朝九晚五,有双休、午休且不加班。

五. 用户精心编写的内容屡遭利益集团盗用、篡改,用户维权乏术。

六. 虚假商业内容充斥推荐系统,用户难得真实的消费信息。

马蜂窝的核心价值就是为用户提供真实有效的信息。实现该价值的方式是通过无数用户的真实分享,这也是内容能够源源不断产生的根基。

马蜂窝用户+社交+个性

近年来,互联网行业野蛮生长的负面效应在世界范围内受到广泛关注。从Facebook用户隐私数据泄露到滴滴顺风车命案,科技企业的商业边界与法律责任引 起了社会各界的重视和讨论。除了掀起舆论风暴的恶性事件,业内还普遍存在抄袭侵权、数据造假、欺骗误导消费者等违法违规行为,而被侵害的普通用户在信息不对等的情况下维权乏术,无从分辨真伪。

经过世界杯期间巨额广告的投放,讲求真实分享的旅游社区的“马蜂窝”猛然进入大众视野。这只独角兽将点评、游记、问答、小组等UGC(用户贡献内容)版块与社交电商功能整合形成商业闭环,其2017年度成交总额已达近百亿人民币,并于同年12月完成了1.33亿美元的D轮融资,是近年中国成长最快的在线旅游公司之一(

1)。

但用户贡献的内容是否就比其它信息更为可靠呢?乎睿数据团队初步探索了马蜂窝UGC和用户数据并与竞品比照,结果发现包括官方帐号在内的许多马蜂窝用户竟然人均抄袭了数百名大众点评网用户的评价以及大量来自携程、艺龙乃至Yelp、Agoda等知名跨国网站的用户内容,甚至还屡次在官方有奖活动中拔得头筹。

如上图所示,我们发现马蜂窝官方账号――问答小班长1-11号以及其它一些发布官方信息的账号人均抄袭了数百位不同大众点评网友以及大量其它竞品与行业巨头的用户内容。这些诡异现象若只说是巧合实在难以令人信服,它们背后究竟是平台运营的增长黑客还是利益推手的暗箱操作?为继续深入调查,乎睿数据团队搜集整理了相关平台的海量数据,尝试通过多维度的用户挖掘分析从各版块着眼,揭开马蜂窝的盖子。

真实的点评,这才是大家做点评最重要的参考和依据。

马蜂窝创始人陈罡参加黑马会旅游分会沙龙分享(3)

根据官网数字,马蜂窝目前共有2100万条真实点评,覆盖全球200多个国家和地区。截至17年末,马蜂窝已拥有1.2亿用户,月均活跃用户数达1亿4。本次分析包含了马蜂窝近726万条餐饮点评、约1320万条酒店点评,与其官方数据基本持平。

为求公正,我们从官网收集到的约116万餐饮POI(Points Of Interest)中随机抽取三分之一作为样本,参照官方账号的侵权习惯并放低标准以至少完整抄袭150名大众点评网用户为限,竟筛选出7454例马蜂窝抄袭账号。

其中除了多个官方性质账号,还有的直接被马蜂窝内部员工掌管。

平均下来,每个抄袭账号都一字不差地照抄了212位不同大众点评用户的餐饮评价(每位至少被抄一条),海外餐饮点评则抄袭或使用谷歌翻译自Yelp,还有大量酒店评价也可直接追溯到携程、艺龙、TripAdvisor、Agoda等网站。

不考虑从他人点评里截取中间段落或者拼接不同用户内容等“抄袭升级”现象,也忽略旅游产品、景点、娱乐等版块中的侵权行为,单单这七千余抄袭账号在餐饮、酒店两部分就生产了近1800万条点评,以不到马蜂窝1.2亿用户万分之一的体量贡献了总数85%以上的评价内容。(后文以"抄袭帐号"、"抄袭团 伙"代指这7454例抄袭账号)

与其他常见的“空白头像”点评不同,这些带着照片和语气的点评,来自社区活跃用户及其游记,真实、生动,富有画面感。

马蜂窝CEO陈罡撰文:如何颠覆酒店预订的用户体验(5)

如此疯狂地搬运站外UGC也导致了很多奇妙的现象,比如抄袭中复制粘贴了谷歌翻译的Bug, 用户个人历史信息矛盾,顺带抄到擦边球小广告,用户旅行过于频繁等等。相关细节会在文末附录中详细阐释,回到抄袭账号本身,它们横向的抄袭规模现已掌握, 我们再纵向来看抄袭历史:

可以看出多年以来,马蜂窝抄袭账号们一直在活跃着。那么官方抄袭账号是否有什么黑历史呢?我们通过WebArchive搜索了马蜂窝问答小班长们,得到以下内容:

例如上图点评中出现性别矛盾的官方抄袭账号之一――问答小班长10号,在去年之前还不是官方账号,名曰“Roger”,其用户活动可以追溯回2009年。研究过程中我们还发现抄袭账号存在点评时间戳出错的问题,一共找到12,947条时间戳错误的点评,绝大多数发生在“0000”与“1970”年,大概是后端数据转储读写的问题。

值得一提的是,时间戳为"0000"年的点评内容发布者除了经典抄袭账号,都是疑似由商家控制的马甲小号,内容很少且专门集中好评那批商户…… 个中细节容后再表,至此我们基本可以推断马蜂窝的巨量抄袭侵权行为与官方账号有极强的关联。然而比海量抄袭更吊诡的事出现了――我们从马蜂窝官方小组抽取的100余份官方活动获奖名单中发现了612名抄袭账号获奖者和大量僵尸空号幸运儿。

它们不仅多次以特、大奖得主的身份拔得头筹,还占据着数量上的优势,在一份含451位获奖用户的名单中就有281名属于抄袭账号。

如上图所示,三年前的“自由杭行”有奖活动问题很大,类似的情况还有“来江苏学一门手艺”、“GO朝阳,购时尚”等等。前者资助四名抄袭账号免费去江苏,后者将五千元现金购物券的年终大奖随机抽给了UID为71745887的空号(曾用名“凯西”,现为“马蜂窝用户”)。

有趣的是,该空号有史以来仅有四名访客:官方账号、空号、抄袭账号,以及唤作“风声”的疑似商业马甲号――其游记抄袭与原创并存,而问答、点评又都指向了免税店和三亚海鲜等频繁在马蜂窝内容中刷脸的商家……抄袭账号与空号之外,还有很多专从他人点评截取中间段落或拼接不同用户内容以规避审查的非典型智能抄袭账号。只是我们参照官方抄袭习惯制定的筛选条 件过于严格,要求近100%复制整条点评才算“抄袭”,因而并未将此类账号纳入分析,但这并不影响它们也来瓜分丰厚的奖品福利。

账号“火爆辣椒”(UID:90313588,曾用名“野牛狂奔”)就是这样一位智能抄袭者,打开它的马蜂窝主页,最先映入眼帘的数条点评全部节选抄袭自大众点评网。而它却在多达12次有奖活动中均有斩获,其中不乏旅行基金、希尔顿奥运大礼包等大奖。除了抽奖,马蜂窝还会举办大促抢购活动与各类竞赛。相关受益和获胜者中,竟有马蜂窝内部员工赫然在列…… 而对于真实的用户而言,马蜂窝中奖难,兑奖更难于上青天的情况已经上了新闻(

26)。

作为旅游社区,马蜂窝的出类拔萃离不开它的UGC能力,而支撑UGC的根源来自社区氛围。在这里,几百万的旅行达人牢牢聚集在一起并积极制造内容。

社交矩阵堆砌出马蜂窝 (6)

然而,抄袭与中奖并非这七千余经典抄袭账号的全部日常。它们还是用来实施“增长黑客”(Growth Hacking)的社区运营利器――用户新发布了游记,它们会争取在第一时间进行回复、点赞、收藏等操作,只为增加作者成就感,为其营造备受关注的社区氛围。

乎睿数据亲自通过马蜂窝手机APP编辑发布了几篇粗制滥造的游记,居然连续得到好几个经典抄袭账号的顶帖和收藏,并于当天获得数条从内容到标点都一模一样的回复。

我们从近160万篇游记中发现了抄袭账号上千种诸如“真羡慕楼主能去这里玩呀”、“看完内心波动了一下哈哈”等内容重复、针对游记发布者的回复,而收到这些留言的游记作者对真相并不知情,甚至还会尝试回应抄袭账号,只有少量细心用户发现了蹊跷:

类似的增长黑客在问答版块也屡见不鲜。实际上,“问题生成”如今已是知识类社区的常规操作。近日知乎参展谷歌开发者大会时也展示了自动生成站内问题的场景,旨在迅速抢占热点以激发用户创作欲望(7)。然而从马蜂窝抄袭账号在问答中的表现来看,实际效果并不如人意。

团队从约175万个问题中找出了抄袭账号的提问,如上图所示,很多问题按照统一模式创建,又由其它抄袭账号使用公开的酒店简介、地图导航等内容生成回答。这些语义重复严重、同质化泛滥的内容必然难以提供有价值的信息。

也许背后的运营组织终于发现机械化的问答不能满足用户的真实需求,抄袭账号对问答的参与在2014年中告一段落。我们无从考证马蜂窝之后是否雇佣了写手进行内容编辑以助推社区增长,但抄袭账号之外的马蜂窝其它用户的确在答题、点评等行为时间上高度一致。

以上两幅热力图描绘了马蜂窝非抄袭账号中最活跃的一万五千名用户的活动轨迹,每一行代表一名用户,按注册早晚至上而下排列。横轴从左到右代表 2012年至今的日期。每一行的明暗变化表示了一位用户的答题或点评作息规律――亮色说明该账号在横坐标对应日期有内容发布,暗色意味着该用户当天没有活动。可以看出用户们的发布规律十分统一,甚至产生了黄金分割一般妖异的美感…… 那么其它非抄袭账号是如何表现的呢?

可以看出,马蜂窝上所有非抄袭账号即“普通用户”发布餐饮点评的作息习惯都与大众点评网网友大相径庭,每天、每周创作周期的高峰和低谷都很不同。那么酒店点评呢?

不得不说,种种差异颇为令人玩味。此外,非抄袭账号中还存在多名用户在同一时间以同样内容评论不同POI的奇异现象,可谓用户内容之量子纠缠:

记者:随着用户量增加和知名度提升,马蜂窝如何保持旅游攻略的真实性和不具商业色彩?

陈罡:随着用户的增加,知名度的增加,能让旅游攻略的真实性和实时性这个优势发挥的更加淋漓尽致,因为我们可选择的信息更多了,信息也不再是一个人或是一个机构主导,所以整个旅游攻略信息体系进入更加良性的循环。

今年是在线旅游的重要分水岭 - 访马蜂窝CEO陈罡(8)

除了上面提到的现象,马蜂窝还曾被中国网报道在游记攻略中植入广告,尔后官方专门对此发文,并称已付诸法律手段(

9)。该事件后续进展不得而知,但我们确实发现了一批商家在马蜂窝大肆洗脑宣传,侵害用户和平台的权益。还记得上面提到过时间戳错误的疑似商业小号吗?如果没猜错,马甲背后就是这批商家。

依照平台现行机制,一个用户每天只能对一篇游记或一条回答“顶”一次,而“顶”的次数会提升该条目的展示顺序(10)。排名靠前的游记和回答又更可能被再次点击、回复、收藏,因此操作得当就可以形成商业推广的正向循环(

11)。

这批商家通过抄袭、拼接等“做号”、“洗稿”手段批量炮制出含有广告内容的游记、问答、回复(12), 再由大量小号、马甲进行人工置顶,达到以极低成本对平台上亿用户打广告的目的,可谓无本万利的买卖。

尽管马蜂窝禁止未经允许发布广告内容(13),甚至普通用户留下联系方式都可能遭致删帖(

14),但这些商家似乎会针对平台算法进行内容优化。我们分析了493,487位用户的1,579,178篇游记,约7%的游记虽然含有各种各样的商家联系方式,被顶贴数量却远远超过其他游记。

还有很多内容主干抄袭自其他站点和用户的游记,正文中被篡改和插入了关于这批商家的消费内容,导致网络上时常出现许多篇同样的游记,里面同样的主角却在同样的时间地点吃了不同的餐厅,有的商家甚至在洗稿标题中侮辱原作者以博人眼球。

实际上,这批商家不仅欺骗误导消费者,还直接侵犯马蜂窝与其用户的知识产权。他们也会选择性的抄袭马蜂窝等平台上的原创游记,并插入广告后发到百度贴吧、天涯论坛、简书等各大平台以最大化潜在经济效益。它们所生产的利益驱动内容在问答中更为泛滥。乎睿团队从4,944,528条回答中统计出“顶”得最多的回答,排名靠前的不但被顶百十万次,还清一色的都在回答与这些商家相关的问题或者推荐相应目的地的游客去他们店里消费。这些问题也很容易被推送给移动端的用户。

最夸张的还要数今年夏天,团队在收集数据的过程中发现部分相关回答居然达到了每日几万顶的频率,意味着利益团体已经至少控制了数万个马蜂窝马甲,要知道官方账号“马蜂窝问答君”最火的回答也不过才获得了4703次“顶”。比如说你去到三亚,你通过排名很容易发现哪家海鲜餐厅的口碑最好,评价最多,同时你也可以看到在这些结构化的数据里,哪些酒店它的服务是非常有特色的,当然你也能看得到在真实的点评里对酒店的不足之处,大家的真实的点评。

马蜂窝CEO陈罡:在线旅游格局未定 仍有创新空间(15)

除了游记、问答,做号控评商户在点评内容中同样极尽钻营之能事。以三亚为例,如果用户在网页端按目的地浏览美食,不论选哪种排序方式,最先映入眼帘的都是这些心机商家旗下的餐厅,平均点评内容可多达上万条且绝大部分均为5星好评。

当切换到手机APP时信息更加不对称,虽然马蜂窝85%的访问量来自移动端(4),但用户的浏览选项只剩综合名次与点评数量两种排序方式,还隐去了餐厅的综合评分,除非用户亲自点击查看具体商户,从成千上万条“好评”中提取信息,给了黑心商家们更多可乘之机。

此外,涵盖自由行、跟团游、当地游、保险签证等付费项目的旅游产品在马蜂窝旅游商城中由商家直接对用户出售,但只允许匿名评价。我们通过比对头像和残余用户名从23万多条匿名点评中找出了6万多个用户。并且发现这些用户也很喜欢点评有刷好评嫌疑的商家。旅游业中一直存在的虚假广告、低价游产品等诸多行业痛点,都是信息不对称所导致的。而马蜂窝一直在做的事,就是打破这种信 息不对称。用户在外面玩,如果信息不对称,那什么都得听导游的,但马蜂窝通过广大用户的旅行经验来消除这种不对称后,用户就有了完全主动的判断依据和选择 权。

马蜂窝联合创始人兼COO吕刚出席博鳌:做共享经济中最顶级架构的事 (16)

或许马蜂窝日常经营之余应该对技术研发投入更多精力。且不谈抄袭等问题,访客随意点开马蜂窝资讯页的官方内容,就能看到“比如说”、“售卖通道”、“繁荣昌盛”、“SUV皮卡”、“阿里腾讯”、“创新和产品”等常见短语子字符串被当作POI处理的现象。

其实马蜂窝早在2012年就开始做数据结构化,梳理平台内容中的POI(23),并一直引以为傲(

24)。但这些本可通过“命名实体识别”(Named-entity recognition)等成熟方法轻松解决的问题却一直未被妥善处理。

综上所述,马蜂窝尝试树立的正面形象正逐渐被资本的贪婪与利益的诱惑蚕食殆尽,这场博弈中,投资机构盲目追求抬高估值,利益相关商家只顾揽客创收,而马蜂窝面对增长魔咒和市场局限最终没能坚守原则,造成并助长了信息不对称的恶性循环。

其实四年前陈罡还“炮轰”过去哪儿网,举报称其以每条500元的价格购买好评以在马蜂窝游记中植入虚假广告(17)。马蜂窝也曾就百度盗取用户游记与之对质,并坚持维权(18)。可见于法于理,网络平台对其内容真实性和信息质量有不可推卸的监管责任和义务。

抄袭舞弊招致的起诉判罚已不胜枚举,一年前也有了做号控评者因有偿发布信息扰乱市场秩序而入刑的判例(19)。近期通过的《电商法》更明确规定电子商务经营者不得以虚构交易、编造。(来源:微信公众号铅笔道)

网经社联合A股上市公司网盛生意宝(002095.SZ)推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点,解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库(DATA.100EC.CN,注册免费体验全部)基于电商行业12年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”