当前位置：首页 > 知识库 > 正文

快手赞业务自助下单全网最低自助下单平台

2218329273
知识库
2023-01-24 00:01:03
230

一周前的6月3日，河南省商丘市睢阳区人民法院在裁判文书网公开了一份刑事判决书，文书显示，两名犯罪分子在淘宝爬取并盗走大量数据。经过检方核实，被盗取的淘宝用户数据高达11.8亿条，涉及UID、淘宝昵称、手机号码等敏感信息。

判决文书显示，2020年8月14日，淘宝（中国）软件有限公司报警称，在2020年7月6日到2020年7月13日时，有黑产人员通过接口，绕过平台风控，批量爬取数据。在7月6日至7月13日之间，平均每天爬取数量500万，爬取内容包括买家UID、淘宝昵称、用户手机号等敏感信息。

淘宝网站排查后发现，逯某有重大作案嫌疑，接到报警后，当地警方将此事立为刑事案件。经审理查明，逯某受雇于黎某，而后者成立了一家名为“浏阳市泰创网络科技”的公司，该公司设有返利部、客服部、招商部等部门。

自2019年11月份至2020年7月份，该公司利用该信息盈利，共获利340187.68元。逯某、黎某二人因为“侵犯公民个人信息罪”，分别被判处有期徒刑三年三个月和三年六个月，并处罚金人民币十万元和三十五万元。

到底发生了什么？

两个相隔千里的人，是如何一起合作做下这起惊天大案的呢？

被告人逯某供述称，2017年7月在QQ群里认识了黎某，黎某当时在做“淘宝客”需要一些“淘宝客”软件，其为黎某编了个“微信加人”软件，没收钱，黎某承诺说算其技术入股，等以后成立公司了再与我算钱。

2019年3月份黎某成立了一家名为“浏阳市泰创网络科技”的公司，逯某成为该公司技术员什么是爬虫技术，一直在家远程办公，并领取每月1万元的报酬。

2019年11月份，逯某开始用自己开发的爬虫软件“淘评评”，通过淘宝商品详细信息接口和淘宝信息分享接口，爬取淘宝客户的淘宝数字ID和淘宝昵称，并通过淘宝分享接口可以爬取淘宝客户手机号信息。

其中，爬取的客户的手机号码信息，逯某都提供给黎某了，爬取的淘宝客户ID和淘宝昵称，逯某则存在了自己的电脑硬盘里，没有提供给黎某和外泄。

而黎某，则在收到淘宝客户手机号码之后会把这些信息数据导入“微信加人”软件，加微信好友成功后，拉入建好的微信群，由公司里的员工负责发送广告链接。淘宝用户在该公司的微信群里购买商品之后，该公司将获得佣金。

就这样神不知鬼不觉地进行了8个多月，逯某前前后后爬取了5000多万条信息，并从其他地方下载了11亿多条数据。直到2020年8月14日淘宝（中国）软件有限公司报警称，在2020年7月6日到2020年7月13日时，有黑产人员通过接口，绕过平台风控，批量爬取数据。在7月6日至7月13日之间，平均每天爬取数量500万，爬取内容包括买家用户昵称，用户评价内容，昵称等敏感信息。

最终，逯某和黎某被河南警方逮捕。经过公检方面核查，逯某电脑里通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计1180738048条。

值得注意的是，被告人逯某表示，这11.8亿的数据通过微信文件的形式发给黎某之后，黎某会转一笔费用给他，整个获利只有六七万或七八万元。

不是第一次

多家平台出现数据泄露

这并不是淘宝第一次被恶意地爬取淘宝数据。

2019年5月，阿里妈妈在进行违规排查过程中，发现部分淘宝客在无线APP端未经授权爬取淘宝购物车、收藏夹等并恶性宣传做淘宝客推广的行为。这一行为严重违反《淘宝客应用开发者规范》第九条：开发者不得以任何形式爬取任何淘宝数据；违反《阿里妈妈推广者规范》第八条什么是爬虫技术，存在流量劫持的违规行为。

此次专项治理共发现粉象生活、省钱快报、羊毛省钱、返钱宝宝、喵喵折、叮当叮当等此类违规APP共43个。

事实上，不仅淘宝出现这类情况，在2013年时，京东也发生过类似案件。数据外泄包括密码、手机号码、电子邮件地址、用户名。

今年4月，Facebook指责“恶意行为者”泄露了超过5.3亿用户的姓名和电话号码等数据。

记者梳理发现，多家大数据公司被查原因都与 " 网络爬虫抓取数据 " 相关。

2019 年 8 月，据新京报报道，大数据营销系统 " 鹰眼智客 " 利用爬虫技术 , 从淘宝、京东等网站上爬取到店家手机号后，用于营销。此外，借助该软件，通过微信附近的人，用户可任意设定虚拟位置后批量申请好友，还能 " 站街 " 钓鱼营销。其后，鹰眼智客所属的郑州共赢科技有限公司接受警方调查。

据南方都市报报道，2019 年 9 月前后，多家数据公司接连被查，包括魔蝎科技、还包括聚信立、新颜科技、公信宝、同盾等。从事金融科技行业多年的资深人士曾告诉南都记者，被查原因很可能与违规使用爬虫数据以及暴力催收有关。

今年年初，魔蝎科技相关案件迎来一审判决。判决结果显示，魔蝎科技犯侵犯公民个人信息罪，判处罚金三千万元。公司法人周某某被判有期徒刑三年，缓刑四年；技术总监袁某被判有期徒刑三年，缓刑三年。

矛盾的爬虫技术

网络爬虫原本是指平台按照一定规则，自动从互联网上提取网络信息的程序或脚本，本为互联网行业的常用技术之一。但近年来，爬虫技术往往被应用于 " 套路贷 "" 暴力催收 " 以及 " 侵犯个人信息权益的商业营销 " 上，而被推上风口浪尖。

在一些场景，爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中，爬虫业务被广泛应用。2019 年下半年，一场严厉的监管风暴下，多家金融大数据公司接连被查，被查原因中多涉及违规利用爬虫技术的问题。

业内有这样一种说法，爬虫贡献了互联网 50% 的流量，它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术，它广泛运用，却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具，站上数据隐私、数据安全的对立面。

“爬虫技术本身并无对错，但要看怎么用，用错了肯定违法啊”，一位程序员表示，“技术无罪，关键在于人”。

北京市安理律师事务所高级合伙人王新锐、罗为曾公开撰文表示，创新型业务很容易进入法律的灰色地带，但仅仅进入灰色地带本身，并不会直接招致处罚，严重侵犯了其他人的合法利益，才是被罚甚至失去自由的根本原因。

爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演，力量此消彼长。

据一位资深程序员介绍，现在比较常见的反爬虫技术手段主要有，检测 Header 信息；设置 IP 访问频率，分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作；识别 UA、通过动态页面增加爬取难度等方式。

这几年，随着 AI 的发展，一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如，腾讯云网站管家 WAF 就将 AI 检测引擎能力，运用到了爬虫 Bot 程序检测的环节上，AI 引擎能够对站点访问流量的会话进行追踪，通过流量画像，匹配行为模型及行为标签进行识别，进而识别出爬虫 Bot 程序流量行为。

2019 年 5 月，被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布，第 16 条规定，网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

一位业内人士认为，技术只是工具，在获取数据时需要考虑数据到底有没有获得授权，需要几方授权，在拿到用户授权的情况下，有没有拿到网站等数据来源方的授权，这其中涉及到的权责边界应该更明确。

随着监管越来越严格，爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心，要时时注意不要触碰边界，毕竟，爬虫只是技术，灰色的是“助恶者”。

大众报业·风口财经综合整理，素材来源：中国基金报、南方都市报、AI在线、搜狐科技、36氪等

（本文观点仅供参考，不构成投资建议，投资有风险，入市需谨慎！）