大数据技术的社会性问题

摘要

我们正处于大数据(Big Data)时代。大数据技术除数据总量“大”之外,随着物联网的发展,数据来源越来越多样;随着数据挖掘技术的发展,萃取大数据背后的有价值信息变为可能,这些技术革新带来发展的同时也将人们暴露在风险之下。大数据技术带来的社会性问题主要包括隐私问题和数据可信问题,隐私问题一方面来源于隐私信息的直接泄露,一方面来源于对非敏感数据的挖掘;数据可信问题来源于数据的故意捏造和传播过程中的失真。面对这些问题,本文从技术和人文两个角度进行了应对之策的讨论,特别对于人文角度中的个人用户,提出了若干实用的防范对策。

关键词

大数据 云计算 物联网 隐私 社会性问题

引言

随着物联网、云计算、社交网络、社交媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累。据统计,平均每秒有200亿次谷歌搜索,Facebook每天共享的信息超过40亿条,Twitter每天处理的推特数量超过3.4亿。除了这些社交媒体产生的数据之外,科学计算、医疗卫生、金融、零售业等垂直领域也有大量的数据不断产生。2012年全球信息总量已经达到了2.7ZB ,2015年这一数值预计会达到8ZB。

数据是人类社会最重要的财富,无论是学术界还是产业界都把大数据作为当前核心关注点。在学术界,图灵奖获得者Jim Grey在实验、理论和计算机三大范式之外,提出了科学研究的第四范式,即以大数据为基础的数据密集型科学研究;2008年《Nature》杂志推出了大数据专刊对其展开探讨;2011年《Sciences》也推出了类似的数据处理专刊[1]。产业界更是大力研究大数据,抽取大数据背后的模式,挖掘出知识以供商业决策。国内顶尖的互联网公司百度、阿里巴巴和腾讯纷纷成立了大数据研究中心、商业智能等部门进行大数据技术的专门研究。同时,许多国家把大数据提高到了国家战略的高度,2012年3月,美国政府宣布将投资2亿美元用于启动“大数据研发倡议”,旨在从海量和复杂的数据中分析萃取信息的能力,这是继1993年美国宣布“信息高速公路”计划后的又一次重大技术发展战略。继美国率先开启大数据国家战略之后,其他各国也随后跟进,已经或者即将出台相应的战略举措[2]。

大数据时代带来了无限的机遇,同时也带来很多挑战。除了技术上的挑战和革新之外,带来的社会性问题同样不可忽视,有些甚至已经开始带来了严重的负面的影响。如美国中央情报局前雇员爱德华斯诺登向国际媒体披露了美国的“棱镜”计划,揭开了美国对他国信息监控的冰山一角,也在全球掀起了关于隐私危机的轩然大波。再如现在微博上,各种自媒体发布大量虚假,甚至是恶意的信息,有意操纵大众舆论,致使舆论风向总是在各种谣言、辟谣中左右摇摆,这种信息垃圾会造成无法估量的恶劣影响。以上两个实例也是大数据背景下社会性问题的两个突出表现:隐私问题与可信性问题。

面对以上两大类问题,需要从技术和人文两个角度双管齐下,制定应对之策。

大数据概述

大数据的特性除了数据总量“大”之外,我们还需要注意数据多样性的来源以及数据背后的价值。

随着移动互联网、智能穿戴设备、智能家居、物联网的发展,大数据的来源已经不限于计算机和互联网,而且来自于更加贴近人们生活、更加涉及人们隐私的各类传感器。 人们常说乔布斯重新发明了手机,传统意义上的手机是一个通讯工具,可以用来打电话、发短信,所以诺基亚时代的手机被称为“功能机”。乔布斯打破了这个功能性的定义,他把很多通信功能之外的传感器整合入了手机之中,例如GPS、陀螺仪、光感应器、摄像头等等,这些传感器与传统的功能机整合在一起,加上操作系统的支持,构成了“智能手机”。智能手机会不停收集用户的位置信息、手机的使用信息,上传到各类应用的服务器进行分析处理,提取出用户的行为模式,为用户提供个性化的服务。

Apple Watch刚刚上市,与iphone是同样的原理,它把各种更加贴近人体的传感器整合到了手表中,例如心率计、海拔传感器、电子体温计等。这些涉及身体健康状况的数据更加敏感,更加隐私。

从正面来看,更加丰富的数据来源、更贴近人的数据可以带来更个性化的服务;从反面来看,如果泄露,也会造成更严重的隐私危机。

大数据本身并不具有现实的意义,它只是收集的原始资料,真正有意义的是大数据背后的“信息”。现在计算机领域最核心的研究方向是机器学习、数据挖掘和知识发现,旨在从繁杂的数据中萃取出模式,分析用户行为。例如,人们在使用淘宝或者百度等搜索引擎搜索某件商品或者关键词后,在浏览其他网页时会看到大量相关商品的广告,这就是浏览器和淘宝等系统收集了用户离散的行为点,进行模式抽取和匹配后,分析出用户的兴趣点,然后进行精准的广告投放,亚马逊、京东等网站的“您可能感兴趣的商品”、“相关商品”也是同样的原理。2012年2月16日《纽约时报》报道Target公司有一个分析项目,可通过数据挖掘的方法确定顾客是否怀孕。该公司将购买与妊辰有关物品的优惠券送给一位少女,少女的父亲得知后非常愤怒,痛骂公司经理。Target公司的做法也引起人们的愤怒和恐慌[3]。

麻省理工学院斯隆管理学院的经济学家Erik Brynjdfsson认为,不管是商业、经济或其他领域,基于经验和直觉的判断将不再流行,数据和分析才是决策的基础。政治上,奥巴马选举就广泛地使用了大数据相关技术,从而成功连任:在动员投票时,其竞选团队使用了Facebook,在人们下载App时,都会得到一个推送信息,推动他们登记参选;并且通过数据分析后,放弃地方新闻的广告时间,通过购买一些非传统类剧集,如《行尸走肉》之间的广告时间,成功定位迈阿密35岁以下的女性选民,电视广告效率提高了14%;同时,通过大数据分析,还帮助竞选团队占领竞选死角,如奥巴马到社会化新闻网站Reddit回答问题。

政治领域尚且如此,现代经济活动更是离不开大数据这一“未来的新石油”。传统零售巨头沃尔玛,通过数据挖掘重构了整个供应链,肯德基、麦当劳的精确选址也离不开数据的分析。

大数据技术的数据来源越来越贴近人体,越来越私密,现在也已经有数据挖掘等手段萃取数据背后的价值。

大数据技术中的社会性问题

与所有技术一样,大技术本身本身无所谓“好”与“坏”,因此从伦理学的角度来看是“中性”的。然而使用大数据技术的个人、公司有着各自的目的和动机,中性的技术在通过使用发挥作用时,会产生“积极”或“消极”的影响。然而值得注意的是,大数据技术有一种强制性功能,会通过产生和处理海量数据、多样的数据,改进产品设计、研发、销售和管理行动(个体化的产品和服务),推动公司或机构进一步、更完全地进入个人生活,并产生更深的影响,甚至改变像身份、隐私等术语的传统意义已经改变我们的社会、经济、政治和文化生活[3]。而且,与所有新技术一样,大数据技术也将产生意料之外的风险。撇开技术角度,大数据技术带来的社会性问题或风险主要体现在隐私问题和可信问题。

隐私问题

从2中提及的大数据技术的两个重要特性中可以看到大数据的敏感性和隐私性,因此,如果大数据没有被妥善处理的话,会给用户的隐私造成极大的伤害。隐私问题一方面来源于隐私信息的直接泄露,一方面来源于对非敏感数据的挖掘。

隐私信息的直接泄露包括如下情况:登录密码设计太简单,被轻易破解,从而导致一些信息的泄露;或者是电脑中了木马病毒,从而导致账号被盗。这些都可以通过提高个人警觉和提升密码复杂度防止这些现象的发生。

还有一类信息泄露由系统开发者的不严谨和安全意识不强导致。去年爆发出CSDN等知名网站采用明文进行密码的存储,而没有通过加密。黑客们使用这些明文的账号密码去微博、12306甚至网银等网站进行尝试,从而导致很多账号被盗,因为很多用户为了记忆方便,都是一个账号打遍天下。这在技术上称为“撞库”,这需要在技术上重视数据安全与加密问题。

除了隐私信息的直接泄露外,更大的威胁在于数据挖掘大数据背后的用户特征。因为这些数据表面上看是零散而片面的,人们感觉不到直接的威胁,但是量变引起质变,这些数据累积起来之后会带来更加严重的威胁。

以前大数据技术不是很发达,没有办法通过计算机自动分析和挖掘,所以需要“人工”去处理,这才有了“人肉搜索”,通过用户在互联网上留下的零散的、片段的使用痕迹,从而挖掘出用户在现实中的各种信息,如真实姓名、电话、住址等。

随着数据挖掘技术的革新、“深度学习”技术的发展,大大提高了机器的学习能力,计算机现在可以自己在无监督的环境下学习视频、图片、文本等信息,从海量数据中抽取模式,提升对未知信息的辨识能力。“百度大脑”计划在不断地学习之下,其智力已经相当3岁小孩,而且计算机的记忆是永恒的,而不存在人类的“遗忘”问题,其学习速率将是指数级别的增长。

试想一下,人们现在网上每发一条微博、分享一条朋友圈信息、和朋友进行QQ聊天、搜索一个商品,这些数据统统会进入一个无限的大脑中,被分析和学习。 社交网络分析研究表明,可以通过大数据中的群组特性发现用户的属性,例如通过分析用户的Twitter信息,可以发现用户的政治倾向、消费习惯以及喜好的球队等。例如计算机系有研究,利用微博粉丝之间的关系以及利用微博内容进行数据挖掘,分析用户的职业、技术倾向以及人脉圈,作为新一代的社交招聘平台,由于人们在日常生活更为放松,所以比一般正经的伪饰过的简历更能分辨候选者的能力,取得了一些成绩,已经有公司利用这些信息进行真实的招聘。但是这些数据的取得没有任何的协议或者告知用户,而是通过纯技术手段进行的网页爬取。

在《美国队长2》这部电影中,九头蛇利用大数据来分析、识别所有对其组织有威胁的人,企图一次性抹杀,这些都已经成为了事实。

在“棱镜门”事件后,NAS局长亚历山大表示,“棱镜”计划在打击恐怖分子上扮演了重要角色。他表示,该计划已经帮助挫败了目标在美国以及海外的数十起恐怖袭击。他援引两大例子力证其观点。一是阿富汗裔美国人纳吉布拉· 查兹试图在纽约实施自杀性爆炸袭击。 另一则为巴基斯坦裔美国人大卫黑德利对印度孟买 2008年发动的恐怖袭击进行监控支持,袭击导致 160人死亡。 基斯还表示将尽快公开那些有助于阻止恐怖袭击的信息。 无论出于什么目的,这都反映出大数据时代下的隐私危机,也许再过若干年,已经没有“隐私”这个词语存在了。

目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律,用户无法确定自己行为数据的用途,而在商业化场景中,用户应该有权力决定自己的信息如何被利用,实现用户信息的可控保护,用户需要自行决定信息何时以何种形式披露,何时被销毁。

可信问题

关于大数据的一个普遍观点是,数据可以说明一切,数据本身就是事实,但实际情况是,如果不仔细甄别,数据也会欺骗。尤其被不法之徒利用时,会造成严重的社会动荡。 可信问题主要来源于两点,一是数据在一开始就是有意捏造的;二是在传播过程中逐步失真,经过若干次转发和传播,差之毫厘谬以千里。

对于第一点,现在普遍能看到的就是刷信用和刷评论,在电商网站尤为突出。淘宝网店的信用很多都不是自然累积的结果,而是商家雇佣水军去进行实际无意义的交易并给与好评,从而提升店面的信用;淘宝本身甚至也有类似的工具和服务,通过在淘宝直通车充值,人们在搜索商品时,本店的商品会排在前面,从而让更多的人看到,根据点击次数进行相应扣费,这类似于百度的竞价排名。淘宝、百度等数据发布方理应在发布前进行必要的审核和尽职调查,以防止非真实甚至误导性的信息出现,无论他们有没有开展对应的工作,效果是显然不理想的,淘宝一直深陷假货门,而百度也一直深陷虚假医院信息推送等丑闻之中。

对于第二点,在数据的传播过程中的失真问题可能由技术原因导致,也可能由人为偏差所致。技术上,以图片为例,为了网络传输的效率,用户在上传图片时,是经过压缩的,所以经过若干次的上传和下载后,一个图像会严重失真难以分辨。

在传播的过程中,数据和信息很可能因为人为偏差导致失真。例如,在转发微博时,往往人们会加上自己的主管理解与态度,而这些也许会给下一位读者造成误导和曲解,这种情况在社交网络的病毒式传播中变得异常显著,大家可能会有感觉,很多时候,都不会去关注原帖本身,而是转而看各人的评论,评论纷杂不一,更有趣味性,这也是信息快餐化的弊端。人为偏差的另一方面来源于每个节点都可以对数据进行修改,而数据接收者也许根本无法分辨是否已经变动过。例如一个文档,几个人之间传播,也许有人自行修改后再进行的转发,而后者不知道这文件是否是本来的。

问题的应对

对于隐私问题和可信问题,可以从技术和人文两个角度进行强化,以抑制其负面影响。

技术上,需要强化数据加密技术,包括发布时加密、传输加密,还需要强化防火墙技术,防御黑客攻击,确保数据不会直接泄露。

人文上,需要从个人和社会两个角度进行强化。

个人角度,需要强化个人的防范意识。

  • 密码要复杂,按时更新,采用手机、邮箱等密码保护手段,不同系统使用不同的密码以防“撞库”。

  • 深刻意识到零散的数据可以保罗万象,数据挖掘可以提取出用户的行为特征、性格特征等极其隐私的信息,对于敏感信息不要随意发布到社交媒体上;微博、微信、QQ、支付宝等系统包含大量个人敏感信息,现在很多系统都可以利用微博账号、微信账号、支付宝账号进行直接登录,在授权时,一定要认真确认授权内容,以防敏感信息被泄露。

  • 使用谷歌、火狐、Safari等主流正规浏览器,杜绝使用各种极速、所谓的安全浏览器,防止访问信息和账号登录信息被泄露。

  • 在使用购物网站、网银网站时,要注意链接地址,防止进入钓鱼网站陷阱。

在社会的角度,需要在法律、法规的角度强化数据获取、存储、传输、处理、应用等各个环节的规范和监管。例如,淘宝、百度等作为信息的发布方,到底要负责到什么程度,在发布前进行何种级别的尽职调查以防虚假信息肆掠?各数据中心作为数据传输的节点,又要采取哪些手段和措施保证在传输过程中不泄露、不被污染。当大数据被用来进行用户行为提取等分析和应用时,需要何种程度的授权?法律、法规问题不一而足,不再展开和赘述。

参考文献

[1] 冯登国,张敏,李昊. 大数据安全与隐私保护. 计算机学报, 2014, 37(1): 246-259.

[2] 王文超,石海明,曾华锋. 刍议大数据时代的国家信息安全. 国防科技, 2013,34(2): 1-5.

[3] 邱仁宗,黄雯,翟晓梅. 大数据技术的伦理问题. 科学与社会, 2014, 4(1): 36-49.

Comments

评论