2019年3月25日第3卷第6期
现代信息科技
Modern Information Technology Mar.2019 Vol.3 No.6
互联网用户行为数据收集与分析的研究
向大为,吴燕波
(湖北警官学院,湖北 武汉 430034)
摘 要:收集分析海量数据可反映相关应用的用户规模、用户属性和行业热点,通过宏观分析了解用户群体的不同特征。本文对数据收集的概念和一般技术进行了基本阐述,提出了数据分析方法的一些研究思路,最后对收集分析数据带来的问题进行了讨论。
关键词:数据收集;数据分析;互联网用户行为分析中图分类号:TP393.092
文献标识码:A
文章编号:2096-4706(2019)06-0014-03
Research on Data Collection and Analysis of Internet User Behavior
XIANG Dawei,WU Yanbo
(Hubei University of Police,Wuhan 430034,China)
applications. Through macro analysis,different characteristics of user groups can be understood. In this paper,the concept and general technology of data collection are described,some research ideas of data analysis methods are proposed,and finally,the problems caused by data collection and analysis are discussed.
Abstract:Massive data collection and analysis can reflect the user scale,user attributes and industry hotspots of relevant
Keywords:data collection;data analysis;analysis of internet user behavior
0 引 言
随着互联网应用的普及,互联网数据资源竞争白热化,越来越多的企业和组织出于各种目的和动机,不断投入人力、物力和财力,致力于用户行为数据的挖掘,试图掌握其中的行为模式,对用户需求做出预估。数据对现代互联网行业而言就是财富,谁拥有了数据谁就拥有了互联网,谁掌握了互联网谁就拥有了财富。
互联网用户行为数据的收集与分析表现在很多方面。例如,从海量用户中收集用户的浏览喜好,将用户进行群体划分;根据搜索词频率,分析用户喜好;通过收集分析海量数据,反映相关应用的用户规模、用户属性和行业热点,通过宏观分析,了解用户群体的不同特征等等。对此,笔者认为应当一分为二地看,如果单纯从商业利益的角度来看,用户行为数据收集与分析的确可以在某种程度上掌握互联网用户的动态,为用户提供个性化服务,以实现提升电子商务等经济活动的效率和挖掘潜在市场等目的;但如果把视角放到更多领域,会发现此类行为带来了很多不容忽视的问题,
例如经济秩序、知识产权、商业秘密、个人隐私等法律方面的问题。
1 互联网用户数据采集
数据采集是进行数据挖掘的基础阶段,采集技术分为线上和线下两种类型。线上数据采集主要通过网络终端后台实现,比如档案、日志、浏览、点击等相关信息;线下数据采集则通过传感器、磁卡片、RFID技术等实现获取用户的线下行为数据,从而建立用户的行为数字数据库[1]。本文主要研究线上数据采集。互联网数据主要由文本、图像、语音和多媒体数据组成。用户行为数据主要是用户在固定网络终端和移动设备中点击、浏览、发送、交易等行为过程中产生的。数据采集是搜集符合数据分析要求的原始数据(Raw Data)的操作。原始数据是分析者认为有价值的、希望获得的一手或二手数据资源。数据采集方法很多,既可以直接从现有数据中搜集提取,也可以通过问卷调查、采访、沟通等间接方式获得。所有的数据采集都是围绕对象、动作、条件、目的等参数进行的。
例如,较传统的Web端采集可通过Web Service记录日志分析和JavaScript嵌入等方式来实现。有些企业和组织并不希望自己网站的流量数据被任何第三方获取,那么只能通过Web日志的方式进行收集。如果需要更符合用户行为的精确数据,就需获得相关许可,采用JavaScript标记收集数据,这种方式不仅可以访问缓存、访问代理记录,而且可以通过Cookie精确定位用户。除此之外,还有爬虫技术、移动终端APP数据采集技术等,具体特点参如表1所示,后面对几种常见分析技术做了简单介绍。
收稿日期:2019-02-22
基金项目:湖北省教育厅科研计划项目:移动智能终端安全分析与取证研究(项目编号:B2016253);湖北警官学院科研计划项目:互联网用户数据收集与分析方法研究;2018年度湖北省高校人文社科重点研究基地社会治安治理研究中心项目:网络舆情信息检索技术研究与应用(项目编号:2018B010),同时本文受电子取证及可信应用湖北省协同创新中心支助。
142019.3向大为,等:互联网用户行为数据收集与分析的研究第6期
表1 互联网用户数据采集技术对比表
数据类型
特性
优点
Web日志分析
·较容易获取数据源
·方便于对历史数据再处理
·可记录搜索引擎爬虫的访问记录·记录文件下载状况
·无法记录缓存、代理服务器访问·无法捕获自定义的业务信息·对访问者定位模糊
JavaScript标记网页爬虫技术
·数据收集灵活,可定制性强·跨域访问监测较方便·可以记录缓存、代理服务器访问·取得实时数据较方便·对访问者行动追踪更为准确
·用户端的设置影响数据收集·通用网络爬虫对爬取性能要求·记录下载和重定向数据比较困难非常高·会增加网站的脚本负荷·深层网络爬虫不能通过静态链
缺点
·对跨域访问的监测较麻烦
1.1 Web Service日志分析
用户浏览互联网页面后,如果没有立即删除Web日志或做“不记录”的系统设置,会在浏览器等程序中自动留下较详细的日志记录[2]。通过该记录,分析者可以收集到用户浏览网页的时间、次数、顺序、频率和搜索的关键词等。另外,在网站服务器的Log文件中,数据的收集与分析从用户输入URL发出http请求就可以开始。网站服务器Log文件中记录的内容包括远程主机名(或IP)、登录名、日期时间、方法、地址、协议、端口、返回状态和文档大小等参数。
1.2 JavaScript嵌入技术
从客户端收集用户行为数据,通常在页面上嵌入Java Script代码,当用户访问网页时,JavaScript代码通过浏览器程序执行后会自动发送请求到日志收集服务端,从而记录用户访问的数据。利用客户端跟踪技术,Web服务器可通过访问Cookies确认此客户端是否访问过本网站。JavaScript标记同Web日志收集数据一样,从网站访问者发出http请求开始记录。访问者的Cookie会记录访问时间、浏览器信息、user ID等参数,数据收集服务器收集后存入数据库中。
1.3 网页爬虫技术
网络爬虫是捜索引擎程序自动抓取网页数据的重要子程序,主要功能是将网页下载到本地形成镜像。通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博)可以从网站上收集数据。
表2 几种网络爬虫技术对比表
名称
特点
通用·全网资源,爬取目标数据巨大网络爬虫·对爬取性能要求非常高
·将爬取目标定位在与主题相关的页面中
聚焦·节省爬虫所需爬取所需的宽带资源和服务器资源网络爬虫·主要应用在对特定信息的爬取中,为特定人群
提供服务
增量式
网络爬虫
·只爬取内容发生变化的网页或者新产生的网页
深层
·不能通过静态链接直接获得,需要提交一定的
网络爬虫
关键词之后才能够获取得到的网页
·爬取深层页面,需要自动填写好对应表单网络爬虫可分为通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)几种,实际应用中通常是几种爬
接直接获得
虫技术系统相结合。传统爬虫从首个网面的URL开始获得URL,在抓取过程中不断从当前页面抽取新的链接放入队列,直到满足停止条件;聚焦爬虫根据网页分析算法过滤与主题无关的链接,保留有用的链接放入URL队列,然后根据搜索策略选择下一个要抓取的URL,直到满足停止条件。分析程序会对所有被爬虫抓取的网页进行分析、过滤,并建立索引,以便于用户查询和检索,聚焦爬虫对这一过程得到的分析结果还能进一步反馈和指导后面的抓取过程。几种网络爬虫技术对比如表2所示。
1.4 APP数据采集
APP常用的采集方式是通过集成SDK进行埋点。埋点是指针对特定用户行为或事件进行捕获、处理和发送,SDK进程先监听软件运行过程中的事件,所监听的事件通常由操作系统、浏览器、APP框架等平台产生,也可在基础事件上进行触发条件的自定义,当事件发生时进行判断和捕获,然后收集整理必要的上下文信息,并发送至服务器。
2 互联网用户数据分析
2.1 互联网用户数据分析方法
数据收集完成后,通过分析策略和工具进行定量和定性分析,重新整理能使数据变得有价值。常用的分析研究方法有以下几种。
2.1.1 来源分析
对用户来源进行定位,可以更加准确地了解用户群体的具体需求,从而为特定用户提供个性化服务。来源分析越细致,所得到的数据就越有针对性。用户的性别、年龄、民族、籍贯、上网时间段、目的地、信仰、爱好、交往人群、价值观念、常用搜索引擎及关键词、网站的种类和浏览量等都可以做较为深入的分析。
2.1.2 类别分析
类别分析主要在来源分析完成后进行,所谓
“物以类聚,人以群分”,其目的在于抽象分类,而不是准确定位。通过来源分析定位后,可根据不同的参数对用户进行简单直观的分类,例如网购数据可根据性别、年龄进行分类,语言数据可以根据民族、地域进行分类,社区应用数据可以根据交往人群、价值观、信仰进行分类等。
2.1.3 对比分析
类别分析主要是对用户数据进行粗线条的分门别类,如果要对同类型用户数据进行更深入和详细的分析,可以进行对比分析。对比分析是指对多种或多个具有共同特征又有不
2019.315
第6期现代信息科技
同差异的用户数据依照某种指标参数进行比较。例如,相同性别的人群,处在不同年龄段,其购物爱好不同;相同的交往人群,价值观念不同,其诉求和表达方式不同等。
对比分析在日常分析中作为一种基础的分析方法,不仅仅是要对比和分析,更要实现追踪,将分析结果落地(将分析结果联系到对应的责任人,找出异常或者失利原因,并根据原因制定解决方案),这样才能够让数据和分析产生价值。
2.1.4 定量分析
如果要对用户数据进行统计分析,可以根据不同参数设定不同的指标范围,通过数字化的指标体系进行精确的定量,为后面的定性分析提供参照。例如,年龄段可以10年为划分标准,也可以1年为划分标准;交往人群可以同民族人数为划分标准,也可以同地域人数或同职业人数为划分标准等。
和生活,而知识、认识和技术上的差异,无形中会造成人们
对个人信息泄露的忽视,甚至是无视[3]。例如,当安装手机APP时,服务条款中已明确提示过隐私授权,很多人群直接忽略,而有些人明明知道,却又不得不用。数据虽然是客观的,但是对于数据的解释权却掌握在少数策划者、设计者、分析者和使用者手中,因此难以避免人们由于立场利益、价值观念的不同,造成数据使用和解读的偏差及成见。数据的大量收集和运用加大了人们的隐私风险,而泄露和忽视的人群越多,其安全隐患自然就越大,当这种隐患积累到一定程度,终会带来法律上的问题。殷鉴不远,个人身份证信息的买卖已经形成黑色产业链,目前机关已多年打而不绝,正如前面引言所述,经济秩序、知识产权、商业秘密、个人隐私……不一而足,笔者这里抛砖引玉,后面还待更多学者研究探讨。
参考文献:
[1] 陈利萍.门户网站分布式数据挖掘云平台架构分析 [J].数字技术与应用,2018,36(5):184-185.
[2] 王微.一种基于云计算的数据挖掘平台架构设计研究 [J].电子制作,2017(15):82-83.
[3] 宋远方,冯绍雯,宋立丰.互联网平台大数据收集的困境与新发展路径——基于区块链理念 [J].中国流通经济,2018,32(5):3-11.
作者简介:向大为(1980-),男,汉族,湖南湘潭人,讲师,硕士,研究方向:计算机司法鉴定、网络安全与执法;通讯作者:吴燕波(1979-),女,汉族,湖南娄底人,讲师,硕士,研究方向:网络与信息安全、计算机应用。
2.1.5 定性分析
在定量分析的基础上,如果需要得出相对准确的结论,就可以使用定性分析的方法,定性分析可参照的指标体系来源于不同分析角度。例如,通过用户数据分析不同的职业人群,分析角度就是职业特征;分析不同的价值观体系人群,分析角度就是不同的价值观念。
3 数据收集与分析带来的问题
用户数据收集与分析处理对现代社会以及互联网经济的发展有着显著的推动作用,随着技术的进步,数据收集方式也层出不穷,生活节奏越来越快的人们日益依赖互联网工作(上接13页)
4030displacement/mm20100-10-20-30-40
0 2 4 6 8 10 12
time/s
320gal
试验结果模拟结果
2 结 论
基于OpenSees的梁柱纤维模型可以较好的模拟预应力预制装配式框架节点的滞回性能。砂浆层可以采用只考虑抗压强度的Concrete01材料来模拟,从而可以考虑梁柱交界处开合的力学行为。设置内外节点且内外节点通过轴向伸缩弹簧和剪切弹簧连接可较为准确的模拟节点的变形。本文提出的节点OpenSees模拟方法可以对预应力预制装配式框架节点的刚度和变形能力进行较为准确的评估。在建立节点有限元模型时并未考虑预应力筋的预应力损伤,需要进一步对有限元模型进行修正。
参考文献:
[1] 黄慎江,柳炳康,凌琦.预压装配式预应力混凝土框架拟动力抗震性能试验研究 [J].工业建筑,2011,41(12):39-43.
试验结果模拟结果
[2] CHEOK GS,STONE WC,KUNNATH SK. Seismic response of precast concrete frames with hybrid connections [J].ACI Structural Journal,1998,95(5):527-539.
[3] EL-SHEIKH M T,SAUSE R,PESSIKI S,et al. Seismic behavior and design of unbonded post-tensioned precast concrete frames [J].PCI Journal,1999,44(3):54-71.
[4] PAMPANIN S,PRIESTLEY J N M,SRITHARAN S. Analytical Modelling of the Seismic Behaviour of Precast Concrete Frames Designed with Ductile Connections [J].Journal of Earthquake Engineering,2001,5(3):329-367.
作者简介:王晨晨(1994.11-),男,汉族,山东德州人,研究生,研究方向:装配式结构设计方法及抗震性能的研究。
(e)一层时程位移曲线
4030displacement/mm20100-10-20-30-40
0 2 4 6 8 10 12
time/s
320gal
(f)二层时程位移曲线
图2 不同荷载工况下的位移时程曲线
16
2019.3