2 研究理论基础概述
2.1 大数据相关概念。
2.1.1 大数据概念。
什么是大数据?大数据(large data)指在一定时间范围内、使用常规软件无法进行捕捉、管理和处理的数据集合,需要全新的处理模式才能拥有更强的决策力、洞察力和流程优化力的海量、高增长率与多样化数据集合。
IBM 提出大数据的 5V 特点,大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)、真实性(Veracity)[31]。
2.1.2 数据建模与数据挖掘和算法。
数据建模是个过程,它通过对数据行业理解、数据的预处理、算法的选取、测试评估、部署应用这几个环节。算法只是其中的一个模块。数据挖掘是从大量数据中挖掘出有用信息,根据用户的特定要求,从海量数据中找出所需信息,以满足用户的特定需求。数据挖掘侧重解决分类、聚类、关联和预测四类数据分析的问题,重点在寻找模式与规律。
数据算法是根据数据的创建、数据的挖掘模型的一组试探算法和计算算法。为创建模型,数据算法要先分析提供的海量数据,并查找特定类型的模式和趋势。数据算法有分类(决策树算法)、 聚类(K-Means 算法)、 关联(PageRank)等算法。
2.1.3 数据湖。
数据湖或 hub[32]是承载在基于可向外扩展的 HDFS 廉价存储硬件之上的。但数据量越大,越是需要考虑各种不同种类的存储。企业中的数据都可以被认为是大数据,但所有的企业数据并不都适合存放在廉价的 HDFS 集群之上,尤其是非常重要的营业数据。
2.1.4 冷数据、温数据和热数据。
冷数据是较长时间之前的状态数据,未及时更新的数据;温数据是非即时的状态和行为数据,但这些数据是一段时间内更新后的数据;热数据指即时的位置状态、交易和浏览行为,是及时甚至是实时更新的数据。
2.2 大数据理论。
2.2.1 日志分析理论。
网站日志又叫服务器日志(Web log)[33],是记录 web 服务器接收处理请求以及运行错误时等各种原始信息的文件,以.log 结尾。网站日志记录网站运营的各种信息,比如空间的运营情况,被访问请求的记录。包括用户的 IP、访问时间、操作系统、浏览器、屏幕分辨率的情况及访问的网站和相关页面,是否访问成功等信息。
通过访问次数、停留时间、抓取量可计算平均每次抓取页面数、单页抓取停留、平均每次停留时间。平均每次抓取页面数是总抓取量除以访问次数的结果;单页抓取停留是每次停留除以每次抓取的结果;平均每次停留时间是总停留时间除以访问次数。根据平台页面访问量的结果,优化各页面展示的层级关系;根据产品访问量的多少优化产品显示顺序的权重。
2.2.2 推荐理论。
内容推荐(Content-based Recommendation)[34]主要来自于信息的查询和过滤。内容推荐方法主要是基于用户已浏览过的记录向用户推荐他没有浏览过的内容形成推荐项。基于内容的推荐方法有启发式和模型式。启发式方法是用户凭借以往的经验值定义计算公式,再根据计算结果与实际结果的比较进行验证,然后再通过不断修正公式达到最终的目的。基于模型方法是通过对历史数据作为依据,然后根据这个历史数据集来学习出一个模型。协同推荐(Collaborative Filtering Recommendation)[35]也称为协同过滤推荐。
基于协同过滤算法是通过对未评分项进行评分预测来实现。用户的协同过滤算法是基于假设产生,“A、B 两客户的喜好相似度很近,A 客户喜欢的产品 B 客户很有可能也会喜欢。”,所以基于用户的协同过滤的主要任务是找出具有相似度的客户,从而根据最近邻客户的喜好推断出当前客户可能喜好的产品进行推荐。这种推荐算法分为三步,一是给客户进行评分、二是寻找最近邻客户、三是产品推荐。
知识推荐(Knowledge-based Recommendation)[36]方法先通过交互、会话等方式直接了解到用户需求,然后进行产品匹配的过程。需要对“知识”进行形式化的定义和表示。效用知识(Functional Knowledge)是一个产品满足某一类特定客户的知识,它可以解释客户需要和推荐之间的关系,所以客户信息可以是任何支撑推理的知识结构,它可以是客户已经规范化后的查询,也可以是一组描述客户更详细需求的表示。
2.2.3 用户画像理论。
用户画像 (User Profile)[37]是真实用户的虚拟代表,它是基于真实的且不是一个具体的人。另外根据目标的行为观点的差异迅速组织区分为不同类型,然后把新得出的类型提炼出来,形成一个类型的用户画像。用户画像作为实际用户的虚拟代表,不能脱离产品和市场之外进行构建,它必须具有代表性,能代表产品的主要受众和目标群体。
本章小结。
本章主要介绍与大数据相关的概念和理论知识,为后续章节使用这些概念和理论做好了铺垫,易于读者更好的理解。
结论在当今汽车市场上,优质的售后服务包括备件服务已经成为新车销售中的关键成功因素。同时,随着各汽车厂商保有量的大规模增长,备件业务将为企业带来持续稳定的收入和可观的利润汇报。随着中国汽车市场逐步走向成熟,售后市场的发展潜力开始逐步释放,...
2相关理论概述及直销银行在国外的发展2.1金融创新理论(1)约束诱导理论约束诱导理论认为金融创新的动因来自供给方,希尔柏(W.L.Silber)是其代表人物。希尔伯的观点是为了回避来自内部和外部两个方面的约束,金融组织金融创新行为的动机主要来自于...
第2章信贷风险管理相关文献综述2.1信贷风险概述商业银行信贷风险是指商业银行在经营信贷活动中因受到多种因素的影响存在发生损失的可能性或不确定性。信贷风险作为商业银行面临的主要风险,在广义上,它指银行因客户违约而引发的风险;在狭义上指银行...
2.1相关概念的界定。2.1.1采购的概念。采购是指企业在一定的条件下从供应市场获取产品或者服务作为企业资源,以保证企业生产及经营活动正常开展的一项企业经营活动。是一个商业性质的有机体为维持正常运转而寻求从体外摄入的过程。2.1.2采购流程的概念...
第二章相关文献综述2.1社区银行的内涵界定发展社区银行已经成为我国金融改革最热门的话题之一,从2012年开始,国内银行业开始对社区银行进行分析研究,对其经营发展模式进行探索。银监会为了加强规范化管理,在2013年12月11日,发布了《关于中小...
第2章论文的相关理论基础2.1信息化管理的概念党的十八大把工业化、信息化、城镇化和农业现代化作为新时期的新四化提出来,足见信息化在国家全面建成小康社会、实现中华民族伟大复兴进程中的极端重要性。企业作为社会经济细胞,其信息化建设是整个国民...
2农村信用社股份制改革相关理论2.1农村信用社股份制改革产权理论分析产权制度是现代经济体制的核心内容,健全完善的产权制度是市场经济高效运转的前提条件。党的十八届三中全会《关于全面深化改革若干重大问题的决定》明确提出要完善我国的产权保护制度...
第二章云计算概念及基本理论目前,云计算是整个ICT产业的热点话题,每个企业都说自己在做云计算,业界包括公司内部关于云计算有各种说法和观点,缺少统一的定义,从而造成了概念繁多和认识上的困惑。因此,有必要对这些概念进行一个系统的说明,本章从云...
第2章相关理论研究本章将对论文用到的理论模型分类进行概述,然后陈述国内外研究现状。在本论文中,以客户、经销商和汽车厂商为三大研究主体,综合运用三者相关理论。2.1关键术语定义本论文涉及到几个研究主体,包括了客户、经销商和汽车厂商三大类,...
第2章文献综述2.1供应链管理的概念最近几年来,供应链管理作为一门全新的管理学科受到了众多学者的关注和研究。然而供应链的概念其实早在二十世纪八十年代就提出来了,但它真正的发展却是在九十年代的后期。供应链管理就是指对整个供应链的系统进行一...