mba企业管理论文

您当前的位置:学术堂 > 毕业论文 > mba论文 > mba企业管理论文 >

大数据概念和相关理论

来源:学术堂 作者:杜老师
发布于:2019-03-01 共1837字
  本篇论文快速导航:

展开更多

  2 研究理论基础概述

  2.1 大数据相关概念。

  2.1.1 大数据概念。

  什么是大数据?大数据(large data)指在一定时间范围内、使用常规软件无法进行捕捉、管理和处理的数据集合,需要全新的处理模式才能拥有更强的决策力、洞察力和流程优化力的海量、高增长率与多样化数据集合。

  IBM 提出大数据的 5V 特点,大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)、真实性(Veracity)[31]。

  2.1.2 数据建模与数据挖掘和算法。

  数据建模是个过程,它通过对数据行业理解、数据的预处理、算法的选取、测试评估、部署应用这几个环节。算法只是其中的一个模块。数据挖掘是从大量数据中挖掘出有用信息,根据用户的特定要求,从海量数据中找出所需信息,以满足用户的特定需求。数据挖掘侧重解决分类、聚类、关联和预测四类数据分析的问题,重点在寻找模式与规律。

  数据算法是根据数据的创建、数据的挖掘模型的一组试探算法和计算算法。为创建模型,数据算法要先分析提供的海量数据,并查找特定类型的模式和趋势。数据算法有分类(决策树算法)、 聚类(K-Means 算法)、 关联(PageRank)等算法。

  2.1.3 数据湖。

  数据湖或 hub[32]是承载在基于可向外扩展的 HDFS 廉价存储硬件之上的。但数据量越大,越是需要考虑各种不同种类的存储。企业中的数据都可以被认为是大数据,但所有的企业数据并不都适合存放在廉价的 HDFS 集群之上,尤其是非常重要的营业数据。

  2.1.4 冷数据、温数据和热数据。

  冷数据是较长时间之前的状态数据,未及时更新的数据;温数据是非即时的状态和行为数据,但这些数据是一段时间内更新后的数据;热数据指即时的位置状态、交易和浏览行为,是及时甚至是实时更新的数据。

  2.2 大数据理论。

  2.2.1 日志分析理论。

  网站日志又叫服务器日志(Web log)[33],是记录 web 服务器接收处理请求以及运行错误时等各种原始信息的文件,以.log 结尾。网站日志记录网站运营的各种信息,比如空间的运营情况,被访问请求的记录。包括用户的 IP、访问时间、操作系统、浏览器、屏幕分辨率的情况及访问的网站和相关页面,是否访问成功等信息。

大数据概念和相关理论

  通过访问次数、停留时间、抓取量可计算平均每次抓取页面数、单页抓取停留、平均每次停留时间。平均每次抓取页面数是总抓取量除以访问次数的结果;单页抓取停留是每次停留除以每次抓取的结果;平均每次停留时间是总停留时间除以访问次数。根据平台页面访问量的结果,优化各页面展示的层级关系;根据产品访问量的多少优化产品显示顺序的权重。

  2.2.2 推荐理论。

  内容推荐(Content-based Recommendation)[34]主要来自于信息的查询和过滤。内容推荐方法主要是基于用户已浏览过的记录向用户推荐他没有浏览过的内容形成推荐项。基于内容的推荐方法有启发式和模型式。启发式方法是用户凭借以往的经验值定义计算公式,再根据计算结果与实际结果的比较进行验证,然后再通过不断修正公式达到最终的目的。基于模型方法是通过对历史数据作为依据,然后根据这个历史数据集来学习出一个模型。协同推荐(Collaborative Filtering Recommendation)[35]也称为协同过滤推荐。

  基于协同过滤算法是通过对未评分项进行评分预测来实现。用户的协同过滤算法是基于假设产生,“A、B 两客户的喜好相似度很近,A 客户喜欢的产品 B 客户很有可能也会喜欢。”,所以基于用户的协同过滤的主要任务是找出具有相似度的客户,从而根据最近邻客户的喜好推断出当前客户可能喜好的产品进行推荐。这种推荐算法分为三步,一是给客户进行评分、二是寻找最近邻客户、三是产品推荐。

  知识推荐(Knowledge-based Recommendation)[36]方法先通过交互、会话等方式直接了解到用户需求,然后进行产品匹配的过程。需要对“知识”进行形式化的定义和表示。效用知识(Functional Knowledge)是一个产品满足某一类特定客户的知识,它可以解释客户需要和推荐之间的关系,所以客户信息可以是任何支撑推理的知识结构,它可以是客户已经规范化后的查询,也可以是一组描述客户更详细需求的表示。

  2.2.3 用户画像理论。

  用户画像 (User Profile)[37]是真实用户的虚拟代表,它是基于真实的且不是一个具体的人。另外根据目标的行为观点的差异迅速组织区分为不同类型,然后把新得出的类型提炼出来,形成一个类型的用户画像。用户画像作为实际用户的虚拟代表,不能脱离产品和市场之外进行构建,它必须具有代表性,能代表产品的主要受众和目标群体。

  本章小结。

  本章主要介绍与大数据相关的概念和理论知识,为后续章节使用这些概念和理论做好了铺垫,易于读者更好的理解。

返回本篇论文导航
相关内容推荐
相关标签:
返回:mba企业管理论文