1、平台的功能结构设计
基于社会计算的科普教育平台是一个面向科普领域的开放平台,主要由社会化科普信息搜索和科普 Wiki 两大部分构成。面向科普领域的社会化搜索旨在向用户提供精准的科普信息检索,具体包括用户查询、科普信息检索、和社会化结果展示三部分。科普 Wiki 模块利用 Wiki 技术,允许平台中科普领域任何人添加和修改科普领域的术语词条,从而日积月累逐渐形成一个完整严密的和相对权威的专业科普领域知识库。该模块包含用户管理、问题提交、学习讨论、协作共创、页面管理、科普知识编辑等六部分。此平台为用户提供了网上学习交流、协作共创和问题解决的环境,更为透明的搜索服务,允许用户对搜索结果进行评价,通过对搜索结果进行评分能够影响对结果的排序。
2、关键技术
2.1 社会化科普搜索引擎设。
本文提出的社会化科普搜索引擎主要强调两方面设计 :(1)科普领域数据采集器的设计 ;(2) 社会化检索机制设计。
2.1.1 科普数据采集器
科普数据采集器主要完成从网络中抓取科普领域信息并入库的工作,是一种面向领域的主题爬虫。图 2 所示为采集器架构图。其中,科普领域信息分类器是采集器的核心组件,负责主要的科普网页分类工作。为提高爬取效率,本文同时添加种子域名判断组件,用以实现站内页面预判,减少分类器开销。
2.1.2 科普领域信息分类算法
科普领域信息覆盖度大,内容繁杂,比如天文、地理、自然、科技等类别均属于科普信息。为处理如此粗粒度的分类问题,本文将科普领域信息进行细粒度划分,提出多细粒度分类器融合的集成分类方法。其基本思想是 :给定一待分样本,由科普领域细粒度分类器为其打分(0 或 1),最后汇总得分,分值高于某一阈值则认为该样本属于科普领域。本文选择支持向量机 (SVM) 作为细粒度分类器的分类算法,该算法是目前已知分类效果非常好的一种文本分类算法,具体实现上本文选用开源的 LibSVM。
2.1.3 分类器准确率实验
本文选择百度百科作为细分科普领域信息的依据和训练样本数据源。本次实验选择其开放分类中的天文、历史、地理、自然、科技等几个大类作为科普细分类别,从百度百科中抽取各类别下子类的 top-50 的词条用作训练样本,共得到 10000 篇科普类样本。对于细分非科普类,本文以搜狗互联网分类语料库中的非科普类子类目录为依据,从各子类中随机选取非科普训练样本,同样得到 10000 篇语料作为非科普类样本集。两者合计共 20000篇用作实验的开放测试数据集。
本文选择保持(Holdout)方法对各细分分类器进行训练,其中训练集和检验集的划分比为 2:1。选择常用的准确率、召回率和 F-Measure 作为科普分类器的评价指标。经计算,本系统科普领域分类器的各项指标结果如下 :
由此可知,本文基于多细粒度分类器融合的集成分类器具有较高的分类性能,准确率和召回率均达 90% 以上。
2.1.4 基于 Lucene 的社会化检索机制
Lucene 是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,具有索引文件格式独立于应用平台、优秀的面向对象架构、分块索引、语言和文件格式易于扩展等诸多优点。基于 Lucene 的检索框架,本系统将社会化搜索的概念引入到科普信息检索中,在 Lucene 的相关度评分机制上引入社会因子,使搜索结果更加社会化。社会因子起到人为调节结果权重的作用,允许用户对搜索结果打分。这种评分机制,使得社会化科普信息搜索能够更个性化地对结果排序,从而为用户提供更好的检索体验。
2.2 科普 Wiki 的实现
基于维基百科的理念,本系统采用 JSPWiki 引擎设计并实现科普 Wiki 模块。JSPWiki 本身自带了身份认证、版本控制等基本功能。在其基础上,本文添加各项教育相关的子功能,如科普教学中的问题提交功能,允许注册用户提交各种科普问题,其他注册或非注册用户可以对所浏览问题进行回答。本系统以文本文件的形式存储用户产生的各种数据,为了方便用户权限管理,采用MySQL 存储用户信息。
3、小结
基于社会计算,本文综合运用社会化搜索技术及 Wiki 技术,设计并实现了一个面向科普领域的教育平台。该平台主要包括社会化科普信息搜索和科普 Wiki 两大模块。在科普领域数据采集中,本文设计采用人工干预与先采集后过滤相结合的爬取策略,提出多细粒度分类器融合的集成分类方法进行数据过滤。实验表明,该方法对于科普领域具有较高的分类性能。本文在检索部分引入社会因子,允许用户对搜索结果打分,从而为用户提供更个性化的搜索服务。同时基于维基百科的理念,采用 JSPWiki 引擎实现一个科普 Wiki,可供用户添加、编辑、评论科普信息,自创科普资源,提升自主学习能力。本平台对于推进全民科普、提升素质教育具有重要意义。(参考文献与图标略)
虚拟现实技术作为一种全新的信息科技技术,对于我国的经济发展有非常重要的促进作用。...
物联网是基于互联网和射频识别技术的能够实现物与物之间互联的网络,已被看作信息产业的第三次浪潮,成为影响经济增长的战略产业。物联网是通过射频识别、全球定位系统、激光扫描器、红外感应器、气体感应器等传感设备,按约定的协议,把物品与互联网连接起...
作为一项前沿技术, CG技术在影视动画设计方面具有突出的优势。...
孔的类型有多种,有圆柱形孔、圆锥形孔、螺纹形孔和成形孔等。自动编程软件也是多种多样,有UGCAM、MASTERCAM、PRO/E等软件。本文仅就圆柱形孔如何利用UGCAM软件进行数控程序编制方法进行介绍。UG软件是面向制造行业的CAD/CAE/CAM高端软件,集成了工程设计...
随着计算机技术的普及,人们对编程语言也产生了更加深入的认知,C语言这一编程语言的应用也已成为高校中的基础科目,需要学生予以重点关注。...
在安全阀校验过程中引入条码技术,可以使得在验证过程中,只需扫一扫即可通过跟踪条形码来调整安全阀信息。...
随着时代的发展,我国综合实力与社会经济水平的提高,带动着我国科技水平的不断提高,而在人们日常的生活中,电子技术得到了广泛的应用,并在很大程度上影响着人们日常生活的水平,而通过单片机的应用,能够在很大程度上影响电子技术的应用水平,为此,相关人...
前言:近几年,我国教育规模在不断扩大,学生对于学校也提出了更高的要求,希望学校制度能够更加灵活,并且适合学生。学校需要为学生提供机房,满足学生对于学习进度、指示导向等等学习内容的要求,提高学校为学生服务质量。但是学生的这些需求对于学校机房...
文章分析了虚拟化技术的实际应用,希望对今后的虚拟化技术平台设计有所帮助。...
0引言经济周期,又称商业周期(businesscycles)是国家总体经济活动中反映出的起伏波动,其表现为很多经济活动同时发生,包括扩张、全面衰退和收缩,以及作为下一个经济扩张周期循环开始的复兴过程[1].对国家经济形势周期性变化进行分析和预测一直以来...