中国高校人文社会科学信息网

您所在的位置:

首页专栏社科论坛

加强人文社科数据资源建设与管理

2018-07-05 10:19:08作者:王晓光等来源:《光明日报》( 2018年07月05日 11版)浏览次数:0 网友评论 0

  当前,大数据发展日新月异,随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、人民生活等产生了重大影响。

  习近平总书记强调,“要运用大数据提升国家治理现代化水平”“善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功”。本版特推出专题,就如何发挥大数据在人文社会科学研究、新型智库建设等方面的作用展开讨论。

  近年来,全球范围内掀起一场新的数字革命,人类步入大数据时代。数据正在成为人类社会最重要的资源和资产。大数据给人类社会的各个方面都带来了巨大变化,特别是在科研领域,大数据及其分析工具正在成为人类认识世界和改造世界的重要手段。然而,与自然科学领域相比,人文社科领域对数据资源的使用相对滞后。此前的社会科学研究虽然使用数据,但多数都是小规模抽样数据,而非海量或全量数据。随着社会数字化转型不断深入,数据资源在人文社科研究中的地位不断提升,人文社科研究范式和研究问题发生变革。如何加强人文社科数据资源建设与规范管理,以适应科研数字化转型这一趋势,成为当下值得研究并解决的一大问题。

  人文社科数据资源建设勃然兴起

  与文献信息一样,数据也是学术研究的基础性资源。2009年以来,我国人文社科领域数据资源建设开始加速。人文社科类基金资助的数据资源建设类科研项目也开始直线增长。统计显示,党的十八大以来,与数据资源建设相关的国家社科基金重点和重大项目数量有了显著增长。2017年,国家社科基金重大招标项目中,与数据资源建设有关的,数量更是可观。这些项目主要集中在语言学、历史学、文学、图书情报学等学科,从地域看,主要集中于北京、上海、广东、江苏、浙江等地区。近两年,在专题数据资源快速增长的同时,国内实力领先的研究型高校也纷纷开始建设人文社科数据中心或数据平台,以支撑人文社科研究范式的创新与转型,如清华大学中国经济社会数据中心、北京大学开放研究数据平台、复旦大学社会科学数据平台等。

  蓬勃发展的人文社科数据资源建设,昭示着我国人文社科领域的基础研究环境和组织架构都在向数字化方向转型,数据驱动的研究范式正在人文社科领域悄然兴起。伴随此范式的兴起,人文社科领域的开放思维、计算思维、量化思维、协同思维也更加受到学者重视,由此推动了文学领域的大尺度宏观研究、历史领域的长程量化研究、艺术领域的视觉计算研究、文化领域的时空可视化研究等的出现。这些新兴的研究课题都离不开强大的专题数据库和计算平台作保障。人文社科领域的可计算数据资源正伴随数字人文和计算社会科学的发展而发挥着越来越大的学术价值。

  诸多不足制约人文社科数据资源建设

  数据库建设过程不规范,系统平台可用性不强。目前,很多人文社科数据资源建设都由重大科研项目驱动,有一定的项目实施周期。在现有学术评价体系下,传统的印刷出版物,如专著和论文,是科研成果的首选形式,所以在项目实施过程中,学术研究是核心,这就导致项目团队以项目结题为目标,不太重视数据库建设的规范性和长期性。很多数据库系统选型落后,数据服务平台功能单一,检索效率低下,不支持机器读取和原始下载,系统平台整体上可用性较差,难以满足项目之外用户的实用性需求。

  数据资源质量控制不严格,内容可信性较弱。与自然科学类数据相比,人文社科类数据的生命周期较长,史料价值突出,后世使用概率高,所以质量要求更高。然而,由于人文社科领域数据来源广泛,既包括互联网上的用户行为数据,又包括结构化行业统计数据,还有从传统书报刊中抽取的非结构化文本片段,数据模型的差异极大。在数据库设计过程中,由于懂专业领域又懂数据库设计的复合型人才稀少,很多专题数据库的结构设计相当随意,结构十分不规范,常常不合乎数据库设计范式要求。在数据库内容采集过程中,往往也缺少质量控制标准和规范,导致数据内容的可信性与可靠性得不到保障。

  数据发布标准不统一,流通共享成本高。数据的自由流通和共建共享是发挥数据资源价值的关键。目前,人文社科数据资源主要由各领域的学术机构自主分散建设,缺乏像图书馆联盟一样的第三方机构进行技术协调。建成以后的数据库在互联网上也是自由发布,标准不一,普遍缺乏便于机器读取和交互操作的数据接口。用户无法查看其详细的数据结构,更无法通过关联数据的方式相互共享链接,由此导致数据难以跨域流通和自动汇聚,语义数据网络也无法通过自动勾连的方式构建和使用。

  关键数据资源缺乏界定,数据主权难有保障。随着大数据、物联网和数字中国建设的推进,人文社科领域的数据资源将逐渐从调查获取和人为发布向感知获取与自动发布转换,例如社交媒体数据、金融系统数据、用户隐私数据、商品流通数据等都可以借助网络媒体系统、电子政务系统、电子商务系统,以及日益强大的智慧城市基础运营设施自动获取。这些数据资源中有些属于“关键数据资源”,不仅涉及个人隐私,对于国家数据主权和国家总体安全也有潜在影响,不能随意流通和跨境传输。目前,人文社科领域还没有针对“关键数据资源”的清晰定义,但其潜在安全问题正随着数据资源的快速增长而浮现,有必要未雨绸缪、厘清概念。

  提升人文社科数据资源管理规范性的对策建议

  发布数据资源建设规范,指导数据资源建设过程。数据资源建设类似于软件开发,过程控制是关键。有必要研究并发布人文社科数据资源建设规范,包括数据资源分类与格式规范、数据资源建设机构资质要求、数据库系统选型要求、内容维护规范和网络发布标准等内容,对人文社科各领域专题数据库和数据平台建设进行全流程指导。

  建立数据资源评估标准,保障数据内容质量。对不同领域和不同类型的数据资源制定详细的评估标准,核心是质量评估和价值评估。对不同形式的数据资源进行专家与机器相结合的、传统科学计量与新兴网络计量相结合的评估。将评估结果作为各类数据资源建设项目资助、实施和验收的必要条件,保障人文社科数据资源高质量建设与运营。

  探索数据资源长效维护机制,实现数据服务可持续发展。鉴于数据资源运营的高成本特征,有必要探索建立学术机构与出版机构、图书馆机构、数据服务公司联合运营与维护的长效合作机制,通过政府资助、商业销售、托管服务等多种手段实现人文社科数据资源的可持续发展与运营,避免数据资源因为有建设、无服务而“昙花一现”。

  建立数据资源管理联盟,促进数据资源开放共享。参照中国高等教育文献保障系统(CALIS),建立数据资源管理联盟。以“智慧数据”的理念,开展数据模型技术研究、数据模型技术应用宣传和培训。鼓励数据资源建设主体利用开放关联数据、知识图谱、简单知识组织系统等新兴语义技术和标准进行数据资源的语义化和关联化发布,整体上提升人文社科数据资源的智慧层次和开放共享水平。

  设立数据资源建设专项基金,加大数据资源资助力度。设立国家级、省部级的人文社科数据资源建设专项基金,通过稳定的项目资金支持,提高人文社科数据资源供给水平。在政府相关部门设立专门的全国高校数据资源管理办公室,统筹管理人文社科数据资源建设。

    建立数据汇交制度,构建全国统一的人文社科数据资源门户。将公开发布的数据库视为一种正式出版物,建立数据汇交制度和全国统一的人文社科数据资源门户,定期采集各数据库目录数据或原始数据,并进行评估和长期保存。开展数据资源和数据分析工具的应用培训和宣传,推动人文社科领域数据驱动的研究范式发展。

  建立“关键数据资源”管控机制,提高数据主权意识。参照出版领域的重大选题审批制度,对有重大社会影响的“关键数据资源”,如哲学、政治、经济、历史、法律等领域的特定主题数据建立分类、公示、审批与审读制度。对“关键数据资源”的流通实施白名单管理,严格控制“关键数据资源”的跨境流通,保障我国的数据主权安全。 

  (作者:王晓光,系武汉大学信息管理学院教授、教育部人文社科重点研究基地武汉大学信息资源研究中心副主任)

探索新型智库数字化发展实践路径
作者:张耀军

  当前,我国正在实施大数据战略,借助大数据推动中国特色新型智库发展,实现以数据手段助力智库建设、以智库思想力提升数据价值性的良性互动,既是我国大数据建设的应有之义,也为新型智库实现跨越式发展带来崭新机遇。

  新型智库数字化发展的机遇和挑战

  大数据引领新型思维模式。当前,大数据正掀起一场影响深远的思维变革,深刻影响人类生产生活方式。以大数据为基础的云计算、移动互联和人工智能等现代信息技术广泛应用,通过万物互联、人机交互和智慧计算等作用机理,使泛在、精准、智能、交互式的内容创新和服务成为可能,引发智库研究范式、内容生产、运营模式等迭代更新,推动新型智库加速向数字化、智能化方向演进,更好发挥咨政启民功能。

  大数据创造新型技术动力。利用数据算法建立分析和预测模型,运用量化指标开展计量研究,发挥数据融合分析、多尺度数据耦合等大数据技术作用,能够实现对智库研究对象和议题的精准、科学、全时、全样本的数字化挖掘和实证性分析,降低信息不对称风险,减少个体主观性偏差,推动智库成果及时有效对接决策需求,为科学决策提供数据支撑和重要依据。

  大数据孵化新型服务平台。大数据具有海量信息存储和快捷高效检索的鲜明优势。新型智库应该运用专业数据库分析、筛选、整合、赋能和激活大数据,在研究选题、信息采集、调查研判、政策评估等方面为用户提供多层面、高水平和综合性服务,提升服务公共决策和社会治理的数字化能力。

  大数据在为新型智库发展创造新机遇的同时,也带来了不少挑战。当前,尽管善于获取数据、分析数据、运用数据业已成为共识,但部分智库在数字化发展方面仍面临一些难题。

  数据共享程度有待加强。我国数据开放共享程度较低,智库间数据分割有待破局。智库数据资源开发整合能力不强,资源优化配置效率不高,数据综合利用效能有待提升。具有较大影响力和国际知名度的数字型智库较为少见,智库数字化发展亟须实现跨界式融合、整合性获取、交互式创新。

  数据治理机制有待完善。大数据技术与智库治理结合不够紧密,主要表现在数据采集标准不一、价值挖掘有限、交易规则不明,数据重复建设等问题不同程度存在。智库大数据评价体系的权威性有待加强,智库数据产权保护制度亟待建立,智库建设所需要的高水平多学科复合型专业人才较为匮乏。大数据决策咨询体系统筹协调相对薄弱,驱动机制不强,约束机制偏弱。

  数据技术难题有待攻克。当前,新型智库大数据建设尚处在起步阶段,在调查研究、成果转化、话语传播、协同创新等方面还需重点发力。例如,如何将多源异构、零散纷乱的数据转换成适合智库需求的格式和类型,将海量数据资源汇聚整合成为高附加值的数字资产;如何构建更加可靠有效的大数据安全保障体系,实现智库大数据清洗、脱敏并妥善应用等技术难题,还需加紧攻克。

  数据研究方法尚未普及。抽样调查、社会统计等传统研究方法用得多,数据挖掘分析、文理交叉融合、人工智能技术、可视化应用以及机器深度学习等现代研究工具尚未普及。在当前的中国特色新型智库建设大潮中,单兵作战式研究多,协同攻关调研少,智库课题的复杂性、综合性、多样性呼唤跨学科学术资源集聚,探索形成大数据驱动、多学科融合、跨领域研究的智库研究新范式,构建起以大数据为重要支撑的科研协作网络。

  以大数据为杠杆,撬动新型智库数字化建设

  在坚持党管智库的根本前提下,以大数据为杠杆撬动智库数字化发展,建议从以下方面着手。

  强化创新思维。要将智库数字化发展的理论、技术、规则等方面的创新置于战略位置,持续深入推进顶层设计,在实践探索中,为智库数字化发展夯基垒土。要实行差别化定位,坚持“小而精”,避免重复生产和同质化竞争,努力形成定位明晰、特色鲜明、制度创新、引领发展的独具中国特色的数字化智库。要加大创新性探索,建设智库大数据数据库、案例库、样本库等,加强大数据标准规范和评价体系建设。

  坚持共享理念。推进智库数字化发展,开放共享是关键。一要建立共享机制,探索科学、合理、可行的智库数据开放共享体制与配套政策体系,为实现跨地域、跨系统、跨部门、跨学科的数据共享提供制度供给。二要建设共享平台,建议设立国家智库大数据中心,将分散独立的智库数据统一接入国家智库大数据开放平台,打造资源优势集成、数据互联互通、信息统筹利用、标准透明一致的智库大数据共享门户,构建涵盖数据收集、共享、交易、应用等全产业价值链条,为决策咨询提供便捷智能的数据支撑。

  强化服务意识。提供更加优质的决策咨询服务是智库数字化建设之本。要构建数据来源广泛、手段快捷方便、数据时效性强的大数据服务体系,通过向专门数据公司购买大数据应用解决方案的方式,创新智库数据支撑决策咨询服务的供给模式,推动智库智力服务能力整体提升。为提高数据服务质量,建议加快部署数字基础设施,加强多源数据交叉比对、关联数据深度挖掘和发展趋势即时预判能力,不断提高新型智库利用大数据精准研判和科学预测能力。

  增进协同观念。智库数字化建设要加强统筹协调,强化国家在智库数字治理中的主导地位,引导多元主体融入智库大数据协同创新工作中,发挥竞争合作和优势互补作用。要加快政策引导,营造良好大数据发展环境,构建开放、平等、公正、有序的数据生态,设立数据标准,规范数据格式,开展数据质量监管与动态评估,保障数据准确性、完整性和可及性。要加紧人才培养,发挥高校学科齐全、人才密集和对外交流广泛等优势,依托重点项目培育智库数字化发展领军人才,建立产学研用相结合的智库大数据人才培养基地。要注重国际合作交流,学习借鉴国外智库数字化发展经验,成立专题性大数据智库联盟,为推动制定数字治理国际标准提供中国方案。

  坚守法治原则。数据安全是数字化发展的前提和保障,智库数字化建设要依法依规进行。为此,要加快推进大数据立法,完善智库大数据获取、存储、管理、交易、共享标准,逐步建立健全智库大数据风险分级、分类保护等的法律法规,明确智库大数据挖掘、传输、发布以及二次利用中的权责关系,在确保数据安全前提下,健全数据资源确权、开放、流通和交易等相关制度,加大对智库技术专利、数字版权、数字产品等的保护力度。

  (作者:张耀军,系北京第二外国语学院国家“一带一路”数据分析与决策支持北京市重点实验室副研究员)

  【学者纵论大数据】

原国家行政学院副院长、中国行政体制改革研究会原副会长 周文彰:
数字中国建设任重道远

 

  当前互联网、大数据、云计算、人工智能成为新型科技发展的前沿领域,数字中国建设取得重大成就。但相比发达国家,数字中国建设历程比较短,还面临一些问题和挑战。比如数字化发展水平很不平衡,数字经济生产领域资源投入仍然不足,在创新设计、生产制造等环节与发达国家还有较大差距。数字化区域发展不平衡,欠发达地区数字增长速度较慢。面向新业态的监管体制不适用,数据安全和数据主权问题日益突出。

  数字中国建设任重道远。当前要加强网络基础设施建设,高标准建设宽带网,破除数字中国建设的瓶颈,推进数据资源整合和开放共享。要加快信息技术在各个领域的应用,推进互联网与实体经济的深度融合,将其渗透到各个产业、各种经济活动,提高普及率。要大力推进社会事业数字化,推动社保、医保、就业等信息的全国互联互通,大力发展网络教育、远程医疗等,为人民提供用得上、用得起的数字产品。要加快欠发达地区、农村地区互联网建设步伐,减少城乡、区域间的数字鸿沟,充分发挥互联网在推进精准扶贫、精准脱贫方面的积极作用。

中国工程院院士 沈昌祥:
对大数据实行全过程保护
 

  随着海量数据的进一步集中和信息技术的进一步发展,信息安全将成为大数据快速发展中必须面对的问题,集中表现在以下方面:其一,大数据与网络安全密不可分。随着越来越多的交易、对话、互动等在网上进行,针对大数据的网络犯罪行为日益猖獗。其二,大数据是新的数据方法,因此对安全要求比较严苛。作为大数据汇集的主要载体,云计算平台等的系统安全将影响大数据安全。其三,数据是有规律、智能化的,因此供应链的安全也备受关注。其四,数据的丢失、损坏等有可能造成系统性破坏。

  正如习近平总书记强调的,安全是发展的前提,发展是安全的保障。解决大数据安全问题需要进行制度化、体系化建设。对大数据实行全过程保护要做到:科学定级、全面建设,准确划分保护系统、确定安全级别(评审、备案);开展等级测评,改进完善系统;要注重应急处理和备份;要构建大数据纵深防御体系,做到整体防御、分区隔离,积极防护、内外兼防,自身防御、主动免疫,纵深防御、技管并重。

中国政法大学副校长 时建中:
数据交易须先确权

  数据确权是数据交易制度性的根基,数据产权转让的前提是要明确权利到底属于谁,权利不清晰就无法转让。在数据确权过程中,面临的主要挑战是隐私保护问题,对此,有必要区分隐私和隐私数据。需要注意的是,隐私数据的开放不等同于披露当事人的隐私,如何在开放隐私数据的同时保护个人隐私,需要认真思考。

  同时,隐私的再分类与隐私数据的保护与开放等级划分至关重要。在法律上要对隐私进行细分,针对不同的隐私建立不同的搜集、开放、交流程序,针对不同的隐私数据建立不同的保护等级。隐私数据的再分类和开放,核心是设定隐私的统一程序,以及不同隐私数据的开放范围。

  在数据交易时需要遵守以下规则:第一,搜集隐私信息必须经过隐私权人的同意。第二,无论是隐私还是隐私数据的开放,无论这种开放是有偿还是无偿的,开放者负有同等的保密保护义务。第三,隐私和隐私数据的法律,应该与风险的控制能力相互统一,风险控制能力越高的,应该承担的责任就越大;获利能力越高的,承担的责任越大。第四,要并入刑事责任,并且创新具体的责任来保护、规范隐私数据的开放。第五,构建法律责任和相应法律制度时,需把法律规划和大数据技术要求统一起来。

中国行政体制改革研究会常务副秘书长、中国信息协会军民融合专业委员会副主任 王露:
建立与数字中国相匹配的管理体制
 

  目前我国还没有建立起有效应对、完全适应自主生态建设要求的大数据管理体制,主要表现在:缺少统一的网络安全行政主管机构,难以形成统一的管理,加大了监管成本,降低了效率。缺少专门的网络安全审查机构。政府对数据管控不足,对影响百姓生活的特大网络企业数据的掌握利用不够。

  对此,建议提升党对网络空间安全的领导力,让大数据更好地服务科学决策,重视培养高素质的人才队伍,提升数据处理的分析和监控能力。健全数据管理的体制机制,设立能够统筹、协调各相关方面的权威机构,统一资源。健全网络安全部门,协同治理机制,建立跨部门的网络安全机制,使各部门各司其职。进一步深化科技体制改革,努力在关键技术、前沿引领技术、颠覆性技术上实现更大突破,抢占科技创新的制高点。探索适合本国国情的数字中国建设道路,建设自主生态。

  (张胜 整理)

 

关键字:

大数据智库

查看评论

已有0位网友发表了看法