数字出版 ▏大数据技术在出版行业中的应用研究
发布时间:2018/3/15 16:42:29 已经查看了3009次
摘要:分门别类地阐述大数据技术在大众出版业、教育出版业、学术和专业出版业、新闻传播业以及新型互联网出版业各个出版环节中的应用情况,分析和总结不同类型出版企业在大数据应用过程中的特色与侧重点,为出版行业利用大数据技术改造升级、重获生机提供思路。
关键词:大数据 数字出版 出版流程 按需出版

  01 引言
  2013年,维克托·迈尔—舍恩伯格发表的著作《大数据时代:生活、工作和思维的大变革》标志着大数据元年开启。中国工程院院士倪光南指出:“虽然大数据只是近几年才兴起,但各国从政府到工业界、学术界都毫无例外地予以高度重视,可以肯定地说,大数据时代已经到来,它将给人类社会的发展和人们的生活带来深刻的变化”。2015年,阿里巴巴董事局主席马云在“国际大数据产业博览会暨全球大数据时代贵阳峰会”上指出:“未来所有的制造业都将会成为互联网和大数据的终端企业,数据将取代石油,成为未来制造业最大的能源”。数据技术(Data Technology,DT)对各行各业的影响将是变革性、颠覆性和生态性的。
  造纸技术、印刷技术、信息技术、互联网技术都曾对出版行业产生重要影响,而大数据时代的来临势必也会对行业的各个环节产生强力的冲击。出版行业面临着转型和变革的严峻挑战,然而机遇和挑战总是并存的。
  在大数据技术方兴未艾的背景下深入研究和分析国内外不同出版领域的发展动态,它们面对冲击时变革的核心点,对厘清出版行业的大数据应用思路,总结及探索大数据技术在出版行业中的应用框架具有重要的借鉴意义。
  02 各出版领域大数据技术应用动态及其分析
   国内外大众出版、教育出版、专业出版、新闻出版以及新型互联网出版行业应用大数据技术时既有共同点,也有各自不同的特点,彼此间可探索相互借鉴的可能性。
  2.1 大众出版业
  大众出版企业面对的是普通的读者大众。如何把握读者大众的心理、兴趣、爱好以及个体和群体所表现出来的特性显得尤为重要。然而,由于大众出版面对的读者较为分散,单靠某一个企业收集大众的群体特征是十分困难的。因此,在涉及大数据分析及其应用时,大众出版机构对合作比其他类型出版企业有更强烈的渴望和内在需求。2012年,世界著名的大众图书出版商企鹅集团(Penguin Group)与社交数据分析站点PeerIndex公司合作推出了一本畅销书《神没有男人》(Gods Without Men),成功地将大数据技术运用到出版营销环节。企鹅出版社利用Peerindex提供的大数据支持,对主流社交媒体进行精细化分析,筛选出不同领域的意见领袖,然后利用他们的影响力进行营销,达到了良好效果。学者出版公司(Scholastic Corp)成功地将大数据运用到出版流程中的内容生产环节。此外,由美国著名出版商阿歇特出版集团、西蒙·舒斯特出版公司阿歇特和企鹅集团共同出资建立的书呆网则试图将大数据运用到营销和选题策划环节。在电子书领域,思科伯德(Scribd)和沃易思特(Oyster)两家在线图书馆公司为缴纳订阅服务费的用户提供无限量电子书租阅服务,对读者行为进行跟踪,并以此数据基础进行图书的个性化推荐,如根据读者在不同时间段的阅读偏好推荐不同题材的书籍。
  国内方面,桃花岛阅读体验馆以O2O(Online to Offline)新模式实现线上线下的双重体验:利用大数据技术对用户的线上信息如年龄、内容偏好、购买图书习惯等数据指标进行分析,筛选出符合其定位的目标客户群(29岁以上女性高级知识分子),邀请其进行线下会员制体验,建立客户管理档案,并进一步根据用户习惯为其推荐感兴趣的书籍或邀请其参加相应论坛。这为传统的大众书店做出了良好示范。此外,浙江嘉兴文化传媒广场、上海童石公司等企业也在着手打造自己的O2O营销链。2012年开始,《中国国家地理》在内容推广方面,根据用户在网站中留下的各种痕迹(各个栏目中停留的时间、浏览频率、购买记录以及购买内容等)分析用户的个人兴趣和内容偏好,进行个性化内容推荐。在广告推送方面,对用户的兴趣爱好进行分类,实施个性化广告推送;对用户忠诚度进行分类(忠实用户、非忠诚用户、潜在用户、非用户等),确定广告投放的频率和力度。在渠道推广方面,按照用户的媒体使用习惯(PC用户、手机用户)确定广告投放渠道。广告策略(内容、频率、力度、渠道)确定之后,进行试投放。再利用大数据技术快速分析广告试投放的效果,按照分析结果及时做出调整,进行广告的正式投放,并不断收集反馈信息做出及时调整。《中国国家地理》利用大数据技术采用精准、灵活的广告方式,获取了更高收入。
  综上所述,大数据浪潮下国内外主流大众出版企业积极应对,利用大数据技术对出版流程中的选题策划、内容生产、市场影响、广告投放以及市场反馈等环节进行改造,并取得了良好效果。但就目前而言,还未有一家出版企业将大数据技术应用在出版流程各个环节中。表1总结了国内外主流大众出版业在出版流程的各个环节中应用大数据技术的情况。随着大数据技术日趋成熟,出版企业对大数据技术的运用环节应该增多,运用的深度亦需进一步加强。

  2.2 教育出版业
  教育出版业的特点在于其服务的群体对象相对明确,因此如何针对这些群体提供个性化的服务以及智能化学习平台,是教育出版业应用大数据技术时主要关注的问题。
  一些拥有丰富教育内容资源的出版集团,利用大数据技术开发个性化的教学方案,搭建智能学习平台。从而获得了新生。2013年培生集团(PearSon)超越励德·爱思唯尔(Reed Elsevier)的收益,跃升为世界排名首位的出版集团。2014年,圣智学习出版公司(Cengage Learning)在进行财务重组后也重返全球出版业50强。圣智主体业务的发展趋势定位为:利用大数据技术,分析各个高校的学习需求,提供个性化的教材出版服务。
  自2012年MOOC在美国取得空前的成功,在线教育出版形式发生了新变化。MOOC平台共享国内外知名教师的精品课程,“短视频+交互式练习”的方式使得其具备了大数据分析的土壤。

  综上所述,教育出版企业为了应对大数据的浪潮亦采取了积极的措施,构建了学习的平台,为收集更多的有关学习或教学的数据以及后续的大数据分析奠定了平台基础,完成了大数据分析的第一步。而其中,国际教育出版机构培生集团在大数据的应用方面又一次地走在世界的前列,依靠自身强大的教育内容资源,构建云平台以及相应的学习分析系统,为学习者提供了个性化的学习方案并开发个性化的教学方案。其他出版业的大数据运用还需假以时日,诸多环节有待大数据的实践。
  2.3 学术与专业出版业
  学术与专业出版是所有出版领域中数字化程度最高的,因此其在大数据应用方面更有天然优势。
  国际方面,励德·爱思唯尔出版集团的数据库Science Direct每年共收录250000篇论文,每年下载量10亿多篇,汇集了大量用户信息和用户痕迹。2013年爱思唯尔收购了拥有跨平台文献管理软件和在线学术社交平台的门德里公司(Mendeley),为收集用户信息和痕迹,并进行大数据分析奠定了平台基础。施普林格(Springer)集团的SrpingerLink平台每年记录2.25亿次的资源下载详细信息,对每个包月用户的具体访问、阅读行为等进行大数据分析并用于改善自己的产品和服务,大幅度提升了用户的满意度。另有美国著名的出版商约翰·威利父子(John Willey&Sons)出版公司是全球领先的学术专业类的出版商,目前约有22700种图书和400多种期刊。约翰·威利父子旗下的威利在线图书馆(Wiley Online Library)是世界上内容最广泛的多学科在线资源平台之一,涵盖100多个分支学科领域。为了更好地实施大数据,约翰·威利父子跟中国展开深入的合作,在Wiley中国官网进行了资源的汇总;在领先的材料学中文网站聚焦材料科学最新的科研成果,提供独一无二的专家评述和访谈;与微博合作,实时推送热点简讯;与微信合作,每天推荐一篇科研焦点;与博客合作进行资讯热点文章推荐以及系列讲座市场活动。除此之外,澳大利亚在学术出版上已处在世界领先水平,其以大学图书馆为出版主体的新型出版模式具有鲜明的特点,越来越多的澳大利亚图书馆利用其对图书馆资源的数字化,并利用开源的平台获取发行的图书。积累的大量的用户的学术资源,为后续的大数据分析奠定了坚实的平台基础。
  国内方面,中国知网中国学术期刊(光盘版)电子杂志社和同方知网技术有限公司共同主办,在大数据的浪潮中,依托其年均20余亿次的检索次数,以及年均近10亿次的下载量,提供专业文献资源服务、科研分析服务、用户使用跟踪服务以及行业知识服务等,还通过检索帮助用户找出热点,研究热点。万方数据库是和中国知网齐名的中国学术专业数据库,收录的文献量仅次于中国知网。其在大数据技术应用方面明显落后于中国知网,但依然以上千万的数据为基础,以主题词为核心,提供了大数据的应用典范:知识脉络分析,统计和分析论文与论文之间的知识关系,依据论文的知识关系,发现新的研究方向、趋势和热点等。维普网与中国知网和万方期刊网并列为中国最大的中文期刊三大数据库。维普期刊资源整合服务平台提供了文献引证追踪,依托其具有最频繁使用的中文全文数据库,以及针对国内期刊论文、中国学者海外发文作科学定量指标分析,提供中国各地区科技指标综合分析等,进行大数据的分析应用。
  综上所述,作为数字化程度最高的学术专业出版机构,本身已经积累了大量的学术内容资源,构建了相应的云存储平台,为后续的数据分析都奠定了坚实的基础,并在大数据分析方面做出了多种尝试。其中实力资金强劲的出版机构,在大数据应用方面具有领先优势,比如荷兰的爱思维尔出版集团和国内的“中国知网”,其他出版机构也紧跟大数据的步伐,提供各具特色的数据分析,在大数据应用方面做出了有益的尝试。表3归纳了国内外知名的学术专业出版机构的大数据应用情况。

  2.4 新闻传播业
  新闻传播出版业在互联网时代受到强烈冲击。如果不能根据自身特点,快速找到转型之路,都将面临破产或关闭的境地。但大数据时代的来临,为新闻传播业转型提供了可以借力的技术通道。各大传统新闻报业机构和互联网新闻企业纷纷利用大数据技术做出应对,找到重生之路。
  国外方面,英国《卫报》以数据新闻作为切入点。2009年3月该报设立数字新闻部,建立包括数据博客(Guardian Data blog)、数据商店(Data Store)在内的大数据新闻平台,正式成立以大数据分析为新闻内容的出版媒体部门。数据博客的主要功能是为用户提供数据新闻:收集新闻事件的所有评论,并利用大数据进行文本分析,将不同的分析结果以多种可视化数据图的形式发布新闻专题报道,揭示新闻事件的内在联系。数据商店的主要功能是为用户提供数据共享服务,向用户开放《卫报》所有大数据新闻的数据来源,提升了《卫报》影响力。美国彭博社《今日图表》《纽约时报》的下属网站Five Thirty Eight,也都采用类似的出版方式。美国《芝加哥论坛报》利用大数据技术走出持续了4年的破产保护,开始盈利。首先,它利用大数据技术对报纸内容进行改造,以受众调查和数据分析明确内容整合方向。然后,利用大数据技术促进报纸发行和广告:论坛报对受众进行分类,牢牢把握核心受众,增加版面,提高售价,在发行上采取一种叫“数据+”(Digital plus)的方式,在数字媒体上免费提供“突发”“社区”等新闻报道,但是对深度报道收取费用。对受众再按照兴趣爱好分类,挖掘一个群体的爱好,有的放矢地进行内容推广。同时基于受众需求和兴趣进行精准的网络广告推广。美国有线新闻网(CNN)借力大数据技术进行台网融合,实现了收益的可持续发展。福克斯娱乐集团公司(FOX Entertainment Group,INC)则以“多频”联袂的方式应对大数据浪潮。微软全国有线广播电视公司网站作为最卖座的新闻网站之一,在大数据浪潮中也不甘落后,通过技术手段将按用户个人需求或喜好定制的新闻类信息主动发送到用户邮箱,实现基于大数据的个性化和按需推荐。
  国内方面,《佛山日报》利用大数据技术进行内容革新、管理创新等有益的转型尝试。它利用专业的数据分析,建立庞大的读者数据库,开发“受众点击跟踪”等大数据软件系统;同时以满意度数据为支撑,改革采编人员的薪酬体系等。2014年春节期间,央视“晚间新闻”携手百度地图的LBS基站定位功能开辟新的“据说春运”板块,首次将大数据”引入新闻动态分析中,为春运期间人们选择交通工具和出行路线提供便利。在数据新闻方面,网易、新浪、搜狐均有涉足。网易新闻作为国内最具“黏性的”新闻客户端之一,在大数据应用方面颇有建树。它建立了大数据平台,有自己的Hadoop、Spark、Storm计算平台,也有基于开源软件二次开发的缓存集群、搜索集群、消息队列、NoSQL软件等。可以从多个维度搜索用户的信息和访问轨迹,进行智能化的精确内容推送。在服务品牌广告主上面,网易可以将品牌广告的调性和态度精确地映射到内部的用户群体,实现精准的广告推送。

  综上所述,新闻传播企业已经利用大数据技术对出版流程中的各个环节加以改造。相较其他类型的出版企业,新闻传播企业更专注于吸引读者参与和变革内容生产方式。而数据新闻出版模式利用大数据可视化技术变革了新闻业的思维,获得了更多的用户关注。
  2.5 新型出版业
  随着互联网技术的不断成熟,规模的不断扩大,国内外各大互联网企业,凭借自身积累的海量用户数据,成熟的软硬件设施以及强大的数据分析能力,开始涉足出版领域,从销售渠道逆溯内容生产,并取得了初步的成功。国外以亚马逊,苹果公司,Google,Facebook,国内以京东,百度,当当,今日头条等互联网或电商巨头为首,利用大数据技术进一步完善各自的生态链。
  亚马逊于2007年推出第一代阅读终端Kindle,至今已经占领了全世界60%以上的阅读终端市场。通过对销售渠道和阅读终端的控制,亚马逊积累了大量用户信息,掌握了用户的喜好和购买意向等,为进一步实施内容和广告的个性化推荐提供了数据支撑。2014年7月,苹果公司为了改善图书业务板块iBook的服务,花费近1500万美金收购爱达荷州图书分析服务商BookLamp。该平台基于自然语言分析技术,根据对不同读者阅读爱好和购买记录的数据分析结果,量身定制“图书基因组计划”推荐方案。这能为读者搜索和分类购买图书提供快捷精准的营销服务,也为苹果在图书市场与亚马逊展开竞争助了一臂之力。于2004年7月启动谷歌数字图书(Google Print)项目,与全球各地的图书馆、出版企业展开合作,积累了大量的图书资源,并以其先进的搜索技术为用户提供方便、快捷的数字图书服务。2010年,它推出的数字图书馆词频统计器Ngram Viewer,囊括了1500—2008年间所有图书中的5000亿个单词,用户可以同时查询508年间5个单词的使用频率。谷歌数字图书馆给普通用户提供了性价比奇高的服务,以此手段积累海量用户,“挟”用户以“令”广告主,最终通过广告获利。而脸书(Facebook)则凭借强大的社交网络信息,与多种出版企业合作打造了基于社交数据的出版平台。通过其10亿用户关注的“热门话题”(Trending)为出版选题决策提供依据,利用“喜欢”(Like)等社交搜索功能进行图书推广工作。拥有海量社交数据的脸书引入搜索技术后,使得拥有全球领先的搜索技术而没有社交数据的谷歌在大数据应用领域略逊一筹。
  国内方面,同样是从销售渠道逆溯到内容生产,京东与亚马逊模式有所不同。亚马逊通过Kindle主打电子书,而京东根据中国市场的特点选择与传统出版社合作,通过对渠道与数据的掌控做纸质图书:在深度挖掘1000万用户的需求后,“京东出版”推出了第一本新书贝克汉姆的自传《大卫·贝克汉姆》以及《麦迪在路上》摄影书,并实现了按需出版。在出版传播领域,京东商城利用大数据分析“相关关系”挖掘商机。它推出的“2012年京东数聚会”深度分析了用户购物行为:平均每100个程序员中就有52人购买《给心灵洗个澡》这本书,50%用户在购买《淡定的人生不寂寞》的同时将《百年孤独》收入囊中,100位购买了健身器材的客户中会有70人购买《中国通史》。这些“相关关系”的大数据分析结果,对京东的捆绑销售和商品关联推荐提供了很好的数据基础。2013年12月24日,百度开发的百家网络出版平台正式上线,在短短数天之内日浏览量达到300万。百度百家采取邀请作家入驻的方式,为其开发专门的内容管理系统,百度通过成熟的大数据技术分析用户需求,然后将文章推荐给最合适的用户,提供流量、渠道、内容方面的推广,同时对广告和文章内容的契合度进行分析,实现内容精准推广和广告精准投放,使其获得快速成功。这无疑开创了一种全新的盈利模式,重构了作者、发行方、读者之间的利益分配方式,为我国目前网络出版中作者利益无法得到保障的难题提供了解决思路。而拥有读者大数据资源的图书电商当当网也不甘于只做下游售书者。它与皮鲁总动员文化科技有限公司以及相应的出版社进行全面深度合作,陆续策划了《皮皮鲁送你100条命儿童安全百科》《郑渊洁童话亲子美绘本》《郑渊洁童话成长悦读系列》等图书,合作的第一年(2013年)就销售过千万,实现了多方共赢。今日头条则利用大数据发展了另外一种新闻生产和阅读模式。2012年8月,基于大数据挖掘的个性化信息推荐引擎“今日头条”正式上线。它不进行内容生产,而是对各大网站、社区、论坛的热点进行抓取,聚合全网的热点资讯。然后,后台根据用户的社交行为、阅读行为、地理位置、职业、年龄、性别等信息,运用特定算法在5秒钟之内分析出用户偏好,从而提供个性化的信息推荐服务。截至2016年7月底,今日头条累计激活用户已逾5.3亿,日活跃用户突破5500万,成为一款影响力巨大的社交阅读应用。

  除此之外,自助出版、众筹出版等新型出版模式也在积极发掘大数据技术的潜力。自助出版商的代表LULU.com的作者可以决定出版内容,并通过大数据预测印数。北京磨铁图书有限公司的众筹出版模式,则是通过用户投票方式选出用户支持度高的内容资源。总体而言,在大数据浪潮中,互联网和电商企业凭借强大的软硬件设施、成熟的数据分析能力以及大量用户信息,逆溯出版流程,涉足出版行业并快速取得成功。表5归纳了国内外新型出版企业的大数据应用情况。
  03 分析与总结
  大数据技术发展至今,国内外很多不同类型的出版企业采取了积极措施,在出版流程的不同环节进行应用甚至变革了出版流程,并尝到了大数据应用的甜头。当然,不同类型的出版领域在大数据技术应用上有共同的地方,也有不同的关注点和不同目标(见表6)。在对大数据的应用中,不同类型出版企业的首要工作是:收集大量用户信息、用户评论等,以此分析用户特征及其兴趣爱好,借此进行个性化的内容和广告推荐,从而有效改造出版营销环节的目标。资金雄厚的大型传统出版企业可以利用自身构建的网络内容资源平台,以优质内容和服务吸引用户,在用户访问和购买过程中收集相关信息,最后利用数据分析技术改造出版环节(如学者出版公司、《中国国家地理》、励德·爱思唯尔等)。

  资金薄弱或自身特色明显的出版企业,则可以加强与拥有海量用户信息或拥有数据分析能力的公司合作,共同改造出版环节(如企鹅集团与Peer Index公司合作,苹果公司收购Book Lamp,皮鲁总动员文化科技有限公司与当当网合作等)。
  大数据应用方面,大众出版企业倾向于将技术运用在出版营销环节,通过目标用户的定位、用户兴趣特征的提取等进行个性化的内容推送。教育出版机构受众较为明确,偏向于提取读者的学习痕迹、学习习惯、学习难点和关注重点等,以便为学习者提供个性化学习方案和帮助,为教师推荐个性化教学方案,以及在此基础上构建智能化学习平台。学术和专业出版企业同样受众明确,可通过海量用户在平台中留下的痕迹、发表的内容主题、搜索的关键词等为学者推荐相关文章,聚集不同研究领域的热点,整理某一领域内的知识脉络,同时进行市场分析等。新闻传播类出版机构更多地是吸引用户参与新闻报道,以此改造内容生产环节;另外得益于大数据可视化技术的数据新闻也获得了很多关注。而新型互联网出版业最大的特征是凭借其拥有的海量用户信息、销售信息或搜索信息,从出版流程中的下游环节逆溯到上游内容生产环节,通过更精确地把握用户需求成功出版了许多畅销书,同时使得个性化图书推荐和按需出版成为可能。
  不同类型出版企业在利用大数据技术改造出版流程的过程中各有侧重环节,各具特色,并取得不同的效果。但到目前为止,还未有一家企业利用大数据技术改造整个出版流程的全部环节,而且每个环节的大数据技术应用也还不够深入、彻底。另外,大数据最核心的功能是预测,而目前出版行业还鲜见有利用大数据对出版方向、趋势等进行预测。除此之外,数据本身价值密度低(Value)等特点,使得探讨如何在海量的数据中挖掘更多价值成为一个永恒的话题。在后续的出版行业大数据技术应用研究中,我们将进一步为出版企业各个环节的改造提供思路和方案。
  原文载于《出版科学》2017年6期
基金项目/作者简介:
[基金项目] 本文系国家自然科学基金(614020140),浙江省自然科学基金(LY13F020045),绿色印刷与出版技术协同创新项目(PXM2016-014223-0000025)研究成果。
[作者简介] 陆利坤,北京印刷学院信息工程学院讲师;游新冬,工学博士,北京印刷学院信息工程学院副教授,清华大学信息科学技术学院在站博士后。

来源:http://mp.weixin.qq.com/s_biz=MzI0NzE5NDI2MA==&mid=2652158219&idx=2&sn=37893d70a25b9fa6093
d874f4f6b0910&chksm=f253aef0c52427e6473e3f1a4ae4aeffb9f041628b3af8e86a9d14212fe97426375cc372f
567&mpshare=1&scene=23&srcid=0315TehU4vJ811NIwqdJNHtw#rd