小都绿-大宗商品定价权大数据播报（第324期）-才源国际大数据

大宗商品定价权大数据播报（第324期）-才源国际大数据

大数据播报（第324期）-才源国际大数据

2017年8月12日，星期六，闰六月廿一
丁酉年【鸡年】戊申月辛未日
目录
一、新闻速览
1、货车帮依托大数据优势积极参与九寨沟抗震救灾
2、河北大数据精准监管追回骗保资金近千万
3、辽宁归并信用信息大数据让失信者无市场
4、阿里发布“知产快车道”计划依靠大数据打假
5、全球宽带网速最新排名：中国内地134名不及缅甸老挝
二、趣味阅读
1、【重磅】再见Hadoop之父，大数据应用新认知
2、【好文】一文览尽大数据、人工智能、区块链、云计算在金融领域的全景应用
3、【深度好文】对中国大数据产业梳理研究
三、往期精彩
详细内容
一、新闻速览
1、货车帮依托大数据优势积极参与九寨沟抗震救灾
——新华网贵阳８月１１日电（卢志佳）四川阿坝州九寨沟县７.０级地震发生后，全国公路物流信息平台“货车帮”第一时间成立地震赈灾专项小组，并提供救灾货源置顶、周边运力调配、司机救灾报名入口等动态支持。依托大数据优势，“货车帮”第一时间筛选全国各地到九寨沟的救灾物资并将其置顶王笑奕，以保证在最短时间内让最多的司机看到。记者打开货车帮ＡＰＰ时发现，在首页弹窗、小浮窗等位置均能看到“抗震救灾司机志愿者报名入口”字样。对已报名的志愿者，“货车帮”将会采集司机基本信息，并根据位置、车型等进行精准匹配、调度使用。原文链接：http://dy.163.com/v2/article/detail/CRISCSAL0514B6DH.html
2、河北大数据精准监管追回骗保资金近千万
——据人民日报网消息：记者从河北省人社厅获悉：针对一些人采取欺诈、伪造材料等非法手段骗保、套保，损害广大参保人切身利益的现象，河北利用大数据精准监管社保基金风流老顽童，今年以来全省已挽回社保基金损失近千万元。河北省人社厅基金监督机构开通了城乡居民养老保险监督查询客户端，实现了对全省数据的实时动态监测。同时，充分发挥防范和查处社会保险欺诈联席会议制度机制功能，省人社厅与省公安厅密切协作，调取人员生存信息350余万条，通过入村入户重点核查，有效解决了信息数据异常、死亡后冒领等问题。另外，河北引入定量评价分析方法，就电子对账单数据异常、待遇支出金额较大、待遇领取人与应缴费人数之比较高及现金收缴保费等情况，对8个设区市20个县（市、区）的上报数据进行综合分析，掌握了被检查对象的大量有效疑点信息。原文链接：http://www.mohrss.gov.cn/SYrlzyhshbzb/dongtaixinwen/dfdt/gzdt/201708/t20170811_275578.html
3、辽宁归并信用信息大数据让失信者无市场
——新华社沈阳8月11日电（汪伟、丁非白）登录“信用辽宁”网站的数据查询栏目，输入企业名称冯文乐，即可获取信用状况等信息……辽宁已实现省、市、县三级联合征信建设模式，并将加强部门联合惩戒，让失信者“一处失信，处处受限”。辽宁省信用数据交换平台纵向已与14个市数据交换平台相连接，横向与省直各职能部门、相关行业数据库相连接，构筑了全方位、多层次、条块结合、互为补充的全省公共信用服务网络系统。2010年以来，辽宁省先后建立了典型失信案件曝光、失信企业黑名单和失信联合惩戒制度，800余家企业列入失信黑名单，同时还通过省政府新闻发布会等方式，曝光了40起典型失信案件。原文链接：http://dy.163.com/v2/article/detail/CRIR53PA0514E603.html
4、阿里发布“知产快车道”计划依靠大数据打假
——据搜狐网消息：8月10日消息，阿里巴巴正式发布“知产快车道”计划，未来将用大数据和互联网技术提升知产保护服务效能，这一计划的发布，也标志着阿里巴巴的打假行动又多了一项保障。在这项计划中，阿里巴巴各类模型算法扮演了重要角色：文本分析模型不仅能够对“关键词”作对比，还能对文字信息的语法、语义做分析；图像识别模型可以用于识别商品图片中出现的涉假信息，包括OCR文字识别、LOGO商标识别、“以图比图”等算法；行为识别模型能根据商家异常行为，包括发布行为、交易行为等快速锁定售假商家，并对其进行相应的处置。原文链接：http://www.sohu.com/a/163892467_115565
5、全球宽带网速最新排名：中国内地134名不及缅甸老挝
——据北京时间网消息：英国Cable.co.uk近期对全球各地的宽带下载网速进行分析。数据显示新加坡排名全球第一，平均网速55.13M，下载7.5GB高清电影仅需18分34秒。而中国大陆平均网速1.55Mbps仅排名134，不及缅甸(118)老挝(124)。原文链接：http://item.btime.com/32214luk5ts957aj54lnb5vh2mq
二、趣味阅读
1、【重磅】再见Hadoop之父，大数据应用新认知
有机会再次见到Hadoop之父——Doug Cutting先生，与2014年见面稍有不同的是，这次Doug Cutting先生身份变为了Cloudera首席架构师。结合Hadoop、大数据和人工智能等热点，记者对他进行了深入采访。

Hadoop之父，Cloudera首席架构师Doug Cutting先生
问：作为Hadoop创始人，请您回顾一下Hadoop历史和初衷？
Doug Cutting：创建Hadoop的时候，当时我正在做一个项目，这个项目的代号叫Nutch。当时希望能够基于开源去创建出一种网络搜索的引擎，实现一种具有可扩展性、可收缩性的数据技术。
同期我看到了来自于Google的几篇论文，我觉得他们的想法和我们的想法是完全一致的，所以我们把Google的想法放到了Nutch项目当中来实施了。当时我个人有这样的一个需要，就是要做好手上的项目，当时我确实是没有预想到一旦创建出来这个技术以后，它具有如此之广的用途，没有预见到它在制造、银行、电信等很多行业的价值。它让我感觉到非常惊喜。
问：如今Hadoop的进展，有没有和最初设想不太一样的地方？
Doug Cutting：当初也没有一个关于Hadoop将来如何发展的计划，Hadoop发展的演进范围、规模大大超出了我当初的预想。而且最让我惊喜的就是围绕着Hadoop以及基于Hadoop所有的项目和技术，并不是基于某一个单独的技术。而是基于多种技术组成的系列家族，整个技术系列是在不断发展和演进之中，也就是说围绕着Hadoop现在已经形成了非常强大的生态系统，Hadoop整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。
问： Hadoop常常和大数据联系在一起，和人工智能也有关联吗？
Doug Cutting ：我觉得Hadoop和AI之间是非常适合、非常匹配的一项技术，因为AI本身就是一种大数据的应用。
特别对于AI系统进行训练的时候，使用的数据越多，AI系统就越先进。上周Google发表了一篇文章大宗商品定价权，主要讲的是基于AI的图像识别，也就是说，在用数以十亿计的图像识别的深度智能系统培训基础之上，图像越多，识别能力就越强。因此，从这个意义上来说，AI就是一种大数据应用。
问：如何看待Hadoop和开源软件之间的演变关系？
Doug Cutting：Hadoop作为一项基础仍然是在发挥着关键作用，与此同时spark对于像IoT和AI的应用，也在起到越来越重要的作用。
除此之外，我们也会看到新的技术会涌现出来，这样能够使得开源的整个生态系统进一步得到发展和改进招考女婿。这对于整个开源的生态系统来说是一件好事，比方说如果有了更好的存储技术或者是更好的分析技术，毫无疑问Cloudera会采用这些技术。因为在开源的世界当中，竞争的逻辑是不一样的，没有哪个公司是拥有开源的技术。每当开源的技术有了新的发明或进展，开源群体的每一分子都会受益于其中。比方说如果在有一些领域会出现新的技术，在某些方面会优于Hadoop，那Cloudera也会毫无疑问去采纳这样的技术放到我们的解决方案当中去交付给客户，例如kudu，它是一个非常强大的存储引擎，它既具备了像Hbase的随机访问能力，同时又具有HDFS快速查询能力，两者兼而有之。再例如Kafka，它有很强的实时应用支持能力和流处理能力，Cloudera已经把这两个技术采纳到平台当中，更好地满足需求。
另外我们也在构建一些更多基于Spark机器学习的工具，与之相关的有一个项目叫Apache Spot，它帮助我们的客户保护他们的网络安全，免遭黑客的攻击，这是我们在Hadoop和Spark基础之上的进一步发展。
问：对于Hadoop分布式存储来说，在处理速度、网络延时和成本几个要素之间如何取得比较好的平衡？
Doug Cutting：在很多案例当中，我们看到处理器很多但也能够做到低延迟，关键在于对于要处理的问、处理任务怎样划分，比如通过Hbase或通过很多交互式的系统像Solr 搜索，在节点越多的情况下反而能降低延迟，这是因为任务处理有很好的并行性召唤群英系统。可以说现在大部分情况下，节点的数量或处理器的数量和延迟之间的平衡是不难找到的。
接下来就要讲成本，成本确实是一个考虑因素，首先我们的软件是开源的，而且我们所有解决方案能够使用普通的商用硬件，所以和上一代相比成本有大幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用，只不过有很多其他的应用暂时还没有用上低成本的架构，还有进一步降低成本的潜力。
问：Cloudera在Hadoop、Spark领域竞争的优势是什么？
Doug Cutting ：首先IBM、微软等几家ISV对于Hadoop也是大力支持的，比方说微软是Cloudera的合作伙伴，Oracle是Cloudera的分销商。而且我们看到在大数据领域，采用最多的还是开源的系统。
尽管在亚马逊、微软和谷歌的云平台之上会有一些用户，他们的大数据应用使用的是专有的商用软件服务。但是我认为假以时日，这些客户会再次认识到在云中使用开源的大数据解决方案，具备成本更低、质量更高的优势，因为使用开源的解决方案使客户可以在不同的云环境之间自由迁移。将来如果有这样的必要性，可以选择把这个软件本地安装来使用。
迄今为止，这些在大数据领域的商业或者专有软件对Cloudera来说，我认为并不构成威胁。
问：如何看待Hadoop和云计算的关系？
Doug Cutting：云计算或云模式使得客户在使用Hadoop的方式上具有了更大的灵活性，比方说他们可以在云环境中来使用Hadoop。如果他们把Hadoop用本地安装运行的形式来使用的话，他们往往是建一个单个很大的集群来支持各种不同的应用，并且拥有一个统一的数据拷贝。如果在云环境当中来运行Hadoop，他们的数据会在亚马逊存储之类的系统当中，云环境供应商已经帮助他们管理了数据的拷贝。
在云环境当中使用Hadoop，客户可以针对不同的应用创建应用不同的集群，而这样的集群开关或者是规模的伸缩，都可以按需进行卡鲁伊，这样对于客户来说，可以实现更好控制和灵活性。
我们从整个IT长远的发展趋势来看，过去IT在一个企业当中往往是集中在一个部门的手中，但是现在我们看到很多的企业的数据和数字技术，是在整个企业当中得到了扩散和广泛使用，并不是所有IT的事项像过去一样要找IT部门解决，各个非IT的部门具有越来越大的能力，在IT方面进行自我管理、自我服务，也有越来越多的工具能够帮助他们做到这一点。而云计算是促进和推动了这一趋势的发展，由于有云计算使得一个公司当中非IT部门，例如运营、制造、市场营销部门都能够自行采购一些服务并且加以运行，他们的控制能力和灵活性都大大增加了。
云计算本身也是促进了IT和数据的分散化、自助化，而不是像过去那种集中化的模式。
问：有数据专家现在趋向于把Hadoop当作数据仓库架构的补充，请问您是怎么理解的？对于有一些数据量极小的应用， Hadoop会是杀鸡用牛刀吗？
Doug Cutting：我们是可以把整个数据仓库都建立在Hadoop之上的。五年前我们和Ralph Kimball博士，他是数据仓库架构主要的创建人，一起搞清楚了，也是证实了可以完全基于Hadoop来建立数据仓库。而且也有很多用户确实是把他们的数据仓库完全建立在Hadoop的基础之上。
当然就建立数据仓库的技术而言，有其他的一些技术或者是工具，和Hadoop相比，这些存在的年头更长，可能已经有了数十年的历史。而事实上对于这些时间更加长久的技术，Hadoop并没有能够具备其中所有的功能、所有的性能。但即使如此，很多用户选择把他们的数据仓库构建在Hadoop的架构之上，他们是为了能够实现更加优越的可扩展性、更高的性价比，以及更好的灵活性。
就第二个问而言，是不是杀鸡用牛刀，这主要看用户完成任务当中需要使用什么样的工具。有的时候也许在规模上、在扩展性上是超出了需求，但是仍然能够带来灵活性的优势。比方说使用基于Spark的机器学习的工具。在这些情况下，用户仍然发现Hadoop的平台对于完成他们的任务非常有用，虽然他的规模可能是过大的。当然我们讲的也很清楚，我们并不认为Hadoop是一种通用的工具能够解决所有的问。
在实际应用中，即使是规模很小的集群，比方说5个节点的集群，客户也发现使用Hadoop与其他技术选项相比能够产生更好的产出，带来更多的价值与竞争。
问：对于大数据应用发展的速度，您感觉满意吗？
Doug Cutting：整个大数据的发展是在非常早期的阶段，而且大数据是保持着稳步持续地增长。我们看到很多公司在自己的大数据项目上都取得了成功，虽然目前这些大数据的项目规模还比较小，就大数据解决方案而言，我们的大数据解决方案客户的也是也是在稳步增长，他们用于大数据解决方案集群的规模也是在稳步增长。至少自从Cloudera诞生以来，我们看到整个的数据的应用是处在稳步增长的曲线之中，而并没有出现停滞不前或者是失去动力的情况。
大数据已经很成功应用在很多领域，像金融反欺诈应用，在医疗领域，大数据也已经有了很多成功案例，比方说美国有一家公司Cerner开发了一套大数据系统，主要是来判断患者有可能发生败血症的情况。目前通过Cerner已经对几百名有产生败血症风险的患者先期采取措施进行了治疗，预防了败血症的发生，这就是一个非常成功的案例。
在癌症治疗方面，大数据的应用也在取得很多的进展，比方说主要是在基因组学的研究方面，在取得治疗癌症方面的进展。举一个例子，加州大学的旧金山分校，他们做的大数据项目就是通过基因组的分析来找到癌细胞、肿瘤细胞突变的原因，并且来匹配相应的疗法。他们用这样的基于大数据的解决方案，已经开始对一些患者治疗。虽然接受这种治疗方法的患者人数不是太多，因为目前这种治疗方法的价格还是非常昂贵，但是价格是在逐渐下降当中的。即使用大数据的解决方案治疗癌症，我们也是在取得很大的进步。
只是治疗癌症是一个很大的难题，我们可能还要花几十年的时间。但是我确信未来癌症的治疗肯定是要基于大数据系统。
简而言之，大数据应用的普及是一个长期的过程，应该让每一家公司、每一个组织机构都能够用正确的方式来用好数据，这需要花很长的时间。不像智能手机带来的变化，把智能手机卖到人手一台，这个事情就完成了。大数据的普及，也是需要组织结构本身发生很大的变化，还需要很多的教育工作、人才的培养工作，但是这一切都是在稳步推进当中隋雨晴。
问：您怎么看待中国大数据应用状况？针对开发者，Cloudera有哪些计划？
Doug Cutting：从中国的角度来说，从大数据出现一直到今天，中国一直是在大量使用、采用和参与推进大数据的发展。而且在过去十年当中，Hadoop在中国也是一直得到了大力推进，取得了非常大的成功。我们可以看到中国市场和Hadoop之间有一个非常自然的契合和匹配，从数据的角度来说中国可能是世界上最大的单一市场，在中国拥有数据的数量和规模超过了世界上大部分其他的国家，这也就是为什么Hadoop在中国有着非常成功的发展。
中国Hadoop生态圈和其他国家相比有一个不同：就是在中国很多Hadoop用户习惯使用Hadoop的开源版本，而不是购买专业公司支持和帮助。对此，需要花更多的时间对市场进行教育和培育，也就是让人们能够了解到从更加长远的角度来说，在使用这些软件的过程当中如果能够得到有关方面的支持和帮助，会有更好的结果。
就培训而言，Cloudera是一直在推动各种培训的项目。对于一个零起步的开发者来说，学习Hadoop最好的方式不是通过教科书，而是要通过案例来学习，通过案例的需求在具体实施当中、具体实践当中来学，这样的学习效果是更好的。Cloudera有一个Cloudera学术计划，清华大学就是首批合作伙伴，还有其他的大学加入。在这个计划当中，Cloudera是把大数据培训的技能、教材、内容免费提供给大学合作伙伴。另外在亚洲有一个BASE Initiative（大数据分析技能培训计划）的教育项目，对潜在对象进行大数据技能的教育培训，并且招聘其中的一些人到有大数据技能需求的公司来工作。
问：您如何看待知识图谱？
Doug Cutting：在我看来知识图谱、支持工程的方法没有统计学方法那么成功。在八十年代，像知识工程就已经非常流行了，在我还当学生的时候知识工程就很流行。但是深度学习在当今取得的成功，主要依靠的是统计学的方法，也就是基于巨量数据的各种模型的训练，而不是通过知识工程的方式，而且主要是在像图像识别、语音识别以及分类任务的完成之上取得了很大的进展。
当然我也不是说像知识图谱、知识工程的方式在人工智能当中永远不会成功，只是在目前的现状当中不如统计学的方法更加有效。对于深度学习进一步发展的挑战，我认为最大的一个挑战就是深度学习的有用性、适用性、广度到底有多大。目前在一些认识、识别任务的完成当中，深度学习非常有效，比方说在大量的噪音或者是干扰的因素当中进行清晰的识别、分类、标签，做得非常好。但是有很多其他的任务，这样的任务当中对形势进行分析，并且做出决策，并不是完全依靠刚才说到的这种能力。
虽然目前人们对于深度学习能够完成很多其他的任务是非常乐观的，但是我希望这样的乐观不会是一种过度的乐观吕菁。
来源：DOIT网
原文链接：http://www.doit.com.cn/p/283180.html
2、【好文】一文览尽大数据、人工智能、区块链、云计算在金融领域的全景应用

蒸汽机、内燃机、电动机、信息技术等都是对人类经济社会产生广泛且深远影响的革命性技术，在金融科技领域，也有四大通用革命性技术——大数据、人工智能、区块链、云计算。在近日京东金融研究院发布的《2017金融科技报告——行业发展与法律前沿》（以下简称“报告”）中，细数了上述技术在金融领域的创新研究和应用情况。
此文为该报告第二部分，若想从宏观层面较为完整地鸟瞰全球金融科技市场格局与研究热点，点击雷锋网此前报道《金融科技2017报告（一）：鸟瞰全球金融科技市场格局与研究热点》查看。
接下来，就和雷锋网AI金融评论一起分享报告的精华内容吧！学术研究汇总
在学术研究方面，报告通过检索 SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH、ESCI 等数据库，相关文献的发表时间锁定在 2015 年 1 月 1 日至 2017 年 3 月 15 日后发现，总体而言，中国是推进Fintech技术的主要国家之一，中科院、清华大学、武汉大学、浙江大学、北京大学等知名高校的相关文献数量名列前茅。此外，韩国、巴西、日本、英国、美国、德国、意大利、澳大利亚等国研发投入力度也非常可观。

此外，报告还对金融科技专利申请进行分析，并得到以下发现：
1、以大数据及数据分析领域为例，企业专利申请明显多于其他类型主体

2、以大数据及数据分析为例，金融科技专利申请以传统技术企业为主

3、物联网、大数据及数据分析、云服务等较早应用的科技领域专利数量较多，量化模型、区块链等新兴技术领域申请数量较少。这反映出专利申请与技术发展存在一致性，但仍存在滞后性。

大数据
大数据在金融领域的创新影响力巨大，金融创新很大一部分原因在于大数据与金融之间的结合。数据维度越丰富，对用户粗颗粒的画像就会越了解。在金融领域，企业对大数据掌握越全面，所能涉及到的业务也会越丰富。
据了解，与英文类文献中与大数据相关性紧密的高频词中包括云计算、预测分析、数据挖掘、数据分析、商业智能、隐私等。而事实上，大数据技术和云计算技术相伴相生，金融云解决了金融科技服务中许多底层性的技术，并建立客户模型、账户模型等，为金融本身的安全性奠定基础。未来的大数据将摆脱本地存储硬件的限制 , 同时金融大数据又将融合个人行为、历史痕迹及环境信息。对一个高度可控可信的金融云安全体系而言，基础环境安全、风控与审计、数据安全三者缺一不可。大数据领域五大金融创新
大数据征信
在传统央行征信体系之外，还有大比例人群没有征信数据，无法获取相关金融服务。大数据征信是新金融风控服务的关键。目前，央行征信中心依然一枝独秀，个人征信牌照试点已有两年，但始终未获得正式牌照。
大数据风控
底层技术包括大数据和人工智能。只有先积累丰厚的大数据，运用机器学习等人工智能方法进行运算，才能确定用户的风险指数。大数据风控目前已在业界逐步普及，国内市场对于大数据风控的尝试比较积极。
大数据消费金融
与其说消费金融依赖大数据，毋宁说，消费金融依赖基于大数据的用户征信信息。消费贷、工薪贷、学生贷等面向长尾用户的网络信贷的产生，亟需用户的相关信息数据进行信用评分和欺诈风险防控。大数据技术能够通过其开发的风控模型完成这一点。尤其是互联网商业集团通过其电商——社交——支付三大服务，获取用户数据，然后为其金融业务服务。在国内具有代表性的是京东、腾讯和阿里巴巴，国外具有代表性的 Facebook，Apple 及其支付业务 ApplePay。
大数据供应链金融
由互联网供应链平台构建者主导，依据不同中小企业客户风险偏好实施有差别的金融服务。
大数据财富管理
财富管理是传统金融企业的一项金融理财业务，意在为客户提供投顾建议，合理配置资产。但因为技术问题，传统金融机构仅针对少量大额客户展开财富管理服务，未能普及更广泛的长尾客户。陈硕嵩人工智能
在金融领域，人工智能正逐渐深入到大数据征信、贷款、风控、保险、资产配置、财经信息分析等领域。
报告指出，2015 年至今，英文类文献中与人工智能相关性紧密的高频词，包括神经网络、分类、预测、数据挖掘、大数据、机器学习等。人工智能的三种主要技术均需专有类型的数据。机器学习需大量的标签样本数据；模式识别偏重于信号、图像、语音、文字、指纹等非直观数据；人机交互则需要积累大量的用户数据。人工智能与数据的关系非常紧密 , 随着人工智能发展，我们进入到智能数据时代。人工智能在金融领域的应用
智能数据时代中金融业态主要表现为以下三个发展方向。
智能投顾
智能的投资理财机器人，可能改变人们对理财的理解，金融市场由于信息不平等产生的风险，在一定程度上得到规避。有了大量数据输入的人工智能，可以对金融市场的走向进行较为准确的预测，并给出合理的建议。
金融预测与反欺诈
利用机器对数据大规模以及高频率的处理能力，获取用户的征信信息和交易行为信息，判断用户的真实度、还款意愿以及还款能力。
融资授信
在人工智能环境下，通过智能系统判定用户信用程度，甚至还具备自动决策功能，免去人工决定这一最后步骤大宋权相。区块链
区块链是去中心化的分布式账本。当区块链运用到不同场景时，将会给交易各方带来如下影响：一是降低交易成本，去中介化；二是提高交易效率，实现交易结算实时化；三是实现交易流程自动化；四是去中心化存储。
由于区块链是一种极为年轻的技术。因此，总体而言，区块链的文献数量相对大数据和人工智能较少。不过从2015 年至今，发达市场和新兴市场与区块链的相关文献数量呈现上升趋势，可见这些市场的监管机构、研究机构、业界专家正在利用此类科技在金融市场上探讨、开发和应用金融解决方案。区块链在金融领域的运用场景
数字货币
数字货币便利、安全、低交易成本的特点，更适合网络商业行为，很有可能取代物理货币的主流地位。 2017 年初，中国央行推动的基于区块链的数字票据交易平台已测试成功。
支付与结算通过区块链将绕过中转银行，既减少中转费用，还能实时到账。
票据与供应链金融
依靠区块链技术，不再需要独立的第三方角色进行控制和验证，转而可以直接实现点对点的连接，减少人工行为的干涉。2016 年末，京东金融区块链数字票据已顺利完成第一次概念证明。此外，京东金融于 2017 年 3 月宣布推出了基于技术的资产云工厂底层资产管理系统，将区块链技术应用在国内资产证券化领域。
证券发行交易
可实时地记录交易者的身份、交易量等关键信息，有利于证券发行者更快速清晰地了解股权结构，减少暗箱操作、内幕交易的可能性，使得证券交易日和交割日时间间隔大幅缩短，减少交易风险。
客户征信与反欺诈
区块链的技术特性，可改变现有的征信体系，将有不良记录的客户信息储存在区块链中，随时更新客户信息和交易记录，银行能省去“认识你的客户”（KYC）的重复工作，检测异常的客户交易行为，及时发现用户欺诈行为。四大技术交织相容
在AI、云计算、大数据、区块链等技术的推动下，科技触碰到金融真正的核心。而这几种技术之间存在相互依赖、相互促进的关系。
例如，大数据和云计算技术相伴相生，对金融大数据至关重要的是金融云。有分析者打比方说，大数据是矿藏，而金融云是矿井。矿井的安全性、可靠性决定了挖煤的效率和结果。大数据将逐步摆脱存储硬件的限制，对金融云安全体系提出了更高的挑战。
又如，人工智能与大数据是同生同涨的有机整体。人工智能，帮助人自动地感知、认知、分析和预测世界，它在数据的基础上诞生，人工智能的三种主要技术，都需专有的、海量的、精准的、高质量的训练数据；反过来，人工智能又能促进数据的发展，提高数据的收集速度和质量，推动大数据产业的发展。
来源：雷锋网今日头条
原文链接：http://www.toutiao.com/a6452941669611520269/
3、【深度好文】对中国大数据产业梳理研究
这是我看过的对中国大数据产业梳理研究得最靠谱的文章
摘要：大数据”像是一个筐，似乎任何装进去的创业项目都能做到百亿甚至千亿市值的规模。这个被说烂的词到底是什么东西?它是一项技术、一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI、VR上时，也许是时候重新审视大数据的价值了。
“大数据”这个概念大约是从2011年开始火起来的，如果从Apache Hadoop项目的正式启动算起，海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里，创业圈逐渐流行起一种通病，即凡创业必称“大数据”逍遥寻秦记，“大数据”像是一个筐，似乎任何装进去的创业项目都能做到百亿甚至千亿市值的规模。这个被说烂的词到底是什么东西?它是一项技术、一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI、VR上时，也许是时候重新审视大数据的价值了。
在IT领域，一项技术的价值得以验证并实现往往需要走完四个阶段：技术原创、开源、产业化和广泛应用。在这个过程中，新技术的使用从互联网巨头企业蔓延到整个互联网领域，并随着其产业生态的日臻完善，最终应用到更广泛的社会和行业领域。“大数据”也不例外，它经历了底层技术的兴起和发展、产业生态的构建，正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络，窥探“大数据”的全貌，才能理解这项技术的缘起和未来。
技术篇

移动互联网时代，数据量呈现指数级增长，其中文本、音视频等非结构数据的占比已超过85%，未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
从2006年4月第一个Apache Hadoop版本发布至今杨毫，Hadoop作为一项实现海量数据存储、管理和计算的开源技术，已迭代到了v2.7.2稳定版，其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态，包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构：
底层——存储层
现在互联网数据量达到PB级，传统的存储方式已无法满足高效的IO性能和成本要求，Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准，其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面，区别于常用的Tachyon或Ignite，分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范，得到了众多开发者和产业巨头的支持。
区别于传统的关系型数据库，HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成，它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop
2.0的通用资源管理平台。如何与容器技术深度融合，如何提高调度、细粒度管控和多租户支持的能力，是YARN需要进一步解决的问题。另一方面，Hortonworks的Ranger、Cloudera
的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
在搜索引擎时代，数据处理的实时化并不重要，大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天，在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储，上层有很多个组件分别服务多种应用场景，具备“单一平台多种应用”的特点。例如：Spark组件善于实时处理流数据，Impala实现诸如OLAP的确定性数据分析，Solr组件适用于搜索等探索性数据分析，Spark、MapReduce组件可以完成逻辑回归等预测性数据分析，MapReduce组件可以完成数据管道等ETL类任务。其中最耀眼的莫过于Spark了，包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术，Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言hp之严白，为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL，但其问题域比MapReduce、Spark更窄，表达能力受限。Pig采用了脚本语言，相比于Hive SQL具备更好的表达能力。
在结构化数据主导的时代，通常使用原有模型便可以进行分析和处理，而面对如今实时变化的海量非结构化数据，传统模型已无法应对。在此背景下，机器学习技术正慢慢跨出象牙塔，进入越来越多的应用领域，实现自动化的模型构建和数据分析。除了Mahout、MLlib、Oryx等已有项目，最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇

一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国，单纯地对底层技术进行创新显然难出成果。尽管如此，在经济转型升级需求的驱动下，创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展，产业生态已初步成型孙季卿。
(一)产业基础层
如果说数据是未来企业的核心资产，那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标，社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区：大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性，自然吸引了众多专业人才。正基于此，开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包：人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle，是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛，由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体：36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势，快速积累大量专业用户，因此与社区类似，容易向产业链其他环节延伸。
数据交易平台：数据交易平台致力于实现数据资产的最优化配置，推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易，数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求，数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所，在推动政府数据公开和行业数据流通上具有开创性的意义。
(二)IT架构层
开源文化为Hadoop社区和生态带来了蓬勃发展，但也导致生态的复杂化和组件的碎片化、重复化，这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业龙魂噬天决。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件：本领域的企业帮助客户搭建Hadoop基础架构。其中汤慕禹，星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商，对标Cloudera CDH和Hortonworks的HDP，其软件系统对Apache开源社区软件进行了功能增强，推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
数据存储/管理：2013年“棱镜门”后,数据安全被上升到国家战略高度，去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全大数据时代，数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系，统一实施管理混合云、多公有云的安全方案，并利用大数据分析和可视化展示技术，为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务，应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
(三)通用技术层
日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析：大型企业的系统每天会产生海量的日志，这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk，日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化，实现运维监控、安全审计、业务数据分析等功能。
移动端用户行为分析为提升产品用户体验，提高用户转化率、留存率，用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK，实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员，推出了免埋点技术，这一点类似于国外的Heap Analytics。
网站分析：百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为，这些公司也大多提供DMP和互联网广告效果监测服务。
爬虫：网页爬虫是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目，Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术市场上出现了很多爬虫工具，其中八爪鱼的规模和影响力最大，该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控：智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术，为企业用户收集和挖掘散落在互联网中的价值信息，助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销/个性化推荐：以完整的用户标签为基础，精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径，TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像，并可实现用户的精准识别，通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘，利用协同过滤等算法，TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统，呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域，为用户寻找匹配的企业客户。
数据可视化可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库，支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库，简单拖曳即可分析出想要的结果邵春华，为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别：面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台，为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLP：NLP(自然语言处理)是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
(四)行业应用层
每个行业都有其特定的业务逻辑及核心痛点，这些往往不是大数据的通用技术能够解决的。因此，在市场竞争空前激烈的今天，大数据技术在具体行业的场景化应用乃至整体改造，蕴藏着巨大的商业机会。然而受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素，大数据在非互联网行业的应用仍处于初期，未来将加速拓展。
数据化整体解决方案：非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战，百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案，并将随着行业渗透的深入帮助更多的企业完成数据化转型。
电子政务：政府效率的高低关系到各行各业的发展和民生福祉，电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性，电子政务市场进入门槛高，定制性强，服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市：智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息，从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累，是该领域的典型服务商。
金融：大数据技术在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”，提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台，提供针对企业的全息画像，为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐：中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累，抓取全网的娱乐相关信息，提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据，为剧组招募提供精准推荐。
农业：大数据在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差，服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘：我国人才招聘行业缺乏对人才与职位的科学分析，没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像，通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析，实现简历和职位描述的格式化和自动匹配。
医疗卫生：大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台，提高医院效率。
企业转型篇
尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境，只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说，真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单，它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤，这些建议并没有必然的时间先后或逻辑关系，藏在背后的大数据理念，或许更加重要。

改编自：《为数据而生》，周涛，2016
1. 数据全面采集：要求企业采集并存储企业生产经营中的一切数据，形成企业数据资产的理念。
2. 整理数据资源，建立数据标准形成管理：成立数据委员会，建立数据目录和数据标准李斯佳，对数据进行分级分权限的管理，实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台：建设具备存储灾备功能的数据中心，以业务需要为引导，定做一套数据组织和管理的解决方案，硬件方面强调鲁棒性和可扩展性，没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力：培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备：外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大，而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力：企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等，获得的第一手数据，很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享：要充分借助社会的力量，尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据，并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局：通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语
在Gartner的炒作周期曲线上，“大数据”概念已从顶峰滑落到了谷底，产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时，我们发现，大数据产业不仅不会停滞，反而将加速渗透到更多行业的各类场景中去，并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时，大数据的价值才真正落地，然而这条路还很长。
来源：中国电子政务网
原文链接：http://www.e-gov.org.cn/article-164477.html
往期精彩合集
（关注本微信公众号，可免费获得以下大数据播报合集电子版）
大数据播报（第299期~323期）合集
大数据播报（第269期~298期）合集
大数据播报（第239期~268期）合集
大数据播报（第209期~238期）合集
大数据播报（第179期~208期）合集
大数据播报（第149期~178期）合集
大数据播报（第119期~148期）合集
大数据播报（第89期~118期）合集
大数据播报（第59期~88期）合集
大数据播报（第29期~58期）合集
大数据播报（第1期~29期）合集
更早合集1
更早合集2
更早合集3
更早合集4
更多精彩资讯敬请关注本微信公众号：

作者:admin | 分类:全部文章 | 浏览:69 2019 05 01