“杏彩体育官网”每个人都应该知道的25个大数据术语
发布时间:2024-11-08 03:59:01
如果你初来乍到,大数据看上去很可怕!根据你掌控的基本理论,让我们专心于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带给深刻印象的印象。让我们开始吧:1.算法。“算法”如何与大数据涉及?即使算法是一个标准化术语,但大数据分析使其在当代更加不受注目和风行。
2.分析。年末你可能会接到一份来自信用卡公司寄给的包括了全年所有交易记录的年终报表。如果你有兴趣更进一步分析自己在食物、衣服、娱乐等方面明确花费占比呢?那你乃是在做到“分析”了。
你于是以从一堆原始数据中来吸取经验,以协助自己为来年的消费作出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做到某种程度的锻炼呢?那我们乃是在辩论大数据分析了。大数据分析的实质是利用大量数据来展开推测和讲故事。大数据分析有3种有所不同到的类型,接下来之后之后本话题展开依序辩论。
3.描述性分析。刚如果你告诉他我,去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、只剩的就是杂七杂八的事项,这种乃是描述性分析。
当然你还可以参照更好的细节。4.预测分析。如果你根据过去5年的信用卡历史记录来展开分析,并且区分具备一定的连续性,则你可以低概率预测明年将与过去几年相差无几。
此处必须留意的细节是,这并不是“预测未来”,而是未来可能会再次发生的“概率”。在大数据预测分析中,数据科学家可能会用于类似于机器学习、高级的统计资料过程(后文将对这些术语展开讲解)等先进设备的技术去预测天气、经济变化等。
5.规范分析。延用信用卡交易的案例,你有可能想找到哪方面的开支(级食品、服装、娱乐等)对自己的整体开支产生极大的影响。规范分析创建在预测分析的基础之上,包括了“行动”记录(例如增加食品、服装、娱乐开支),并分析扣除结果来“规定”最佳类别以增加总体开支。你可以尝试将其收敛到大数据,并设想高管们如何通过查阅各种行动的影响来作出数据驱动的决策。
6.批处理。虽然批量数据处理在大型机时代就早就经常出现,但大数据转交它更加多大数据集处置,因此彰显了批处理更好的意义。对于一段时间内搜集到的一组事务,批量数据处理为处置大量数据获取了一种有效地的方法。后文将讲解的Hadoop乃是专心于批量数据处理。
打破批处理的世界:流计算出来用于SparkSQL建构批处理程序。7.Cassandra是由ApacheSoftwareFoundation管理的一款风行的开源数据库管理系统。很多大数据技术都得益于Apache,其中Cassandra的设计想法乃是处置横跨分布式服务器的大量数据。
8.云计算。显而易见云计算早已显得无所不在,所以本文有可能须赘述,但为了文章的完整性还是佐以讲解。云计算的本质是在远程服务器上运营的软件和(/或)数据托管地,并容许从互联网上的任何地方展开采访。
9.集群计算出来。它是一种利用多台服务器的汇聚资源的“集群”来展开计算出来的奇特方式。在理解了更好技术之后,我们有可能还不会辩论节点、集群管理层、负载平衡和并行处理等。10.黑暗数据。
依我看来,这个词限于于那些吓得六神无主的高级管理层们。彻底来说,黑暗数据是指那些被企业搜集和处置但又不用作任何有意义用途的数据,因此叙述它是“黑暗的”,它们有可能总有一天被显露。
它们有可能是社交网络信息流、呼叫中心日志、会议笔记,诸如此类。人们作出了诸多估算,在60-90%的所有企业数据都有可能是“黑暗数据”,但无人确实知悉。
本文来源:杏彩体育官网-www.yaduo888.com