在大数据的世界里,您可能会经常听到两个词语:数据科学(Data Science)和数据分析(Data Analytics)。它们虽然从字面上有些相似,但是在大数据的背景下它们强调的是不同的能力和技能方面。下面,我将从职业决策与规划的角度,和您讨论两者之间的差异。
一、知识储备
无论是数据分析还是数据科学领域,都正在变得更加丰富、更加专业化。因此,如果您想进入这两种职业领域中的任何一种,都需要做好充分的准备,以满足各项实际工作的需求。其中:
数据分析
数据分析领域的相关工作,往往需要事先对RDBMS(关系数据库管理系统,Relational Database Management System)和操作数据结构模式(Structure Schema)的SQL、以及查询开发等方面有所了解。同时,您也需要具备使用R或Python语言,进行统计编程的相关知识。此外,机器学习(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定义算法的开发、以及围绕着信息收集与存储的数据管理知识,也会让您达到事半功倍的效果。简而言之,您需要拥有IT、计算机科学、数学、以及统计学的相关应用知识与技能。
数据科学
数据科学家往往具有计算机科学、信息技术、应用数学或统计学的教育背景。这些核心知识可以为您开展提供、收集、组织、处理和建模业务数据,做好准备。同时,您也可以了解并掌握有关数据可视化、基于API的数据收集与准备等方面的专业知识。这些对于您开展探索性数据分析,遵循和建立模型,以及对模型进行定制化设计与测试等工作,都十分有益。此外,您在基于AI的预测性建模时,前面提到的ML和AI领域的相关技能也总归是技不压身的。
2. 工作角色和职责
无论是数据分析师还是数据科学家,根据专业水平和企业性质的差异,他们的日常角色和工作职能也会有所不同。主要体现在:
数据分析
数据分析师往往主要聚焦于分析、可视化、以及挖掘那些特定于业务的数据。其角色职能包括:
清理、处理、验证、以及例证(exemplify)数据的完整性对大型数据集进行探索性数据分析实施ETL(抽取extract、转换transform、加载load)管道,并进行数据挖掘使用逻辑回归、KNN(K最邻近,K-NearestNeighbor分类算法)、随机森林、以及决策树,进行统计分析在编写自动化代码的同时,构建和管理机器学习(ML)库使用ML工具和算法获得新的数据洞见识别数据模型,进而做出明智的、以数据为支持的预测数据科学
数据科学主要涉及到从业务的上下文数据中,获得洞见并得出推论。其角色职能包括:
收集和解释数据识别数据集中的相关模式执行基于SQL的数据查询和子查询使用SQL、Python、SAS(统计分析软件)等RDBMS工具去查询数据熟练掌握各种预测性、规范性、描述性和诊断性的分析工具掌握Tableau和IBM Cognos Analytics等可视化工具的使用3. 基本技能组合
由于这两个角色都属于专业领域,因此它们需要特定的技能集,才能胜任日常的基本工作。具体而言:
数据分析
除了具有问题解决能力的中级统计(intermediate statistics)知识和高级分析技能外,数据分析师的技能还包括:
能够通过Microsoft Excel和SQL数据库,对数据进行切片和切块运用商业智能工具生成相关报告通过运用Python、R和SAS等工具,来管理、操作和使用数据集相对于IT工程经验,数据分析师更需要掌握学习统计、数据库管理、数据建模、以及预测分析等技能。数据科学
作为数据科学家,您除了需要精通数学、高级统计学、预测性建模、以及机器学习之外,还需要掌握如下领域的软件知识:
Hadoop和Spark针对大数据工具的专业知识SQL、NoSQL和PostgreSQL数据库方面的专业知识了解数据可视化工具和诸如Scala和Python之类的语言4. 工具谱
常言道:“工欲善其事,必先利其器。”好的工具无论是对于数据分析,还是数据科学都是至关重要。为了便于下载和选用,我将当前市场上的工具,有针对性地进行了分类:
数据分析数据可视化类:Splunk、QlikView、Power BI、以及TableauETL类:Talend大数据处理类:Spark和RapidMiner数据分析类:Microsoft Excel、R、以及Python数据科学应用数据科学类:SAS、KNIME、RapidMiner、PowerBI、以及DataRobotETL类:Apache Kafka大数据处理类:Apache Hadoop、Spark数据可视化类:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics数据分析类:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS编程类:R、Julia、以及Python编程库类:可用于针对基于Python数据建模的TensorFlow5. 职业机会
有了前面的信息,您一定想知道在企业中,会有哪些适合数据分析和数据科学领域的热门职业可供选择呢?
数据分析商业智能分析师数据分析师定量分析师数据分析顾问运营分析师营销分析师项目经理IT系统分析师运输物流专家数据科学数据分析师数据工程师数据库管理员机器学习工程师数据科学家数据架构师统计员业务分析师数据和分析经理小结
根据上述比较,我们不难发现企业对于数据科学家本身、以及技能上的要求,要比对普通数据分析师的要求高出一些。不过,在职场上,人们通常会以数据分析师的身份开始他们的职业生涯,然后再逐渐转向数据科学领域。对于初学者而言,您也可以从数据架构、以及数据工程的相关职位开始,不断打磨和历练自己,最终成为该领域的专家。