回到网站

数学专业与(大)数据行业

答复一些本科、研究生关于数据与统计的问题

· 数学

引子: 有位得到App用户问我关于从事与统计相关的推荐建议。

之前我用不同的职业title来去考虑不同数据行业的工作特性, 今天我想换一种视角。
考虑处理问题和平时的交流对象来看待自己的工作。

在考虑做什么之前, 要思考一个问题: 数据从哪里来, 数据要向哪里去。

* pipe(管道流)自己是属于数据flow的哪一环;
* hot-code, use (自己生产的数据是直接用于客户吗? 是用于公司内部?)

因为我个人更熟悉的数据行业是距离业务数据(企业内生产的产品、用户数据), 所以我按照数据规模分成了下面的三种。

小规模静态数据

小数据 重业务

数据分析师, 侧重于企业的宏观数据。 例如每月产品的成交、用户激活、注册数量。

向管理层或外部三方audit提交自己的核心数据。因此这类职业涉及到的数据规模是相对较小的 ── 我经常自己称为Excel级(Excel文件是 1048 576, 100万)。 因为一般来说,对于优秀的分析师不以数据量见长,以业务理解、数据洞察力,提供优秀的运营决策和产品建议是其立足之本。 业内所谓的做表达人 (指每天提供定型表格,然后平时无所事事的人,并不是我这里谈论的)。

职业发展: 初级数据分析师 -> 商业BI分析师 -> 资深分析师

数据分析对我而言是一个浅者觉其浅, 深者觉其深得无法自拔的四个字。 甚至从宏观语义来看,数据挖掘是数据分析的子集,这也是一种不能说为错的表述。

是指很多刚毕业的学生可以选择数据分析为初期入门的跳板工作:一边工作,一边学习,然后2-3年之后找到自己适合的分支方向去发展,以我来说是选择的数据分析与政策研究方向,之后2年毅然的选择了大数据领域。

数据分析在有的人眼中狭义定义为Excel与PPT的使用者, 其实有些片面,虽然对于Excel与PPT的要求,这类岗位是比较高的: Excel强调核心数据的交付与组织过程,PPT则是强调数据报告的发表与说服别人的能力。

虽然PPT与数据可视化也固然重要, 但也许在学生阶段不应将主要精力放在PPT和美学研究这上。 我也见过一些自称为商业分析师的人, 他们可能更擅长的是PPT制作,而非分析 ──优秀的PPT未必可以打动运营产品人员,而优秀的数据分析师是以PPT为手段,结合自己对数据的理解去说服别人,以数据作为驱动。

在头三年,要变成优秀的数据分析师,一定要重视自己 给出一个 data story 的能力。

数据分析到进阶方向是面向运营的决策管理者,或者是BI平台资深分析师,一般是要求具有3年+数据分析的工作经验, 擅长BI报告的数据解读, 对公司业务模式有深刻的理解, 并且对各类的基础归因分析信手拈来(自然趋势、季节效应、活动波动),精耕于垂直行业,了解客户。

对编程要求并不高, 一般来说,使用DSL(SQL)就能满足大部分数据提取的任务, 复杂数据可以由上游处理(数据仓库、数据挖掘),平时可以简单掌握一些Python的第三方强大类库能提升不少效率。

虽然处理的数据平常只用Excel就能解决, 不过因为影响的面和汇报层级较高, 所以在企业中有较高的话语权, 可以视作企业参谋。而且也由于汇报的需要,只需要重点数据而非全面数据。要求人的能力是归因, 即能对增长、停滞给出解释。

特点:数据一般是由专业工程师准备好, 商业分析与战略分析像大厨一样需要将配好的食材加工成可口的数据菜肴, 交付到高层。

中等数据规模:数据挖掘,算法

首先谈一类职业, 数据采集工程师(爬虫工程师)。

有小型企业初期是没有足够数据的, 所以有的企业要借助外部“在一定权限内可以”拿到的数据, 比如我们现在有很多企业信息查询的服务, 他们是在工商网拿到企业法人、注册信息。 这就需要专业的爬虫工程师, 基本上要求Python开发和熟悉当下流行的反爬策略。
(很多网站上用的复杂的验证码,就是对之抗衡的, 最惨的网站莫过于12306)。

他们采集的结果数据要持久化到关系型数据库:MySQL, MongoDB, 供数据下游-算法或数据分析师去使用。

再谈一谈数据挖掘算法方法的工作, 一般JD里要求应聘者具备一些机器学习的能力,掌握分类、预测、聚类的模型, 所以和分析师的要求不同,要具备统计建模+编程实现的能力。

而且这类工作处理的数据任务多为阶段性且临时性的,我联系到的一些数据任务都离不开数学建模、统计与概率, 按服务要求分为线上模型与离线模型。

比如常说的ABtest其中对实验数据的结论分析,它是一种离线沉淀的统计分析;

比如设计一些策略对用户行为进行弹窗召回或刺激, 在已有的200种行为链条中如何确定哪些行为是核心行为,前期也要经过模型确认、设计、建模分析。

后面是否要求将模型部署到线上做成服务, 则是要求不一的,有的公司会把这类职位都放在算法部门, 有的公司则都是统一为数据部门。

成长路径: 初级数据分析师 -> 爬虫 、 数据挖掘工程师

# 大数据, 仓库与数据服务

数据仓库建设与维护、用户画像系统是最近两年我从事的工作方向。 因此说起这两部分内容也更有信心一些。 数据仓库比较偏向于开发, 直接维护了企业的所有底层数据(日志清洗、服务数据聚合)和ETL计算。 因此对大数据计算MR-Hive-Spark这一套流程比较熟悉,不同公司会有自己的技术栈。 如果是在学生阶段能有些接触,是非常有必要的。 (之前我也有过两次新人培养的经历,在他们的学校鲜有接触大数据集群的环境)

数据服务:直接和企业的数据业务有关, 比如金融行业要有风控人才;百度是以搜索擅长;头条、抖音起于推荐;美团和滴滴则需要调配动态资源的算法;还有AI在未来:Face++与商汤;微博需要能够舆论控制与社会事件分析...

就像没有一个人能精通C语言,Java,Python,PHP,Go ... 一样, 我觉得在算法工程师也渐渐变得和**程序员**一样,成为了一个大门类。 所以在学生期就要明确1-2个未来的研究方向。

特点:
* 大数据, 关注大数据社区生态,对技术有兴趣;
* 算法:要求具备数学与编程融合应用的能力,工作后还要保持科研的态度。

成长路径: 数据开发、数据仓库; 算法实习生, 算法工程师(机器学习工程师,etc)

# 其它

除了上面的描述, 还有一些数据行业的工作, 例如大数据开发、云计算、运维、开源组件开发、DBA ...

我觉得它们距离业务数据较远,我自己也没有这方面的工作经验, 因此就不着重提及了。

## 关于统计
坦白来说, 在目前国内就业前景来说, 统计专业的 就业预期不如CS(计算机 科学)专业, 主要原因是统计专业的倾向于计量统计,而且在毕业的工作对口上更窄一些,还是以传统的金融与医药企业为主,甚至有的高校把统计专业 的培养定位成了统计局工作者。

我认为国外统计学的应用与互联网联系的更为紧密,因为在很多公司已经将流量实验、用户增长作为主旋律,那么围绕着与实验相关的研究和重要比10年前重视了许多。 "数学科学家“的一类方向就是要求要掌握足够深入的统计才能和设计实验的能力。 (因为多数情况下, 开展实验的成本非常之高,我们希望用更高效的设计方式得到更大价值的回报)

我觉得本科数学+研究生统计,也是不错的组合。 这个组合我认为能适合前面的“小数据”+ “中数据。

# 个人经历简介

2007-2011, 应用数学本科
2011-2914, 数据挖掘硕士
2015: 数据分析
2016-2019: 数据挖掘,数据仓库

所有文章
×

快要完成了!

我们刚刚发给你了一封邮件。 请点击邮件中的链接确认你的订阅。

好的