Return to site

数学专业与(大)数据行业

答复一些本科、研究生关于数据与统计的问题

· 数学

引子: 有位得到App用户问我关于从事与统计相关的推荐建议。


之前我用不同的职业title来去考虑不同数据行业的工作特性, 今天我想换一种视角。 
考虑处理问题和平时的交流对象来看待自己的工作。

在考虑做什么之前, 要思考一个问题:  数据从哪里来, 数据要向哪里去。 

* pipe(管道流)自己是属于数据flow的哪一环;
* hot-code, use (自己生产的数据是直接用于客户吗? 是用于公司内部?)

因为我个人更熟悉的数据行业是距离业务数据(企业内生产的产品、用户数据), 所以我按照数据规模分成了下面的三种。

# 小数据、商业分析

数据分析师的一种, 侧重于企业的宏观数据。 例如每月产品的成交、用户激活、注册数量。 向管理层或外部三方audit提交自己的核心数据。 
几乎不会涉及到单个客户的明细数据。 

这类方向一般是要求具有3年+数据分析的工作经验, 擅长BI报告的数据解读, 对公司业务模式有深刻的理解, 并且对各类的基础归因分析信手拈来(自然趋势、季节效应、活动波动)。 

对编程要求并不高, 纯SQL操作就能满足大部分数据提取的任务, 复杂数据可以由上游处理(数据仓库、数据挖掘)

虽然处理的数据平常只用Excel就能解决, 不过因为影响的面和汇报层级较高, 所以在企业中有较高的话语权, 可以视作企业内参谋的决策。而且也由于汇报的需要,只需要重点数据而非全面数据。要求人的能力是归因, 即能对增长、停滞给出解释。 

特点:数据一般是由专业工程师准备好, 商业分析与战略分析像大厨一样需要将配好的食材加工成可口的数据菜肴, 交付到高层。 

成长路径: 初级数据分析师, 商业BI分析师

## 初级数据分析

数据分析对我而言是一个浅者觉其浅, 深者觉其深得无法自拔的四个字。
**浅**是指很多刚毕业的学生可以选择数据分析为初期准备工作,一边工作,一边观望,然后2-3年之后找到自己适合的分支方向去发展。

我虽然从事过一年多的数据分析工作,但不愿意和人谈起数据分析和数据挖掘的区别。
原因是有的不懂”数据分析“的深处的人, 总把这个工作想得容易。
因为在很多时候分析数据需要挖掘的技能, 而挖掘出来的结果还要分析报告的交付。 二者在我看来是一个方向, 也许是有的地方一直以来让两个人做不同的侧生工作,才有了数据分析师和数据挖掘两类职业。 但我则一直相信这是对人才放低门槛的妥协作派, 并不认可。

虽然PPT与数据可视化也固然重要, 但也许在学生阶段不应将主要精力放在PPT和美学研究这上。 我也见过一些自称为商业分析师的人, 他们可能更擅长的是PPT制作,而非分析。 先学会用最简单的图表讲述故事, 简单生动, 直接深刻。 比起花哨而不知所云, 有用的多。

# 中数据、挖掘与爬虫

有小型企业初期是没有足够数据的, 所以有的企业要借助外部“在一定权限内可以”拿到的数据, 比如我们现在有很多企业信息查询的服务, 他们是在工商网拿到企业法人、注册信息。 这就需要专业的爬虫工程师, 基本上要求Python开发和熟悉当下流行的反爬策略。 
(很多网站上用的复杂的验证码,就是对之抗衡的, 最惨的网站莫过于12306)。 

另外就是关于离线建模与统计的, 中数据。 有时几十万、几百万, 可能超过Excel处理范围。 
因此要使用一些Python数据分析或者R类型的处理能力, 图形可视化能力在数据探索阶段经常要用。 (和前面的商业分析不同, 可视化要求不在于美观, 而在于实用) 。 


这类工作处理的数据任务多为阶段性且临时性的。 比如常说的ABtest其中对实验数据的结论分析, 比如设计一些策略需要的模型设计。 
我联系到的一些数据任务都离不开数学建模、统计与概率。 

成长路径: 初级数据分析师, 数据挖掘工程师

# 大数据, 仓库与数据服务

数据仓库建设与维护、用户画像系统是最近两年我从事的工作方向。 因此说起这两部分内容也更有信心一些。  数据仓库比较偏向于开发, 直接维护了企业的所有底层数据(日志清洗、服务数据聚合)和ETL计算。 因此对大数据计算MR-Hive-Spark这一套流程比较熟悉,不同公司会有自己的技术栈。 如果是在学生阶段能有些接触,是非常有必要的。  (之前我也有过两次新人培养的经历,在他们的学校鲜有接触大数据集群的环境)

数据服务:直接和企业的数据业务有关, 比如金融行业要有风控人才;百度是以搜索擅长;头条、抖音起于推荐;美团和滴滴则需要调配动态资源的算法;还有AI在未来:Face++与商汤;微博需要能够舆论控制与社会事件分析... 

就像没有一个人能精通C语言,Java,Python,PHP,Go ... 一样, 我觉得在算法工程师也渐渐变得和**程序员**一样,成为了一个大门类。  所以在学生期就要明确1-2个未来的研究方向。 

特点:
* 大数据, 关注大数据社区生态,对技术有兴趣;
* 算法:要求具备数学与编程融合应用的能力,工作后还要保持科研的态度。

成长路径: 数据开发、数据仓库;  算法实习生, 算法工程师(机器学习工程师,etc)

# 其它

除了上面的描述, 还有一些数据行业的工作, 例如大数据开发、云计算、运维、开源组件开发、DBA ... 

我觉得它们距离业务数据较远,我自己也没有这方面的工作经验, 因此就不着重提及了。

## 关于统计
坦白来说, 在目前国内就业前景来说, 统计专业的 就业预期不如CS(计算机 科学)专业, 主要原因是统计专业的倾向于计量统计,而且在毕业的工作对口上更窄一些,还是以传统的金融与医药企业为主,甚至有的高校把统计专业 的培养定位成了统计局工作者。

我认为国外统计学的应用与互联网联系的更为紧密,因为在很多公司已经将流量实验、用户增长作为主旋律,那么围绕着与实验相关的研究和重要比10年前重视了许多。 "数学科学家“的一类方向就是要求要掌握足够深入的统计才能和设计实验的能力。 (因为多数情况下, 开展实验的成本非常之高,我们希望用更高效的设计方式得到更大价值的回报)

我觉得本科数学+研究生统计,也是不错的组合。 这个组合我认为能适合前面的“小数据”+ “中数据。

# 个人经历简介

2007-2011, 应用数学本科
2011-2914, 数据挖掘硕士
2015: 数据分析
2016-2019: 数据挖掘,数据仓库
 

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK