Return to site

吴军·信息论TAJY-Note-2

--纪念我的四十天得到App-TA(助教)时光

· 知识,信息论,学习

#day19 信噪比

先提炼本讲的观点: 信号与噪声的能量比例称为信噪比。

我们要尽可能保持接收信息渠道的质量,另外也要不断提高自己捕获信息与处理信息的能力。

举个例子, 新浪微博内一定含有太多太多有价值的信息了,不过我们浏览微博10个小时,也未必能搞清楚什么是傅里叶变换。 但如果我们只有20分钟, 我就会推荐你先花10分钟看看万维钢老师在昨天提到的一讲,标题就是傅里叶变换,再花10分钟看看傅里叶变换的维基百科。

信号与噪声是分场合定义的,如果我要研究中国网民最近7天在关注的话题以及社交网络中热点事件的传播研究,那么微博对我来说就是最好的研究实验田。

因为你我都生活在一个“信息爆炸”的时代,我感觉随着移动互联网的兴起会让越来越多有价值的内容像冰山一样沉底。所以我希望每位同学都能通过这门课程的学习,能够越来越在乎自己的注意力、提高自己捕获优质信息并解析的能力。

#延伸阅读#

抓大放小: 阿兰·葛文德在著作《清单革命》中提出好清单的原则就是简单高效。

我打算用一个月的时间列出做一个合格的数据仓库工程师需要坚持的“清单”, 也作为我欢迎未来新同事的礼物。

#金勇分享#

第一模块的内容我整理到了自己的博客, 如果感兴趣的话,同学可以移步查看:

#day20 谈去噪

这一讲的主线是我们要想方法消除噪声。

那么根据噪声的分类, 吴军老师分别列举了几种不同的方法:

引用多个信息源分析;

尝试多个维度进行信号分解;

给我的启示是解决复杂问题时,我们可以先将复杂问题划分成若干个“不那么复杂”的子问题,对应的是“分类讨论”这一重要的数学思想。

#金勇分享#

在得到,平时和我聊得近的就是负责我们App音频算法的工程师── 其貌不扬的外表下难以掩饰他的一颗骚动的心(大家对得到音频播放有什么建议也可以告诉我)。

我会经常向他请教音频的算法处理、音频变换与还原、通讯原理等知识。 反过来,我也会给他分享一些“数学其实很简单呀”、统计、数据挖掘的故事。

这一讲中提到的白噪声(White Noise),恰好是我们这周二聊过的话题:

为什么白天你在街道,明明听不到任何声音,人之间对话要用更大的声音?

与之相对的,晚上也同样听不到任何声音,你会发现说话不需要那么用力。

他告诉我说:“

这是因为我们感知不到的能量把那部分信息带宽占满了。你先想想可见光是400~700纳米左右波长的单色光,如果均匀给你这个波段的几种光,它们两两之间是互补色,混合完了就变成白色光了。 类似的, 你也这可以把这个概念延伸到白噪声当中。

除了知识之外,我还想和大家分享的一个观点是,尽可能和“向上”的同事、同学、朋友在一起。 除了烟酒逛街,还可以在知识之森中结伴同行。

金勇, 2019年6月15日 五点

#day21# 信息传输通道

信息传递需要通道。 也就是信息传播的成本, 好通道对应高成本。

如果传递的信道固定了,能承载的信息量是有个上限的。

文中分别举了电话线的带宽(1至4000Hz)、电磁波(2.4G~2.401G, 步长为0.001G)这些电信领域的介绍,但给我更大启示的则是这讲中吴军老师提到找人带话、提高自己传递信息带宽的例子。

我们可以思考一个问题: 如果你是信使,你是一个优秀的传递信息的人吗? 如果你是君王,你愿意看到怎样的大臣奏本?

#金勇分享#

很多同事(包括志忠和脱不花)都不了解数据仓库的工作具体职责。 这个原因在于我的工作属性是偏底层的, 今天和大家分享一段我和我同事的交流, 关于数据仓库。

(对话背景发生在某次我们的任务失败,导致后面的一系列问题,问题原因来自于其它组产生)

同事A: 好气啊, 这明明不是我们的错。可我觉得所有人都在想这事怪数仓

金勇: 这个想法以前我有过类似的经历。 不过我会想 整个过程里还是有我没做到位的地方。

我们的工作是为了让用户(公司的领导和同事们) 及时地看到准确的数据。

做数据就是一个Pipe (水管工)的工作 大水管接到我们这个复杂的ETL水管组。

我们再过滤好优质水源给用户饮用。

如果用户喝到脏水 是我们提供水的所有人的问题 不要带有“这不是我的错”这样侥幸的心理

这会让你前期的发展一直比较缓慢 你必须得学会从高视角看待这个问题

我们的工作是为了让用户(公司的领导和同事们) 及时地看到准确的数据,不是“少犯错”

----

我平时很少和同事们聊一些八卦或娱乐的内容, 这种有些刻板、Nerd的个性是自己长期以来养成的。

我觉得在工作中,这样的Purity,挺好。

周末愉快

金勇 2019年6月16日 三点

#day22 信息传输TCP/IP

香农第二定律: 信息通道传输率R 小于等于 信道容量C。

#感想:师生关系、夫妻关系#

今天这讲对我最大的感触来自于教育、夫妻(伴侣)关系的思考。

吴军老师曾经在硅谷来信174中提过,人生最重要的投资就是找一个好的配偶。今天我想在此基础上补充: 良师、益友、知心爱人, 这都是我们此生应该拥有的对象。

初春,参加大学同学的婚礼。临行前,我嘱托交情匪浅的新郎:“婚姻就像行船,作为男人就要像个修船匠一样,守护你们的船。 凡事,修补当先。且记且记。”

#延伸阅读# TCP/IP 协议与“三次握手”

全称为 Transmission Control Protocol / Internet Protocol。

它的核心思想:在不可靠的信息通道内,保证数据的可靠传输,同时尽可能提高传输的效率。 TCP中有个有意思的问题是“三次握手”, 为什么不是两次、四次? 经常被用来计算机技术方向的面试题目。

我们可以先思考一个问题, 比如我们在地铁中捡到了一个手机,正当你想交给工作人员时,有三个陌生人围住了你,说手机是他们的。要你快点给他们。

如果你希望通过自己的努力,将手机物归原主, 你会怎么做呢?

TCP首先要克服的一些问题就是, 如何保证要传递的信息所在的信道可靠呢?

限于篇幅, 我不能将三次握手的解释内容完整复制过来, 建议大家可以参考 知乎:

 https://www.zhihu.com/question/24853633 

这个问题下 HioHio的回答。

金勇 2019年6月17日 0点

#day23 组织管理、扁平化

前面的描述可以画出几种不同的管理结构:

i) a->b->c->d .. ->h 其实 只有h是干活的 信息传播时层层损失;

ii) a -> {h1, h2, ... h100} 要么汇报周期变长,要么信道就“炸”了。

之前我在某公司工作的时候还要按指纹打卡, 公司规定是9点30-18点30,结果我发现部门普遍是18点25就开始收拾东西,然后18:30就排队走了。

而互联网公司则进入到另外一个状态,鼓励大家去拼搏去九九六,曰为工作弹性。

我想每家公司都各有各的特点: 人本身就是复杂的生物,而公司则是各种各样的复杂生物的聚集,所以才会有“管理学”“组织行为学”这些研究吧。

#金勇分享#

阿里巴巴公司有这样一句话,叫“让天下没有难做的生意”,再回想起十几年另外一些比阿里巴巴资历老很多的电商公司(如 eBay、卓越),回看本讲中,我想大家就明白为什么它之所以成功了。

同样,我们看到Google的成功是降低了大家获取信息的门槛、Facebook与腾讯则连接了我们地球上三分之一的社会关系。

什么是好的产品,就是能够建立起人与人之间的信任的产品,对应着我们课程中的“互信息”。

互联网提升了信息传播的效率,在带宽上、在速度上。 但同样的,大家也要堤防一个事实,就是“假新闻”问题。

我最近有些焦虑,以至于几乎封闭了所有新闻资讯类的渠道--因为我会马上陷入一个不好的思考怪圈: 他为什么写这个? 背后受什么驱使呢? 我又为什么看到这个? 所讲所写的是事实吗? 还是想让我以为这个是事实呢? ...

... ...

这种被负面信息包裹的状态,希望可以早点出来。

这是今天的笔记, 感谢。

金勇 2019年6月18日 两点

#day24 纠正错误、冗余信息的必要性

本讲的核心在于如何对待必然存在的错误--从发现错误,再到纠正错误。

纠错的代价是要有信息冗余。例如, 重复就是最简单的方式。 当然,为了提高校验的效率还可以专门设一些“校验位”, 文中提到的Hamming Code是这样的经典代表。 在它的维基百科页面中, 有一个检验表, 可以看出检验位与数据位的分布规律,

我们之前讲到信息冗余度的概念,但在这讲中我学习到,有的时候,那些看上去没什么作用的信息,反而提高了信息的容错能力。

#分享#

今天的内容还让我联想到一个我们平时说话时可能会有一个习惯:“呃.... \这个....\那个....然后就是...." 经常说这些话的人,我觉得虽然增加了信息的冗余,不过他们获取更充分的时间组织接下来要说的话,在一定程度上往往就纠正因为说话语速太快而犯错问题。

如果你不希望在某些场合让人看到这样的不必要停滞,那么就应该提前打好草稿,将这些词要么删除、要么换成承上启下的连接词(短句):

"刚刚的概念,展开来说...."

"换句话来解释, 其实呢”

“我打个比方”

这是一些口语化的词,在我们app一些文字中,我发现是容易出现的,我想这是为了照顾我们平时也许在开车、锻炼,为了让大家接收起来更方便,而做的人性化设置。

#延伸阅读#

平时我们在下载一些较大的软件时,会出现一个叫做“md5sum"的信息, 它实际上就是一种文件的数字指纹(digital fingerprint), 是用来验证接收者手上文件的完整性的最常用工作之一。

我们在下载的过程中有一定几率会丢失信息,导致这个文件的MD5哈希值跟着改变。 所以信息提供方给出了这个文件的正确md5sum值用来验证。 这个作用就像是这一讲中,吴军老师提供的抄写圣经的故事。

在这讲之前我们都围绕的是明文信息, 也就是传递与接收方都没有担心过安全性的问题, 下一讲就要过渡到传输时的安全领域了。

这里也做个外延:, 卓克老师的密码学课程会对密码这个话题做更系统的介绍,推荐对密码感兴趣的伙伴们加入学习。

金勇,2019年6月19 两点

#day25 密码、信息安全

保护好自己的信息资产。

说到我们的日常生活,有的人喜欢用一套密码“走遍天下”,自然就给了别人袭击信息资产的漏洞。 更有些大条的人,喜欢用 ”123456“ ”111111“ ”qwerty“ 这种十大简单密码,我是不建议的。

近年来,是有不法分子专门经营”信息黑色产业链“,如之前的”比特币勒索“、”短信炸弹“新闻。我鼓励大家, 通过今天的这讲内容能引起信息安全的保护意识。 建议:

密码经常更换(越长越好)、最好使用二次验证机制。

#金勇分享#

我们在浏览网页时为了方便,经常选择“记住密码”的功能,因此Cookie便渐渐成为了网站标注“你是谁”的指纹。 使用这个Cookie越久,越容易被人利用。

因此,使用的便利性与个人信息的安全性,这二者之间,就势必存在一个鱼与熊掌难两全的问题。

最后一段的思考题”你不想得罪朋友,又怕告诉他真相后他受不了,如何委婉地告诉他一个坏消息?“

我可能会将这个坏消息拆解成若干部分, 比如线索1、线索2… ,然后逐步的将线索分批交给他, 并给出一些提示,让他能自己得出结论,而不是由我直接说出不好的结论。 这也许能避免自己成为那个”倒霉的信使“。

金勇 2019年6月20日 五点

#day26 1G5G通讯史

文稿结尾处总结了1G到5G的发展历史,这里就不重复了。

我不懂通信领域中3G、5G的具体工作原理, 今天主要谈谈自己的感受。

2G代表对我来说意识着短信时代,那个时代100字要分成两条信息发的; 3G以图片与小视频为主,互相聊QQ和发语音成为了可能;4G则让看直播、大视频变成现实。通信技术的发展,使得手机集成了越来越多的功能,几乎所有人,生下来就上了“网”。这20年来, 手机改变了什么?

比如家庭电话☎,现在已经几乎没有了;

比如民用的百元相机📷,除了专业人士与摄影爱好者,平时也很少用到;

比如MP3音乐播放器,比如掌上游戏机(Game Boy),比如北京的交通卡、钱包 … …

我想移动互联网时代让门户网站、博客成为了过去; 让许多人都失去了阅读长文章的能力。

对未来,我的思考是互联网还是会一如既往地提供一些服务,围绕着那些事情:社交、游戏、学习、购买、出行、饮食… 这是人类的本能。

但在追求通讯速度的路上,我想快到头了。 想要打破常规,就需要互联网科技公司推出更强大的智能引擎。 速度·人工智能是我对未来的展望。

作为积极的理性乐观派,让我们期待未来的科技革命吧。

#延伸阅读#

吴军老师近期接受36Kr有篇采访文章,我建议大家搜索去看, 搜索:吴军 慢慢来

金勇

2019年6月21日 一点

#day27 IoT商机

5G和IoT的商机

万物互联时代,联网设备总数提高,要求更大的带宽、更好的电池。这就要求通讯业、半导体行业推出更强大的产品。

在寻找“谁会是最大受益者”时,吴军老师给我们的线索便是“哪些东西,是始终我们绕不开的”。

第一代互联网必须要有大量的用户使用-PC机(客户端)与接受用户请求的终端(服务器), 二者成就了Wintel时代。 为什么不是那些硬件厂商,从市场占有的角度考虑,因为十名用户可能会十种不同的电脑笔记本、打印机,那他们之中有9个要用Windows,9个要用Intel的芯片。

第二代移动互联网时代,我们把对PC机的思考方式换成手机,受益者自然是Android系统背后的Google与ARM(全世界95%智能手机与平板电脑都采用ARM架构)。

所以,谁能在未来提供IoT时代的芯片和操作系统, 谁才是最大受益者。

#分享#

说到IoT,自然联想到无人汽车、智慧物流… 这些概念。 我想的是能节省个人时间的小场景: 收拾杂物、清洁洗衣、日化购买。

但是个人提升和孩子的教育,则是暂时没有什么科技能帮助你走捷径的。

金勇

2019年6月22日 1点

#day28 第二模块总结

模块二的部分告一段落了。 带大家回忆一下这部分的内容,

信息传递过程中伴随着噪声, 二者的比例关系称为信噪比。

可以利用指定产生来源、从多维的视角的手段去除噪声,从而提高我们最终处理信息的效率。

平时我们看到的声音、无线电等信号都是在指定带宽内传播的,带宽(信道)是有限的。 而且根据一些通讯协议的约定,在这过程中增加了必要的冗余信息,增强了信息传递的纠错能力。 所以回顾之前的冗余度的概念,增加适当的冗余,是一种必要的策略。

吴军老师用信息的多级传递类比到企业组织的管理模式,“长链条式”管理与“1v100”的扁平都是不可取的。 对我的启示是,未来我要把对自己和对身边人一样的要求都抽象出来,作为广播的形式传递出去。 但针对每个人的个性不同,作出的单独要求,要通过一对一谈话的形式去表达。 因为目前我的团队还不到五个人,但也要求自己初步的领导能力。 通过学习这门课程,我相信会对提升自己今后的管理能力有所帮助。

最后,我们还要牢记一个理念,保护好个人的信息隐私安全,“密码无小事”。

延伸阅读, 这一模块我打算看的书是以下两本, 帮助自己深入了解网络数据的传递与密码技术:

《图解TCP/IP》

《图解密码技术》

金勇 2019年6月23 6点

#金勇笔记# #day29# #复盘#

“在表达意思时,一定要看听众是谁,用不同的方式去表达。表达的速率,取决于听众接受的能力。采用有针对性的方式,是为了增加你和听众之间的互信息” 这段话,我有着非常深刻的理解。

从5月底开始,我开始写课程笔记, 一开始字数多、形式也想得比较复杂, 这是因为刚开始时我是想把这些内容写给自己,收藏到印象笔记中,并未打算作公开精选用。 这样自然也不必在意别人的感受, 但小宁主编会觉得这种形式是不好的,建议我做全面的修改。

这个过程并不是水到渠成的,在这期间也曾经和小宁发生过争执 -- 最终,我说服了自己,把这些文字作为课程中的一部分,换一种更容易理解的方式去组织文字。

目的是提高阅读者和我的互信息。

#互信息与为师#

师者,传道、授业、解惑也。老师提供了解决问题的师生信道。 人的一生,会遇到很多位老师。 特别地,是那些以终身学习为目标的人来说,在求学之路,会碰到更多的难题,也就更需要破解问题的信道。

知识,变成道理的过程恰恰是自己内化并和不同人交流分享中体现的: 如果是和互信息很高的同背景人交流(如 两个计算机专业大学生,研究某些编程语言的问题),自然可以比较轻松的完成; 但如果是两个背景差异巨大的人, A试图要用A擅长领域的知识,解决B面临的人生困境,那就要费些功夫了。

然而, 只有像第二种情况被广泛验证,才真的能称为“道理”。

这也是我在努力追求的目标。

金勇

2019年6月24日 0点

#day30 交叉验证

今天这一讲的收获是跳出原来的单一模式,教导我们多维视角思考。

在机器学习当中,验证算法是否有效的必要步骤就是进行交叉验证:在训练集得出的模型,引用到测试集当中,根据得出模型效果,从而判定是否能拿去应用。

吴军老师提到了电信诈骗,让我产生了一个思考。如今生活,我们的哪个app关联到我们最多的个人隐私数据呢,我想大多人会想到微信与支付宝。特别是阿里巴巴集团的数据在进行深度整合,支付宝账户具备联通淘宝天猫咸鱼、高德地图、河马饿了么等等等等的能力。所以我想如果是这个账号被盗了,给我带来的损失是巨大的。

虽然有些服务我必须要用,但是我还是不希望所有信息都交给一家公司。因此今年我在开始有意识地分散自己的app数据。

这是我的一点点想法。

2019年6月25 一点

#day31 等价性

卓克老师曾经在他的课程里布置了一道根据符号频率加密的题目,在得到App内搜索“首届密码”就能找到。 因为拉丁字母20几个,容易得到频率表并反推回去,而常用汉字超过三千,所以这种方法并不适用于汉字。 另外一种简单的等价性加密方法叫做”恺撒密码“,是将明文密码都等长的向后移动固定数目, 比如 向后移动四位的场景: a->e , b->f … 这些替换加密都可以用频率法反推出原文。

这一讲中,吴军老师列举了我们识别一个人可以用他的哪些信息:

(一) 内部特征 : 基因,具有唯一性。

(二)外部特征:面部、虹膜、指纹、掌静脉、走路姿势… 总得来说,近似于身份的等价信息(严格意义还只是相关信息)。

(今天这一讲让我想起了以前看过阿汤哥的系列电影《碟中碟》, 不知道看过的同学们最喜欢第几部呢? )

事实上,我们的现实生活中等价信息少之又少,更多的就是相关信息。

我认为,如何在当下环境,用较弱的信息得出较强的结论,像侦探一样,这是一种信息挖掘能力。

#金勇分享#

在我读本科时,我的统计学教材也提到了《红楼梦》续四十回并非高鄂所写,理由有这些:第一、 胡适考证, 高鄂续写的时间是1791到1792,短短两年完成三分之一的篇幅,而且同时他还在求取功名,可信力不足; 第二、全书一百二十回的通用语言风格是金陵(南京)话,分析前后两位作者使用的虚词”之乎者也“的频率,也得出并非高鄂所续的结论。

大家平时写作时,是否也注意了一个问题──自己使用的标点符号与语言习惯是难以改变的,从写字到打字,那些习惯还一直保留至今。 如果想要改变这些习惯,并不是一件容易事。 在大二的时候决定从拼音输入法切换至五笔输入法,当时的考虑就是因为自己总会出现提笔忘字的毛病,但后来我发现五笔用得久了,连自己的表达方式也正式了很多──原因是如果用拼音,会更容易打出一些网络流行语、口语不正式的表达,而用五笔则就难了。

我在留言的时候是在电脑中处理的,所以使用五笔完成。 而平时给大家回复反馈则是在手机用的拼音。

大家可以分析一下是不是像我说的那样。

明后天,吴军老师会再回到我热爱的大数据话题上,作为从业者,我想多写一些文字,希望得到大家的理解。

金勇 2019年6月26日 零点

#day32 大数据-1#

四大特征:数据量大、多维特征、完备性、实时性。

在大数据计算范畴,我在公司负责的数据仓库是属于离线计算的。 一般地,我们内部会将一小时作为分界, 如果是分钟数据或秒数据则说明数据要求高实时性,这类数据交由另一个小组支持。 如果是处理隔天数据,则应该使用”冷数据“由数据仓库完成离线计算。

这里我举一些例子(前三特征),帮助大家加深对大数据的认识。

一、数据量大

目前我们公司的数据量是正常的中小型公司的规模: 千万用户、TB级余; 而Facebook这种十亿级体量,早就进入了PB时代。 小提示(我们可以用人均字节数 * 用户数, 评估一家公司的数据规模)

初中时候,我的第一部MP3是64兆的爱国者,那个时候听歌我只能每周听12首左右──再多就装不下了。 但现在大家使用的手机呢? 64~256, 单位是 GB ,20年,随身设备的体积大了一倍,而空间大了1000倍!

备注: 1024GB = 1TB, 1024TB=1PB, 1024PB=1EB ...

二、多维特征

前几天,有一位心理学背景的同事和我聊用户画像的问题,我以前帮过心理系的同学设计过调查问卷,通过设计问题判定用户的大五人格与DISC分析。 这里简单分享一些和她的交流内容:

用户基础数据(性别、年龄、学历、行业, 等);

用户时间偏好(日期:节假日偏好、工作日偏好;小时偏好;等)

用户设备信息(移动网络、wifi、IP更换、PC与移动;等)

用户行为特征(略)

用户结合商品-兴趣特征(略)

... ...

大家可以思考一下,用户画像工程师会如何使用这些信息呢?

三、完备性

在本科的时候,我的统计课程老师曾经细致地给我们介绍了SAS这款经典软件的多种抽样技巧。 但在工作之后,往往抽样的要求就不高了,很多数据应用层需要投入大量的时间在预处理与清洗的工作(data clean and pre-processing)上。 这是因为现在收集全量的数据变得容易,但同时也容易混入了脏数据。

举例来说,大家知道什么样的一段字符能够表示中国大陆地铁手机号呢? 如果你的答案是“11位数字”那就大错特错了。

这是因为手机号的制定要由三大运营商和网络虚拟运营商指定的,前三位数字是划片使用的,比如159就是移动号段,186就是联通号段。 所以一个合法的手机号就要满足指定的规则。 这里可以使用一种叫做“正则表达式”的处理技巧来清洗。

今天的内容我展开的比较多,通过一些例子帮助大家加深大数据的理解。

金勇

2019年6月27 零点

#day33 大数据-2#

今天聊“大数据思维”的层次,跳出吴军老师文章中的四个层次,我谈两个理解。

一、从【带目的针对收集数据】到【全目的不经意收集数据】

14年我在金融行业,从事风控的数据工作。为了完成快速准确的放款目的,需要收集申请人的资质信息。申请必备信息有性别、年龄、职业、收入、用途、联系人、信用报告等。但是这种P2P的火热持续了没多久,就成为了有心人钻营的温床。

“就像是命题作文一样,申请人会按照你的要求提供一份包装好的材料,足以以假乱真”这是我在过后回顾时候的总结。

但蚂蚁金服不同,它是起家于阿里巴巴公司有了足够强的数据能力之后的产物—能把用户的消费记录与基础信息整合在一起。举例感受:

用户A的收入是每月八千元; 自我描述每月可以接受4000元信用还款额度;有两张信用卡,没有发生逾期。

用户B的芝麻信用分很高,而且支付宝使用的一年期间,虽然不知道其每月固定收入多少,但每月使用蚂蚁花呗超过3000元、曾经单次购买过3万元的电脑,并分期24月,过往还款记录良好。

阿里巴巴在非社交平台,几乎囊括了公众对互联网的全场景覆盖。几年前我还观察过Facebook、闪银这些公司试图使用社交数据进行金融服务,“你身边人的信用好, 你也不会差”。个人觉得实施起来太难。

二、系统思维与相关路径链

“头疼医疼,脚疼医脚”

我认为这句话在大数据思维下就要改改了, 因为它缺乏系统思维。

关于如何培养系统思考能力,我倒是蛮期待得到App以后可以推出系统论的课程。

它与信息论、控制论并称三论。

数据分析师通常要做很多工作是与“归因分析”相关的。比如:

为什么用户数量下降了?

为什么有的新功能用户不喜欢?

等等问题。

优秀的数据分析师会怎样处理并回答,也是我近期在想的。

#金勇分享#

上周刚好看到一篇文章 《Data-As-A-Service Bible: Everything You Wanted To Know About Running DaaS Companies》

和大家分享一个概念,叫做DaaS (数据即服务),与之相对的是SaaS(Software as a Service, 软件即服务) 。

我相信目前中国与美国的数据人才缺口还是巨大的, 目前我知道北京大学在尝试在本科生中开放“数据科学”专业了,也许再过几年, 对大数据、信息挖掘的热度会再上一个水平。

金勇

2019年6月28日 零点

#day34 互联网广告#

核心观点: 搜索广告是因为用户给出了“动机”信息,从而在广告主与资源网页之中,大量消除了不确定性,从而为精准广告投放提供了可能。

我在《信息论》课程的笔记里,提到了电商、金融服务以及数字广告行业中数据与信息的应用。我觉得广告(特别是Google)与移动通讯技术的快速发展对大数据的发展有着巨大的影响。

a.公众对信息的诉求

b.数字流量的几何增长

c.效果广告(搜索引擎.定向DMP.etc)的技术发展

#知识点整理与分享#

2的32次方是65536的平方,约40亿。 如果世界上有40亿网页,我们进行编码就用32位(32比特)足够了。

但是,实际上我们关心的数量远小于这个数,再加上中文语言区分,用12比特。

如果我们向搜索引擎提供出大于12比特的信息,能够很大程度上找到自己感兴趣的。

但如果你给出的搜索信息太大,可能就找不到结果啦。

  • 广告主与策略、计费方式

数字广告一般由广告主投入资本、广告公司设计素材,媒体资源接受不同广告策略选择后,对不同用户不同行为展示准备好的素材( 例如你点开youku无会员的情况下看到45秒广告 )。

CPM: 业内的数字广告按照曝光计费一般是CPM, 即展示给一千人收费多少;

CPA: 按指定后续行为操作, 用户成功完成才结算。 比如百度搜索宝马,在它的一个试乘广告下用户填写了试乘申请是一个价格,最终用户和4S店约车成功是另一个钱。

CPT: 按时段结算, 这个我并不了解,略。

#金勇分享#

以前我在数字广告公司从事数据挖掘工作, 同事推荐给我一本刘鹏的《计算广告》, 我将其加入到了课程书单

书单链接: https://www.douban.com/doulist/115672780/ 

金勇

2019年6月29日

#day35 幸存者偏差

-感慨-

过来人的智慧若能沉淀,能系统组织好文字并写下来的人不多,愿意分享出来方便被人索取更加寥寥,吴军老师的前两专栏《硅谷来信》 《谷歌方法论》我现在还在经常复习、并和我爱人讨论其中的观点。 她说,“这些内容如酒一样,醇美弥香。”

总结: 我觉得偏差来自于“短视”或者“盲视”。 带一顶“统计学家”的思考帽,也许能帮助我们避免一些偏差。

那短视与盲视怎么形成的呢? 如何避免?

文章中的军官,表现出来的是从事某些领域工作太久形成了职业习惯,缺乏交叉思考以至于进入到“灯下黑”区域。 芒格老人经常鼓励年轻人多看书,从书中汲取智慧。 除此之外若有机会接触各行各业的精英,也是个幸事,这也是类似得到大学这种平台的可贵之处。

试想, 什么叫预测准确? 如果我考核这位半仙, 我希望TA能告诉我某只股票每天所有的交易量、各时刻的价格、开收及最高价… 如果只告诉我一个 YES/NO , 而没有更具体的信息和判断依据, 就算连续20天就猜对了,我也不相信TA!

思考:*不要把自己的判断力轻易托付给别人。*

#金勇分享#

《信息论》课程还有一周的时间临期,我明显感受到了自己这一个月的长进,主要表现在: 数学力的精进、中文写作的习惯养成以及给别人解答问题的能力。

《什么是数学》(作者:柯朗父子,父亲是希尔伯特的学生)是我从五月从看的一本书, 我甚是喜欢。 下面谈谈我们与书的话题。 每年,我大概会读30-50本书,深度阅读至少其中的一半。 我发现,很多人开始面临一个难题: 如何发现好书?

  • 相信成名作者: 找到建立起信用交易的作家, 比如村上春树、大前研一、纳西姆.塔勒布、Steven Pinker 、吴军老师…  
  • 相信权威与测评机构:对某一领域的初次尝试,要相信权威与公众评价。  (我会先在豆瓣图书上查看评分和评价)
  • 相信身边的特定人士:如果身边有人正在读,听听他的看法;
  • 相信特定的试读、解读服务:如果这本书在得到App的“每天听本书”产品中存在,那么我就去看看解读文稿:听书团队的交付质量很高,所以我也信任他们对书的还原能力和解读能力。 

几年前,我买书基本上只在Amazon上找高分评价去搜索——但我发现这样会失去很多选择。 有的用户是因为觉得纸质不好或者物流慢了给这本书打1分差评。 这其实是把整个电商体验都发表在了这本书上, 对其有失公允。 我有一次收到一本书,第三章完全印刷反了,我反而觉得这是冥冥之中自有安排,后来出版社联系我要再给我一本新书,我反而觉得手上这本印刷错误的更是宝物。

话题扯得有一点远, 希望每个爱书之人都能找到自己与喜欢的书相遇的方式。

金勇

2019年6月30日 0点

#day36 奥卡姆剃刀#

“如无必要,勿增实体”

这句话让我联系起一个人。

一位计算机编程艺术的大人物:Donald Ervin Knuth。吴军老师在谷歌方法论,第074封信 特别提起过他。

我今天想写的内容都在这里。

#day37 最大熵原理#

这一讲吴军老师简单的介绍了“最大熵原理“, 通过前文掷骰子的例子,大家也能明白它大概讲的什么道理了。

今天我想讨论一个话题,是行事哲学与数学原理:为什么这一讲中不能出现公式?

我特意去查了最大熵原理的背后公式推导,在参考书中《统计学习方法》用了一章介绍。如果说一行公式,让读者就走掉三分之一,若把最大熵相关公式都列在文稿,宝木中阳(吴军老师的转述者)先生会疯掉,95%读者也会走掉。

问题来了,我产生的疑惑是:

作为通识课程,把道理和应用的智慧吸收的过程需要掌握背后原理abc与epsilon吗?懂得这些公式每个字母,我们的生活就一定变好吗?

有一次,我听到一位同事这样的观点,与你分享

我也不知道这个buzzy words 到底是什么玩意,但如果我能知道这个东西对我的生活有什么帮助,告诉我这个抓手,那就是很好的!”

这种拿来主义(实用精神),是种人生智慧。反过来,书本知识懂得再多,依然有可能不知如何处理好自己的问题。就是欠缺了这种智慧。

莫做信息论的赵括。

#沿伸阅读#

《统计学习方法》是机器学习统计方法中口碑不错的一本书,今年春天作者李航博士在原来基础更新了第二版,添加了大量NLP领域内容。我很喜欢,还在学习中。

金勇

2019年7月2日 四点

#day38 麦克斯韦妖与系统开放性#

“麦克斯韦妖”是种假想,对不同速度粒子给出不同位置的安排。 如何区分粒子运动的快慢得有个“测速仪”, 而快慢信息的获取也需要能量。吴军老师从一个物理学角度,向我们介绍了封闭系统中存在的问题。

一个开放的社会系统是动态的、可生长的。 像文章中提到硅谷与深圳这种近30年来人为打造的新地区,到现在还影响着世界。反面的例子也有很多,我联想到了家乡(某四线城市小农村)。上次回乡祭祖时发现当地留守的皆是70、80岁的长辈与5~14岁的孩子。没有劳动力,这个城市就基本没了活力。

对一个企业来说,也存在封闭管理的问题。优秀的公司具备自己改革自己的决心与能力,而一般公司则要借助咨询公司的力量。 不少成功的案例成为故事,故事被传诵久了就成了传奇。 (Intel之于安迪格鲁夫、微软之于纳德拉、英伟达之于黄仁勋)

从社会,到商业组织,最后审视自己。

自从在这门课程连续四十天留言,我发现最后收获的不仅仅是两万字沉淀,还收获到“走出来”需要勇气。

借用冯唐的九字真言“不着急、不害怕、不要脸”。

想想也是,如果一开始“本来也没什么可失去”,那么不就已经是富有的人了么?

金勇

2019年7月3日 0点

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK