Return to site

吴军·信息论TAJY-Note-1

--纪念我的四十天得到App-TA(助教)时光

· 知识,信息论,学习

风暴降生丹妮莉丝

安达尔人、罗伊纳人及先民的女王

七国统治者兼全境守护

大草海的卡丽熙

不焚者

镣铐破碎者

弥撒 弥林的女王

 

向你致敬。

#Day1 信息为什么重要? 1比特的背后价值?

#吴军信息论# #金勇笔记# #day1#

- 不要重视钱而轻视信息。

- 不要重视钱而轻视信息。

- 不要重视钱, 而轻视信息!

- 善用信息和善用金钱一样重要, 在这门课程里, 甚至可以认为善用信用比善用金钱还重要。 这是因为**很少信息的背后,可能包含着改变成千上万人命运的力量。** 为了证明自己的观点, 吴军老师举了三个例子,其中的“诺曼底登陆2选1”、“纸上谈兵的赵括”是很多人都了解的。

## #吴军信息论# #金勇笔记# #知识解读#

对 **“如果一种情况发生的可能性大,另一种发生的可能性小,所需要的信息就不到1比特。比如说,一种情况出现的概率是1/3,另一种是2/3,这种情况下消除不确定性的信息量则降低到0.9比特。”** 的解释

在二选择一的场景下,假设第一选择发生的概率是p (p介于0~100%),那么根据信息量(所需比特)公式定义为 log(p) + log(1-p) = log [p*(1-p)], 因为log函数是单调递增的, 所以 p(1-p)取最大值的时候,信息量(比特)也最大, 即 p = 50%时最大。 那么当p往两边跑的时候,这个信息量就下降了。

(大家可以想象一条抛物线, 在中点 p = 0.5的地方是最高点)

对 **“我们知道1比特信息是非常少的,是一个计算机字节的1/8,一个像素的1/24。”** 的解释

- 计算机是二进制的, 一个字节(1byte, 1B)由八位0或1组成的数串组成, 例如 01011010 , 其中的每一位叫做 比特(1bit, 1B=8bit).

- 而一个像素对应的比特信息, 需要看是什么模式了, 有以下几种常见模式:

- 如果是灰度模式(黑白照片)1像素就是1byte;

- 如果是RGB模式, 1像素则要用(R,G,B) 三个byte表示;

- 如果是CMYK模式,1像素则要用(C,M,Y, K) 四个byte表示;

吴军老师在文中提到的1比特是一个像素的 1/24, 是指RGB模式下的场景。

## #吴军信息论# #金勇笔记# #延伸阅读#

#关于Peter_Norvig

- 他是全世界人工智能领域的殿堂级人物,人工智能教科书的作者, Google研究院的“火车头组”之一。

- 我无意之中曾经看过他2016年Berkely毕业生典礼上的演讲[You Can Always Get What You Want — But Not What You Need], 对我产生了很大的启示。 为了方便我已经上传到B站, 有兴趣的同学在Bilibili视频网站, 搜索Norvig就能看到了。

## #吴军信息论# #金勇笔记# #个人收获#:

- 大家好, 我是金勇。 既是得到的普通员工,又是吴军老师的粉丝。 作为工程师,我会在未来的一个月常驻知识城邦, 和大家一起学习吴军老师在得到App的第四门大课: 《信息论》 (继<硅谷来信> <谷歌方法论><吴军-科技史纲60讲>)。

谈谈我的过往故事。 在2016年, 我曾经在两个小型互联网公司的Offer中犹豫不决,它们除了商业模式上, 在很多地方都很相似:年轻、朝气、重视数据但缺少人才,面临着二选一的左右选择。 因为缺少足够的信息和判断依据,我最后相信了直觉,选择了A公司, 但是入职不久之后发现这家公司并不是想原来自己想象的那样,我断言它的商业模式不可持续且没有新的变革基因。 于是在半年之后, 我离开了A再次去B求职, 并在B公司完成了自己的社会新人的转型。三年之后的今天,当初的A公司已经黯然消沉了,而B公司则已经成为了互联网垂直领域的TOP 3。

这就是本讲结尾处, ”信息的损失,偏离越多损失越大“。

如何避免这种情况(或者说降低这种损失)?

得到大学的”多元思维模型“ 、2018年罗老师《知识就是力量》、罗辑思维专栏738期”怎么处理棘手问题“-开个内心私董会、”思考帽“工具 …… 20秒内我就想到了这些相同思维方式的再组织, 它们的核是一样的, 那就是

换个角度重新看问题。

#Day2 精炼的, 开创先河的,永垂不朽的

#吴军信息论# #金勇笔记# #day2#

- 一个人在某领域的贡献, 取决于你给这个领域带来的信息价值(后面会提到, 这就是系统内熵的增益)。 你的贡献往往是基于你交付的作品所决定,它们可以非常简洁──只有几页纸,却能影响后来之芸芸,从而闻名于世。

- 信息是宇宙本身固有的属性, 大到宇宙万物起源,小到我们体内无数个细胞之间是如何沟通的。

## #吴军信息论# #金勇笔记# #个人收获#

对我来说, 这一讲最大的收获是了解到了G蛋白这种奇妙的生命物质。

小宁主编以为我是学计算机的, 直到我和他讲过自己是生物科学的硕士,他当时惊讶的表情,都对不起“大望路余文乐”的引号了。 在研究生期间,我发现自己更感兴趣的还是CS(计算机科学),于是导师商量后就转向了数据挖掘。业余时间, 我会收集一些和生命物质的有关资料(我年轻时候化学成绩不错, 高中时代获得过北京比赛的名次)。

这一讲再次提到大爆炸理论,我看到这里的时候在内心不禁发出惊呼: 这帮家伙,「138亿年」!

而这个事情的起因却是起初的天线噪音。

吴军老师又一次强调,一个人, 提出问题要比解决问题还要重要。 因为他可能是开辟未来的人,而解决问题的人则是将未来实现的人。

我未来将会把自己的工作重心从解决问题转向到提出问题, 从大数据工程师回归到数据分析师。

用自己扎实的数学、统计功底和经典机器学习理论,去挖掘我们千万用户中那些有价值的信息。

我的未来半年目标(OKr)之一, 是勾勒出得到App的价值用户的成长路径, 和我们的运营同学实现用户增长(和现在翻番)。

一起学习的你, 会有怎样的想法?

非常欢迎你们可以在知识城邦与我交流!

## #吴军信息论# #金勇笔记# #知识解读#

这一讲我着重推荐大家去了解一些和生命科学相关的知识, G蛋白和GPCRs。说得夸张一点, 这些物质和我们为什么与人相爱,又为什么对人抱有恨意有关。

在高中生物课程中我们学过三磷酸腺苷ATP和二磷酸腺苷ADP 。如果忘记了也没关系, 大家额外看看《王立铭-生命科学50讲》**第08讲能量货币ATP** 即可。

提到ATP的原因是首字母A表示腺苷, 而这里首字母G就是鸟苷。

* G蛋白

(G Protein)

吴军老师这里提到的G蛋白的全称是鸟苷酸结合蛋白, 它是由单磷酸鸟苷(GMP) + 结合域(三个亚基α、β、γ组成)。 激活状态下的G蛋白可以进一步和其它酶结合,从而使酶被激活产生作用,触发后续的信息传递。

* G蛋白偶联受体

(GPCRs)

一大类膜蛋白受体的统称, 这些”受体家族“的特点就是都有G蛋白结合位点。 说白了,它们是受体,只能与特定配体产生反应。例如: 费洛蒙, 荷尔蒙, 神经递质, 趋化因子。

在维基百科中查到的信息是大约40%现代药物都以GPCRs作为靶点。

讲到这里, 你有没有一种大繁至简的感觉呢?

我想说的是,我身边有的人很抵触看到化学符号、任何超过三个字母的化学式在他面前都如天书一样。

我希望你不要被一连串吓唬人的字母吓到。 任何复杂的化学物质都有其组合方式,我们就去看组合单元是什么。 而且, 说到底不都是你熟悉的C H O N P 这几种常见的有机元素么? 了解它们,进一步理解我们之所以为我们, 去解码自己, 不是一件很浪漫的事儿?

## #吴军信息论# #金勇笔记# #延伸阅读#

* 沃森和克里克的论文地址: https://profiles.nlm.nih.gov/ps/access/SCBCDM.pdf

下面一段话是来自原Paper的倒数2个段落

```

We have therefore no doubt that the structures of poly-Gamma-methyl-L-glutamate is based on a helix of eighteen residues in five turns and 27A., or a helix which approximates to this very closely. As the structure proposed by Pauling and Corey satisfies these conditions and is also stereochemically very satisfactory, it seems to us highly probable that it is correct.

We should like to thank Dr.Bamford and his colleagues for allowing us to quote their experimental results in advance of publication, and Sir Lawrence Bragg and Dr.M.Perutz for the stimuhus which their interest in the work has provided.

```

看完之后, 再回到吴军老师的文稿, 这段描述彻底的印在我的脑子里了。

我鼓励大家在学习之后, 如果哪些内容是感兴趣、有价值的,你一定要去做一个事情: 跳出音频,回归文字。

#Day3 大数据思维

#吴军信息论# #金勇笔记# #day3#

这一讲介绍了大数据思维的四类模式, 以及数据驱动的方法在几种商业领域应用的例子。

我是得到App的”数据驱动派”——坚定不移地相信,如果说存在问题,那一定是数据问题; 如果说不存在问题,那只是没有人提出有问题的数据。

关于数据驱动或者数据洞察(data insight)其实我能联想到更多的场景和过往工作故事, 不过回到本文,我建议大家要去结合”单纯问题“、”复杂问题”的角度去思考。

我的理解是对于单纯问题来说, 我们面临的挑战是坚持下去, 只要做, 努力做就好了; 但对于更复杂的“两难问题” (比如说面临两种均等概率的选择), 我们就要承担选择一而放弃二的后果了; 更复杂的场景,是当我们站在原点,而有360度无死角时, 你要选择哪个方向, 那将是极致复杂的问题了。

## #吴军信息论# #金勇笔记# #个人收获#

终于到了第三讲, 大数据。 比起前一篇的物理学和生物学知识,我想这一篇内容大家更熟悉, 更亲切。

就第二类应用所举的搜索例子, 我想到一个之前我也参与过的话题: 到底Google好还是百度好的问题, 或者说到底百度好还是360搜索好用的问题? 经常看有人贴出在Google搜索一个技术名词, 而在百度搜索相同的技术名词,在后者要找好几页都发现不了真正有价值的网页。 从而发出Google好于百度的判断。

听完这一讲, 我的答案是你要学会做什么事情利用最好的工具, 不要被单纯的片面结果蒙蔽了双眼。(在我年轻的时候,经常以自己不用某工具为荣, 仿佛是因为选择了某种工具,而就比别人高了1厘米)

最近我家的孩子面临幼升小的问题,这个时候我有必要去了解一些别人对潜在学校的评论。那这种信息的网页入口, 我就不得不去借助百度到达了。

而当我想去搜索 贾里尼克 这个人的资料时, 我则会再回Google, 因为我相信这个人是世界级的知名人物, 他成名于美国,使用英语, 我自然是相信关于他的英文信息多于他的中文信息了。

所以我们在使用工具的时候, 牢记一句老话:

**君子性非异也,善假于物也。**

你我共勉。

## #吴军信息论# #金勇笔记# #知识解读#

提到语音识别,大家会想到语音输入法、Siri-Echo、科大讯飞输入法等。

我所了解的内容也不多,我在这里给大家简单介绍一下 “N-gram model”中最简单的bigram model(二元语法模型), 你可以先看这句话:

“你今天休息吗?” 它的bigram依次为

你今 今天 天休 休息 息吗 ?

这个语言模型的思考便是来自著名的Markov Model (马尔可夫模型), 下一个字出现的概率和它的上一个(或者多个)有关,而不取决于这个字前面的所有字。

从上世纪80年代开始, 这种技术就广泛应用于文本压缩, 拼写检查(大家使用过Word软件,想必对红色波浪线有所体会),输入法联想, 搜索建议,等等。

对于NLP(自然语言处理),我几乎没有做过的复杂项目, 还停留于简单的分词、文档相似、关键字。

我身边的算法同事曾经做过关于LDA的分享, 我还在努力掌握中。

## #吴军信息论# #金勇笔记# #延伸阅读#

这讲, 我希望大家可以自己去寻找一些贾里尼克教授(Frederick Jelinek)的信息,在吴军老师的发表作品里,他不止一次提到这位老先生对他的个人影响以及对世界AI领域的影响。

我们现在所使用的Siri、语音输入法等等, 但凡是和智能有关的,可以分成两类:

1) 用户说话, 你的服务解决问题 ( I want to know … )

2) 用户不说话, 你的服务要解决的问题 (Do it for me…)

贾里尼克教授便是解决第一类问题的”祖师爷“。 他有句著名的”段子“在美国学术界盛传局已久:

每当我解雇掉一位语言学家,我的语音识别系统准确就上来了一点(”Every time I fire a linguist, the performance of the speech recognizer goes up“.)

关于他的伟大,我非常非常推荐你也可以去了解一下, 哪怕只是看一看他的生平简介和照片,也无疑会对你的工作有所帮助。

另外, 推荐你可以去听《硅谷来信》的《第264封信 ·一位输在起跑线上的精神导师》。

祝你今天愉快!

#Day4 欢迎进入比特世界

#金勇笔记# #day4#

前面三条笔记经过了一天的”洗礼“之后, 大家给了我很多的反馈, 我很感谢。

格式和长度在今后会做些调整,个人经历及延伸阅读部分将会减小篇幅。

今天给大家分享一段我和小宁主编昨晚的对话>>

小宁:啥叫比特啊?

金勇:比特就是当你面临二选一的时候,两个可能性都一样的时候,你的选择成本呀。 二选一要用一比特,四选一就要两比特呀。

小宁:四选一我知道了,吴老师说的32选一,我在心里算了下,确实需要问5次。但是有没有办法只问4次就得出答案?

金勇:没有办法的。 这可以用归纳法或者二叉树去证明,就是5次询问,5比特信息。

小宁:你这个树形结构、归纳法啥的,我看不懂,但我知道你的意思是说至少也要问5次从数学上可以证明。那这个简单的32选一的问题怎么套用吴老师给出的公式呢?

金勇:恩, 如果说N种事情等可能,所要用的比特数就是 log以2为底的N。

小宁:哇,那这么算来,log以2为底32的对数,刚好是5,也就是5比特,这是巧合吗?信息论可以直接告诉我们最简单的答案啊?

金勇:这不是巧合,你先记住今天吴老师给出的抛物线图,知道0.5,也就是一半对一半是错,需要的信息量最大,结合下一讲的内容,我会告诉你为什么不是巧合了。

(之前我在带娃吃火锅的某个周六,我其实就是这样被小宁主编引上的这条”贼船“)

其实我这段对话既有故意的设计,也有我的深意。

1.如果这件事情我真的懂了,我给小宁解释起来是应该是比较轻松的;

2.有件事情在你的心理,一直没当回事,但你不经意的点拨,却会对某些人产生重大的影响。

#金勇笔记# #知识解读

结构化票据 (Structured Notes , Structured Product)

这是一个我今天才知道的金融学术语, 对我来说非常陌生。 但我发现它的组成部分我能看明白:

通常由两部分组成:

- 第一部分是固定收益产品, 比如债券(Debt);

- 另一部分是金融衍生品,比如期权(Call&Put);

所以这个产品也是一种投资组合的设计, 而且据我看到的文章显示,这种金融产品其实就是”过度设计“的金融产物。 我希望你在投资的时候不要盲从,像芒格一样──做个笨人,不投自己不懂的领域。不知道你对”上帝喜欢笨人“这个标题还有没有印象,如果没有印象,去搜索看看?

这里再提个小建议,我们组的算法同事其实为了让大家更准确的搜索到感兴趣、全信息的搜索,做了大量的无名工作。 得到app其实今年是个转型之年,除了作为大家的课堂,她还可以是一处”知识引擎“,请你善加利用。

#金勇笔记# #延伸阅读

延伸一, 关于单位公制

我对世界上通用的物理量公制有些好奇,有个网站介绍: http://www.us-metric.org/commonly-used-metric-system-units-symbols-and-prefixes/

我想到一个有意思的问题,除了比特这个单位,还有哪些物理量的计算涉及到对数运算?

延伸二, 有同学和我要香农论文《通讯中的数学原理》的地址

http://math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

#金勇笔记# #前期回顾

问题:有同学问第一讲中的”三比特信息“是什么意思?

回答: 三个故事,每个故事都用归到一比特的信息,所以最后是三个故事三比特。

问题: 请解释”如果一种情况发生的可能性大,另一种发生的可能性小,所需要的信息就不到1比特”

回答: 如果一种情况发生的概率是p,那么另一种情况发生的概率是 1-p, 此时所要消耗的比特大小是:

-p * Log p - (1-p) * Log (1-p)

(空一行便于查看)

这个函数中p的范围是0至1, 它的最高点就是对应于 p=0.5, 如果p取0.01, 结果就是0.08 比特

问题:此时面对着一种情况0.01的概率,而另一种情况是0.99,那我消除了多少不确定性?

回答: 在信息论的后期会提到熵的计算公式, 还有熵增(entropy gain)的概念。 所谓的消除不确定性,是指当我获取了这个新知后给整个系统的熵是否带来了更大的熵增。

在这里, 一种情况特别极端(99%)另一种1%,如果这种现象为真,说明我接下来要考虑的很大概率上就是要去分析这99%了, 它给我带来的有“新知”的收获是很小的。

打个比方,你在上高中时来了一个同桌,他和你的所有知识体系有99%是高重合的,只有1%不一样。那这个知道你要从他身上学习到的新知+他从你身上学习就不会太多。 如果他有50%是你不知道的, 这种“你学习他的知识+他学习你的知识”所产生的新系统变化是最大的。

欢迎你继续在吴军的信息论里学习, 如果有问题, 请和我互动。

(吴军老师有的时候也会在后台查看大家的留言并回复)

祝你今天愉快!

2019-05-30 1点 北京

# Day5 二进制、更复杂的进制

#金勇笔记# #day5# #个人经历收获

进制的等价性是什么?

我相信,你在用WIFI时,经常看到你手上的蓝牙或MAC地址:3C:2E… 这样的字符。

其实这是十六进制,每个码位由0~9A~F组成。

如果换成二进制,F就是“1111”、A就是“1010”,用进制的例子是让大家初步了解“信息等价”的概念。

因为这实际上是两个编码系统,信息量相等,编码长度不同。

#延伸阅读

ASCII标准编码 参考链接: https://www.ascii-code.com/

下一个问题,为啥不同进制,其实在信息上都是等价?

我说一个真实的例子帮助你理解。

四年前,在某个项目中我用到了36进制与62进制。

情况是这样的:同事希望我们用六位字符编码表示上亿种信息标识, 如果用10进制的话, 只能表示000000~999999 一共十万种情况,怎么办?

为了让六个码位具有更强的信息表示能力, 不得不采取更高的进制, 我于是想到了36和62进制。

36进制:阿拉伯数字0~9与大写字母A-Z;

62进制:阿拉伯数字0~9与大写字母A-Z小写字母a-z;

这样的话,36进制就能表示 36 * 36 * .. (六个36相乘) 就满足上亿的要求了。

但为什么没用62进制呢?因为62进制中小写字母l与大小字母I(H之后的字母)在现实中不容易区分。

这也是下一讲吴老师要给你解决的问题。

#Day6 好编码的要求

#金勇笔记# #day6# #总结

这一讲介绍一个好的编码系统需要遵守的原则: 易识别性和有效性;

我们先说易识别性: 比如某套编码方式中有这三种字符:

数字1

大写字母I(H后面的字母)

小写字母l(k后面的字母)

这你就很抓狂,这是违背了易识别性的反面教材;

那么有效性,怎么理解?

吴老师的例子你肯定已经明白了,手指扣到掌心的状态是差万别的,角度各异,但只要是半弯曲,很容易被人识别错误,这就违背了有效性。

接下来我再为大家延伸一点二进制的知识:

#计算机为什么使用二进制?

在上个世纪,计算机先后使用电子管、晶体管等元器件。我们知道在电路中电流的传递是有方向的──有高低电势差就形成了电信号。这个电信号的产生与否,就像是我们刚刚的指头立起还是弯曲一样,它也对应着0和1两种截然不同的状态,电子元器件收集到这些信息。

今天这讲里的小老鼠,他们吃完药之后,最终所对应的状态只有继续活着或者死掉这两种状态,所以吴军老师的小老鼠例题也是应该去尝试用进制编码解决──让每只老鼠分别充当“一根手指头”。

我们需要多少多少根手指能表示64这个数, 答案我想你已经知道了: Log 64 = 6。

#金勇分享

在谍战电影《风声》中,扮演“老鬼”的张涵予通过唱曲儿“我本是卧龙岗散淡的人”来传递信息。

他用的是韵律的变化给同志传递消息的, 还有《无间道》梁朝伟使用的“摩尔斯”电码。

未来我们渐渐学习更有意思的编码,请与我同行,如果你还有疑问,欢迎在这里向我发问。

#Day7 好编码的例子:Huffman编码

#金勇笔记# #day7# #总结#

今天吴老师要告诉我们的道理是:对事物抱有区别心。越频繁,就要越重视、给更多的关注。

等长编码会浪费空间,因为它假定每个选项完全均等(也叫均匀分布),但是这种绝对平均的现象在现实中是极少出现的。

而要做到有效性,你就要在进制相同、传递同样的信息的前提下,使用更少的编码。

你是否对上节课讲得“有效性”有更深的理解了呢?

#延伸阅读——你至少记住SOS怎么表达吧?

莫尔斯电码也是最早用于数字化通信的形式之一,它的代码有五种:

点 (·) 划(-)

字符内部的停顿(在点和划之间):0, 一个长度的留白

字符之间的停顿:000, 三个长度的留白

单词之间的停顿:0000000, 七个长度的留白

我学习莫尔斯电码基本只记住了“SOS”的表示方式,大家不妨一记:

···---··· (三点三划三点)

#金勇分享 - 听风者

我在初中的时候玩过无线电测向,这在北京当时非常流行。 在一个不大的公园内,老师藏好3~10部发射信号的电台(之间需要保持距离,避免干扰)。比赛一开始,我们就在公园里,一边听电台发布的信号一边解析,直到找出自己需要的那部。大家都像特工一样,要判断公园地形、其他人的位置,以及最重要的电台发出的信号。

好了, 这是今天的笔记

2019年6月2日0点 金勇

#Day8 信息的矢量化

#金勇笔记# #day8# #总结#

#案例补充—什么是矢量化?

人类对现实世界观察、记录、分类,在这个过程中就产生了文字,可以说矢量化是记录到分类不可或缺的步骤。

假设我要绘制一个圆,我要告诉计算机哪些信息呢?

你可能会说:半径、圆心坐标、轮廓的样式与颜色。

那么我就将这些“画圆的心法”,也就是信息,保存起来,但并不原模原样地画出来。

当我需要一个圆时,就拿出这个矢量图的基本元素,算一算,就得到一个新的图形,因为有基本信息在,放大也不会出现马赛克。

#金勇分享 - Friend Me

我想从实用角度补充一个吴老师的观点:“人们更喜欢用现有字造词,而不是从头造字。 ”

Facebook出现后,美国人见面就会加一句:“在Facebook关注我!来加个好友!” (Friend Me!)你看, friend这个词原来是名词,现在有了动词的意思(与...成为朋友)。

再到后来,取消关注的需求也强烈了。于是出现了一个新词 “defriend”,这里“de-”的前缀就带有去除、解除的含义。

这就是一个利用词根词缀等矢量维度,推进语言演化的例子。

#延伸阅读 - 几种常见的图片格式

JPEG, PNG, BMP是我们平时最常见的图片格式了。 下面简单的介绍一下它们的特点:

*BMP(BITMAP)就是位图,精确但严格,10X10的图片放大成100X100会变得很模糊。

*JPG(JPEG)使用最为普遍,它采用了一种失真压缩标准方法。

*PNG格式是无损数据压缩的。

说到这,也许你应该开始疑惑,到底什么是数据压缩呢? 为什么不能把原本的信息原原本本的表达出来,压缩的意义在哪里呢?

先卖个关子,随着课程进行,我们过几天就知道了。

#Day9 冗余度

#金勇笔记# #day9# #总结#

这一讲介绍了冗余度,拿《圣经》的例子说明了中文比英语更加简洁。

但是,冗余不一定就是坏事,适当的冗余可以便于理解、消除歧义性,以及容错性。

#金勇分享

上个周末,儿子的幼儿园举行了“跳蚤市场”,爱人回来给我分享了一个故事。

儿子在自己的杂志册上标了“5元3本”,结果他的同学从钱包中拿出来了15元。

如果他写“3本书一共5元”这样虽然很啰嗦,但是对其他小朋友来说,保证不会有歧义。

#延伸阅读-关键信息

那么我们如何利用好关键信息呢?

比如,吴老师说小说中冗余的信息很多,我很赞同,我会通过组织关键信息,来检验自己是否准确的提炼了某段知识。

以《明朝那些事儿》来说,我会将十几个关键人物的名字写下来,然后简单回忆在他们身上的故事:

朱元璋(放牛,和尚,造反,皇帝,杀功臣,传承孙子)

朱棣(燕王守北,造反,皇帝,诛十族,迁都,永乐大典)

明英宗朱瞻基(仁宣之治)... ...

如果我省略所有的对话、描写,只剩下如此“干货”,那么我想这种小说是不会有人买的,但我作为一个普通读者,最后在我心理还原出来的“事实”就是这样的一系列动宾短语。

回归到学习习惯,我认为我们要掌握一种能力,就是压缩有用的、冗余的知识,并储备在我们的脑子里。

接下来你需要时常的把知识取出来,换一种自己的视角,解读给别人。

#Day10 等价性与压缩

#金勇笔记# #day10# #感想收获#

今天这讲涉及到一些大家不太熟悉的知识,我想过很久,还是决定不在我的500字留言中展开。

你了解MP3的含义吗? 它其实是最流行的音频编码和有损压缩格式,它的出现大大降低了音频数据量的存储大小。

你可能好奇的是,压缩的是哪些信息呢?

对我们人类的眼睛和耳朵来说,有的信号不重要,所以即使保留,我们几乎感觉不到,除非使用专业仪器。

那么将其舍弃,会省不少事情,提高了传输的效率。

在此帮助大家回忆,为什么要讲信息压缩与等价性?

这是因为我们前面几讲学到的基本编码之后还只是第一个动作,接下来我们要思考如何把信息高效传递出去。

#知识解读 音频信号处理#

我们知道,音频是来自于振动──我们说话的声音便产生于声带的振动。 我们的耳朵👂是天然的信号处理系统,它在接收音频信号的时候要处理三个特征: 音量(信号振动的幅度)、音频(信号的频率,音调的高低)、音色(信号的波形图)。 在处理信号的时候,我们根据这几个特征来分步处理。

#延伸阅读 - 丁香医生、田吉顺#

X光、CT、核磁共振(NMRI)几种检查的区别?

通过比较资料,我觉得知乎的这个问题下 丁香医生的回答很有质量:

https://www.zhihu.com/question/53315862

另外,我个人很喜欢丁香园这个品牌。其医学总监田吉顺是我在2014年听播客便认识的一个人:直帅、真实、为患者着想,今年得知他与得到App合作,开了一门小课,我感到很高兴。

#Day11 压缩的例子

#金勇笔记# #day11# #总结

这一讲主要讲的是利用前后位置的相关性进行压缩的思想。

前面的例子可以记为主干+微调, 因为微调所相对于原来的信息量是小很多的(参见5比特:12比特)。

这种利用前后信息的差异,计算出来的增量, 在数学当中可以用“差分算子”的方法提取出来。

Δy = y(N) - y(N-1)

我觉得在现实中有很多应用的例子, 大家想到好的应用可以和我互动。

除此之外,我想和大家分享一个之前我学习统计学的知识。

#延伸阅读 - 集中趋势与离散趋势

在研究时间序列(Time Series)的时候,会把时间序列按三个角度进行解读:

*固定趋势

*周期效应

*随机扰动

固定趋势是指序列有本来的上升趋势,比如说按线性上升或者下降;

周期效应就像是序列会一年四季按春-夏-秋-冬-春… 周而复始出现;

假设我们不考虑固定趋势,只剩下随机扰动的影响,这时我会先计算出序列的平均值,然后把随机扰动项记为偏离均值的“残差”。

为了方便大家理解,举一个股票的例子,这只股票的平均价格是28元,扰动项是:

0.05,0.03,-0.1,0.2,-0.09,0.05, … …

这里的28(平均数, Mean)就是序列的集中趋势;

而残差项(Residuals)就是原始信息的偏离程度—离散趋势。

我记得我的《时间序列分析》课程的老师,提醒过我们多次,真正有价值的信息,就藏在离散趋势当中。

#Day12 压缩与失真, 权衡的世界

#金勇笔记# #day12# #总结与建议

这一讲需要串联之前我们所学习的信息相关性、等价转换。首先我们要牢记一个事实:

一张图片具有10K信息(注意,不是10K大小的图片)再怎么压缩也不会比它小,再压缩就要损失信息了。 失真率和压缩比的关系曲线表明,压缩比越高,失真度越大。

在前面的笔记中我提到了MP3这种最普遍的压缩媒体格式,本讲提到的JPEG图像格式,如果你对信息压缩的底层想一探究竟, 我个人强烈建议你可以去查阅一些MP3和JPEG的历史由来。

#知识解读 - 枪打出头鸟之()

Six Sigma () : 这个术语源自生产工艺上的质量标准认定,六西格玛过程是指所有生产、设计在 99.99966%层面上有保障的。 换句话说, 当我们流水线达到时,我们出错的几率就只有0.00034%。

#延伸阅读

这一讲最后,吴军老师提到信息压缩在生命科学里的应用,我很感兴趣。

在维基百科词条(Compression of Genomic Sequencing Data)页面下,找到一段这样的描述:

对不同类型的基因编码方案的研究:

固定编码方案(如Golomb Code、Rice Code)适用于基因序列的分布比较规律;

而当基因组没有特定的分布规律时,建议考虑变长编码方案(如Huffman Code)。在基因组序列里,更一般情形是后者。

#Day13 多信息-正交性

#金勇笔记# #day13# #总结与建议

如果你手头有两张A4纸,把它们的四边对齐,那就是完全重合的,如果把一张横过来叠放,也就是相互垂直的,你会发现垂直时重合面积最小。这两张纸其实可以理解为两条信息,垂直时就可以说它们重复的信息少。

这一讲的核心思想是:学会利用多种维度的信息,在利用的时候我们要考虑多维信息的重叠效应。为了尽可能消除重叠问题的影响,我们希望获取正交垂直的信息来源。

吴军老师这一讲中,构造正交信息提出了两种思路:

1)不断叠加 相当于组建一只足球队的过程: 首先我选出前锋能力最强的范尼; 然后为了从剩下的人里选出和C罗配合最好并且防守能力最强的中卫内斯塔;然后是…

2)剔除的思维是上面的逆向过程,可以理解是首先我将对其余所有人帮助最小的人抽出来,作为替补;然后重复此过程…

#信息解读-正交性

正交性,在数学里正交的概念往往代表垂直。建议你再复习一下矢量化那一讲,也就是说,首先信息是可以在空间矢量化的。因此才可以利用坐标,计算它们是否相互垂直。

怎么算呢?

例如两个向量V1与V2正交则意谓着它们的内积 v1·v2 = 0。 举例:

V1 = (1, 5) V2 = (5, -1) 它们的内积就是对应位置的元素相乘, 再把所有的乘积加起来的数值: 1*5 + 5 *(-1) = 0 。

#感想与收获

今天,再一次和大家巩固一个思考问题的模式,多元思维模型。看待同一问题,我要学着正面看、俯视、仰视、转圈看…不同的角度去思考。

有时我们容易陷入一个思维怪圈, 就是发现一个人缺点就抓住不放,其实是大可不必,因为这只是我们猛一回头时用放大镜去看对方的后果。 换一个眼镜,我觉得世界上所有人都很美好。

#Day14 互信息

#金勇笔记# #day14# #总结与提示

这两讲的主线是在描述着信息之间的关系:正交性信息与相关信息(互信息)。

近些年来,由于从事大数据的工作,我在分析数据并得出结论的过程中需要一直关心哪些特征是具有相关性的。 而因果类的规律,则很难碰到了,这也是数据挖掘这项工作的魅力所在。

而我,则致力于挖掘我们得到App上群体用户的行为规律,向我们其他同事输出有价值的结论,从而帮助大家更好的使用产品。

#金勇的分享

为了方便大家再次理解相关与因果的区别,我再举一个容易记的例子:在数据挖掘领域中有个模块叫做”关联规则“ 又叫做”购物篮分析“,著名的啤酒与尿布”的故事就是典型的案例。 它讲的是美国某超市经过分析大量顾客的购买记录,发现啤酒与尿布这种购买组合出现的特别频繁。 因此他们认为二者具有较高的相关性, 后来他们在陈列上对二者的布局做了调整,从而提升了销售业绩。

我们不能说购买啤酒 -> 购买尿布这样的因果性结论。

再举一个用户画像的例子,我们做广告DMP的项目的时候经常要把人群打上一些个性标签,例如: 宝妈标签🏷️、数码爱好者🏷️……这是怎么做到的呢?

在用户允许的前提下我们可以以匿名方式收集访问了一部手机用京东浏览过奶粉商品的信息、一个浏览器打开了Apple耳机的信息。通过对这些信息加工,从而得出这部手机是更有可能成为母婴人群的潜在客户。

这里用到的便是信息相关性,利用两类信息具有较高重合性作文章。

下次你可以留意一下自己看到的广告内容,然后想一想是不是被人“定向”了。

#Day15 信息增益 IG

#金勇笔记# #day15# #总结与收获#

H(X|Y)≤ H(X)

这里的Y是指只有我知道、别人不知道的独特消息。 如果是尽人皆知的“共同认知”,那么在这里也没用。

所以真正擅长利用信息去挣钱的人,是不是会把自己的独家秘密放到公开场合的,这样就失效了。

另一个感悟是, 如果想要被人记住,也要敢为人先,不做意见跟随者,而是意见领袖。

为了帮助大家理解信息增益的概念,我想再以决策树为例,和大家分享有的公司是如何利用群体信息的。

#延伸阅读-决策树#

在金融审批贷款业务时常用到一种叫做“决策树”的模型来评估申请借款人的资质。

每位申请人需要填写一张表格,上面包括:你的基本月收入、可用来还款的月金额、所工作行业、职级、过往借款记录与还款记录... ...

我们要建立一个像树一样的分类逻辑,以辨识哪些借款人的资质比较好(大概率上不会出现逾期还款),哪些人可能把钱放出去就基本收不回来了。 这也是风控部门(风险控制与管理)为什么话语权非常重的原因。

回到这棵“决策树”, 刚一开始要怎样划分用户呢? 假设H(X)表示的是用户产生逾期还款的不确定性。

那么我们面对几百个特征,哪些特征应该优先关注呢──答案就是那些带来更大价值的特征。我们把所有的特征的增益值都计算出来:

IG(Y1) = H(X) - H(X|Y1)

IG(Y2) = H(X) - H(X|Y2)

...

我们从这里选择IG值最大的特征,就是这轮中最好的特征,因为它能带给我们更多的信息。

比如说这个特征是“曾经有过一次信用卡逾期90天及以上”,这样第一层特征分叉的结果就是 : 是 / 否;

重复进行以上的过程,其实就得到了一棵特征树了, 这就是决策树生长的原理。

我觉得这个思考过程在我们每个人的生活中都经历过:选择学校(专业)、男女朋友、公司、去哪旅游... ...

今天这一讲的内容比较长,但我还是希望把决策树这个经典工具介绍给大家。

作为机器学习的经典流派,我个人也非常喜欢这套基于规则的学习模型。

金勇 2019年6月10日 0点

#Day16 统计意识-置信度

#金勇笔记# #day16#

#总结 这世上有绝对真理吗?

没有什么是绝对的,我们只能说某些信息,相对正确。

那么,我们怎么根据相对正确的事情做判断呢?

假如,一个人只看到一两片树叶,另一个人看到过森林的全貌。我们更应该相信后者的话,不是吗?

因此,我们作出判断所依据的事实(证据)越详实,得出的结论就越不容易被人推翻。

学习信息论一定要懂得数理统计的这些基本道理。

#时间管理-谈复盘

经验总结,有时也许下一次再用就失灵了,我们不能迷信经验。

但复盘的习惯还是必要的。

不清楚大家平时有没有用一些工具提醒自己进行阶段性的总结与沉淀。

我自己平时会用日历与Evernote管理自己的每周、每月事项。以两个事情为例:

A)每周六晚,我会将这周的工作心得与收获记录下来,哪些不应该做的事情、哪些做得好的事情;

B)每月28号会总结最近在读的书或者电影有哪些情节是还能记得的,为什么记忆深刻, 等等。

#延伸阅读-显著与极显著#

在统计学中, 我觉得对现实帮助最大的内容便是统计推断和假设检验。 本讲中提到的T检验、Z检验以及置信度等概念,便是属于这些模块的内容。

在假设检验中常常会有一个检验水平的概念, 取值为alpha= 0.1, 0.05, 0.01

具体用途就是我们构造出来的统计结果和某个分布的分位数去比较, 如果是和alpha为0.05水平比较,得出的结论就是显著的;如果是0.01水平,得出的结论就是极显著的。

如果你希望了解背后的统计原理,或者对数理统计特别感兴趣可以给我留言,我会推荐你一些相关的读物。比如说,上周的数据是0.4%, 本周是0.45%,这个数据是正常波动还是因为版本更新带来的重大提升?

#Day17 信息损失, 担不起的风险

#金勇笔记# #day17# #总结与收获#

今天我要总结的感悟是“未虑胜,先虑败”

  1. 永远不要像那种安逸的火鸡一样,以为每天都会有人将食物为自己准备好是理所应当的事情; 
  2. 不要不计后果将自己的所有资本(时间、金钱)投入到一件事当中, 孤注一掷虽然洒脱,但面对的损失,是无穷大的;(向 "all in " say no)

如何避免自己犯赵括类似的错误?

多听取别人的意见; 特别是向请人请教,极其诚恳的请教。

我相信身边的长辈、同事同学,只要足够的谦虚与诚恳,一定能找到愿意给自己意见的人。

还有一个建议,就是真的去做到三思而后行:

第一次, 事情真的是这样的吗?

第二次, 万一我想错了、想得不周全, 我会面临多大的风险?

第三次, 如果换一个人做决定,他会和我做出一样的选择吗?

不过这种患得患失的个性,自然是活起来比较辛苦的。 读《三国演义》自然知道诸葛孔明一生谨慎,落得个何等的下场。但我们总能在孔明与马幼常之间,寻个属于自己的平衡位置。

#金勇分享

几年前,我曾经去塞班团建。 那里有一家有名的赌场,同行人头一天就在那里赢了好几千元,请了我一个冰激凌。

临走的时候,TA又给赌场贡献了几千块钱(之前赢得的也赔了进去)。

我请了TA一个冰激凌,并且和冰激凌约定,在我不具有和“雨人”一样的记忆力之前,远离赌博。

#Day18 复盘第一模块

#金勇笔记# #day18# #工具分享#

今天是复盘的内容, 我自己整理了一个前17讲的学习导图,以自己的视角去理解为什么前面的内容要如此组织, 从一个更高的视角(Big Picture)去看待这门课程。

这样,我觉得自己既是这门课程的助教,又是这门课的普通学生, 还是这门课的偷师者— 未来,如果给我的孩子介绍信息论,我会怎样给他讲解呢?

以下软件是平时用到的一些工具:

Xmind~思维导图

Evernote(印象笔记)~知识管理, 第二大脑

日历、Reminder~系统自带的就可以, 重要的是:让你的提醒有用。

Typora~Markdown写作

Python 与R ~ 本科学的是SAS与SPSS, 但我不太推荐,我更喜欢灵活的方式处理数据。

另外, 我会随着课程的进行,整理一份学习的书单,以方便想要系统性的学习数理统计、信息论的同学。

金勇 2019年6月12日

第一模块在第18讲中进行了复盘和小休息。

明天(2019.6.14) 又是新的开始!

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK