吳軍信息論40講吳軍,約翰霍普金斯大學(xué)計(jì)算機(jī)科學(xué)博士、計(jì)算機(jī)科學(xué)家、硅谷投資人、著名自然語(yǔ)言處理和搜索專(zhuān)家,他師從于著名的信息論專(zhuān)家賈里尼克和數(shù)學(xué)家?guī)斓┢眨是信息論中最大熵算法的改進(jìn)者。
吳軍信息論40講內(nèi)容
發(fā)刊詞:信息時(shí)代每個(gè)人的必修課
面對(duì)不確定性世界的方法論,利用信息消除不確定性(香農(nóng))
信息時(shí)代的最大特征是不確定性
01:影響世界的三比特信息
對(duì)一個(gè)未知系統(tǒng)所作出的估計(jì)和真實(shí)情況的偏離,構(gòu)成信息損失,偏離越多損失越大
信息量和不確定性有關(guān),大家都知道的事,就沒(méi)有信息量
信息作用的大小和信息量有關(guān)
02:解開(kāi)世界之謎的三篇諾貝爾論文
信息是我們世界固有的屬性
世界上最關(guān)鍵的信息(知識(shí))其實(shí)是非常簡(jiǎn)潔的,信息量與信息長(zhǎng)度無(wú)關(guān)
03:大數(shù)據(jù)思維的科學(xué)基礎(chǔ)
發(fā)現(xiàn)未知規(guī)律:互信息理論
動(dòng)態(tài)調(diào)整做事策略:足夠多的數(shù)據(jù)可以幫助我們動(dòng)態(tài)匹配最佳結(jié)果
精準(zhǔn)服務(wù):從重研究方法到重?cái)?shù)據(jù)收集的轉(zhuǎn)變
解決人工智能問(wèn)題:利用數(shù)據(jù)(信息)消除不確定性
04:信息度量,世界上有穩(wěn)賺不賠的生意嗎?
信息量的大小不在于長(zhǎng)短,而在于開(kāi)創(chuàng)多少新知
復(fù)雜交易背后通常都用到了信息的可度量性
充滿可能性的系統(tǒng)(信息源),當(dāng)中的不確定性(信息熵),“信息”是用來(lái)消除這些不確定性的,需要的“信息量”就等于黑盒子里的“信息熵”
信息可以衡量,但不是用重要性,而是用信息量,單位是“比特”(香農(nóng))
05:信息編碼:數(shù)字和文字是如何誕生的?
只要編碼設(shè)計(jì)得足夠巧妙,就可以找到最短編碼(香農(nóng)第一定律)
由于它們是等價(jià)的,因此一個(gè)編碼系統(tǒng)解決不了的問(wèn)題,換一個(gè)系統(tǒng)同樣解決不了
各種編碼系統(tǒng),其實(shí)都是在編碼復(fù)雜性和編碼長(zhǎng)度之間作平衡,它們?cè)跀?shù)學(xué)上是等價(jià)的
數(shù)字和文字,都是人類(lèi)用來(lái)消除信息不確定性的編碼手段
06:有效編碼:10個(gè)手指能表示多少個(gè)數(shù)字?
如何組合信息,保證它高效傳遞,還不違背第一條原則,需要我們主動(dòng)思考
有效編碼,就是讓理論最佳值在應(yīng)用中落地
采用大量用戶(hù)反饋信息決定產(chǎn)品的設(shè)計(jì)和技術(shù)方案
信息編碼的第二個(gè)基本原則——有效性
清晰表達(dá)的五個(gè)原則——明確、誠(chéng)實(shí)、勇氣、責(zé)任和同理心
信息編碼的第一個(gè)基本原則——易辨識(shí)
07:最短編碼:如何利用哈夫曼編碼原理投資?
風(fēng)險(xiǎn)投資的霍夫曼編碼應(yīng)用——分幾部分逐步投入,每一次投資呈指數(shù)減少,而金額倍增,實(shí)現(xiàn)大部分資金集中到最優(yōu)投資項(xiàng)目上
一條信息編碼的長(zhǎng)度和出現(xiàn)概率的對(duì)數(shù)成正比
針對(duì)信息組合的信息壓縮,會(huì)產(chǎn)生更高壓縮比
哈夫曼編碼原理——MIT教授哈夫曼發(fā)明
08:矢量化:象形文字和拼音文字是如何演化的?
象形文字和拼音文字的形成和進(jìn)化代表了兩種不同的信息編碼方式
讓問(wèn)題變得簡(jiǎn)單,但會(huì)丟失信息,而平衡便利性和信息的完整性,就成為了藝術(shù)
信息的矢量化原理
09:冗余度:《史記》和《圣經(jīng)》哪個(gè)信息量大?
善用“廢話”側(cè)面詮釋想法,利用冗余便于理解
觀點(diǎn)一致性,不要補(bǔ)充可能與主要思想相矛盾或無(wú)關(guān)的冗余信息
大腦存儲(chǔ)信息要壓縮,明確主線,過(guò)濾細(xì)節(jié)
信息冗余對(duì)溝通的應(yīng)用
冗余度的問(wèn)題:信息中混有噪音,過(guò)多沒(méi)用的信息可能導(dǎo)致錯(cuò)誤
冗余度的好處——易理解、消歧義、容錯(cuò)性
信息的冗余度——對(duì)信息“密集”和“稀疏”程度的描述:(信息的編碼長(zhǎng)度-一條信息的信息量)/信息的編碼長(zhǎng)度
10:等價(jià)性:信息是如何壓縮的?
善用等價(jià)信息,是這個(gè)時(shí)代必須掌握的工作技巧
信息壓縮的基本原理:找到周期性信號(hào)的等價(jià)信息、對(duì)等價(jià)信息進(jìn)行壓縮、如果要使用原有信號(hào),通過(guò)壓縮后的等價(jià)信息復(fù)原原有信號(hào)
11:信息增量:信息壓縮中的保守主義原則
保守主義(總體原則不變,不斷作微調(diào))是由世界漸變的特征決定的
善用信息前后的相關(guān)性,對(duì)后面的信息做增量編碼,達(dá)到大幅度壓縮信息冗余的目的
12:壓縮比和失真率:如何在信息取舍之間作平衡?
沒(méi)有標(biāo)準(zhǔn)答案和最佳答案,只是針對(duì)某個(gè)場(chǎng)景好的答案,一切都是妥協(xié)的結(jié)果
失真率與壓縮比直接相關(guān),壓縮到哪種程度,通常看具體應(yīng)用場(chǎng)景
信息的壓縮分為有損和無(wú)損兩種,有損壓縮在復(fù)原后會(huì)出現(xiàn)一定程度的失真
13:信息正交性:在信息很多的情況下如何作決策?
信息處理的兩個(gè)方法——一是不斷疊加,二是不斷刪除
不同的信息要來(lái)自不同的信息源
避免反復(fù)使用相互嵌套或者相互包含的信息
看問(wèn)題要刻意改變一下觀察的角度,從不同角度看
如何找到正交的信息
在使用信息上,要選用彼此垂直的正交信息
14:互信息:相關(guān)不是因果,那相關(guān)是什么?
高手用互信息工具進(jìn)行預(yù)判,而言感覺(jué)
世界上大部分相關(guān)的信息未必有因果關(guān)系,它們之間只是一種動(dòng)態(tài)的相互關(guān)聯(lián)的關(guān)系
互信息:衡量?jī)蓷l信息之間相關(guān)性的新工具,尋找和利用強(qiáng)相關(guān)性
15:條件熵和信息增益:你提供的信息到底值多少錢(qián)?
第一個(gè)發(fā)表意見(jiàn),以及能夠發(fā)表與眾不同的意見(jiàn),對(duì)提高自己的影響力至關(guān)重要
信息增益:定量衡量每一條信息價(jià)值的尺度
條件熵:概率分布的信息熵——大眾已知的信息對(duì)投資和其他決策其實(shí)都沒(méi)有意義
16:置信度:馬斯克犯了什么數(shù)學(xué)錯(cuò)誤?
世界上有很多道理其實(shí)都很難驗(yàn)證,大到歷史事件,由于很難多次重復(fù),總結(jié)經(jīng)驗(yàn)其實(shí)是非常難的
提高置信度的辦法通常是增加所統(tǒng)計(jì)的樣本數(shù)量
置信度:自己有多么確定這件事也量化地衡量
17:交叉熵:如何避免制訂出與事實(shí)相反的計(jì)劃?
猜測(cè)和真實(shí)情況完全一致,將不損失任何東西,但只是不一致就會(huì)或多或少有損失
猜測(cè)和真實(shí)情況相差越大,損失越大
自大的人非常容易遺漏本應(yīng)考慮的事情
過(guò)分防范各種情況,患得患失,也將存在損失
在信息論中,任何硬性的決定(全力以赴對(duì)賭)都要損失信息
庫(kù)爾貝勒交叉熵:信息誤判時(shí)的損失
18:復(fù)盤(pán):如何識(shí)別誤導(dǎo)人的錯(cuò)誤信息?
以聳人聽(tīng)聞的信息刻意引起你注意——放在更大的時(shí)空來(lái)考量、看信息的一致性、抽取信息要看失真率
沒(méi)有出處——信息溯源
缺乏上下文——對(duì)信息背景限定條件
誤導(dǎo)人的信息有哪些特征及應(yīng)對(duì)?
19:信噪比:歷史有真相嗎?
歷史的細(xì)節(jié)是不準(zhǔn)確的(而且無(wú)法準(zhǔn)確),但歷史的輪廓是可以看清楚的
信號(hào)和噪音的相伴存在的——現(xiàn)實(shí)中我們不能希望找到全是優(yōu)點(diǎn)沒(méi)有缺點(diǎn)的人
信號(hào)與噪音的能量疊加,具體到每一個(gè)信號(hào)點(diǎn),其置信度是受到干擾的
理解信號(hào)和噪音的關(guān)系:
信噪比:信號(hào)和噪音的比例,決定了我們是否能夠有效地獲取信息
20:去除噪音:如何獲得更多更準(zhǔn)確的信息?
利用信息的冗余和比對(duì)過(guò)濾噪音——最可貴的意見(jiàn)不是所謂客觀的而是真正反映自已想法的主觀意見(jiàn)
換一個(gè)角度看問(wèn)題——將有噪音的信息分解到不同的維度過(guò)濾噪音
如何去除噪音
能夠找到噪音來(lái)源VS不清楚來(lái)源
有規(guī)律噪音VS隨機(jī)噪音、固定頻率噪音VS白噪音
噪音分類(lèi)
21:信道:信息通道的容量有邊界嗎?
信息的傳播是有成本的,其成本就源于信道容量
某一范圍內(nèi)的無(wú)線電波,其所能承載的信息也是有限的
量化度量是重要的
信道與生活的關(guān)系:
信道容量:當(dāng)信息傳輸所用的信道一旦固定,能承載的信息量是有限的,其決定了有效的傳輸率
22:香農(nóng)第二定律(一)為什么你的網(wǎng)頁(yè)總是打不開(kāi)
在邊界內(nèi)做事情的重要性,如果先天信道容量不足,唯一的方法就是降低速度
香農(nóng)第二定律:如果誰(shuí)要試圖超越信道容量傳輸信息,不論怎樣編碼,出錯(cuò)的概率都是100%(R≤C)
23:香農(nóng)第二定律(二)到底要不要扁平化管理?
帶寬是由通信雙方的互信息決定的,這在人際交流中就是信任
拓展帶寬是今天我們所有人都需要做的事情
扁平化管理是香農(nóng)第二定律的應(yīng)用,保證一定帶寬內(nèi)的溝通效率或者利用科技提高帶寬
職級(jí)和部門(mén)之間的壁壘將人與人通信的帶寬變得非常窄,信息傳輸率非常低
24:糾錯(cuò)碼:對(duì)待錯(cuò)誤的正確態(tài)度是什么?
通過(guò)增加信息冗余,增強(qiáng)檢驗(yàn)甚至糾正錯(cuò)誤的能力
考慮到錯(cuò)誤的必然存在,通過(guò)巧妙的信道編碼保證有了錯(cuò)誤能夠自動(dòng)糾錯(cuò)
在解決任何問(wèn)題前,都要考慮世界的不完美和不確定性
不確定性是世界自然的屬性,不要高估自己的仔細(xì),以及自己通過(guò)努力做到最仔細(xì)后,能夠達(dá)到的效果
25:信息加密:韋小寶說(shuō)謊的秘訣
如果想讓人知道你的觀點(diǎn),就要明確表述
無(wú)法減少你傳遞信息的不確定性
密碼的精髓在于,對(duì)方拿到你的密文,得不到額外的信息
26:極簡(jiǎn)通信史:從1G到5G通信,到底經(jīng)歷了什么?
單位能量的信息傳輸率越來(lái)越高
網(wǎng)絡(luò)不斷融合
設(shè)備的輻射越來(lái)越小
每一代都會(huì)有新的主導(dǎo)型公司:1G摩托羅拉;2G諾基亞;3G、4G蘋(píng)果、谷歌和高通;5G是華為
移動(dòng)通信的發(fā)展要點(diǎn)
一是對(duì)信息的發(fā)送和接收的描述
二是對(duì)信息編碼的方式
通信標(biāo)準(zhǔn)的核心:
27:通信趨勢(shì):5G和IOT的商機(jī)在哪里?
判斷的標(biāo)準(zhǔn)是:能否以更少的能量傳輸來(lái)處理更多的信息
每一代互聯(lián)網(wǎng)都有掌握產(chǎn)業(yè)鏈的龍頭公司,未來(lái)是由掌握核心芯片、操作系統(tǒng)和通信標(biāo)準(zhǔn)公司占據(jù)龍頭
第三代互聯(lián)網(wǎng)是萬(wàn)物互聯(lián),會(huì)在聯(lián)網(wǎng)設(shè)備、帶寬及市場(chǎng)規(guī)模上有指數(shù)級(jí)增長(zhǎng)
28:復(fù)盤(pán):世界不完美,我們?cè)撛趺崔k?
對(duì)世界的態(tài)度是,承認(rèn)噪音的存在,爭(zhēng)取在有噪音的情況下,準(zhǔn)確傳遞信息
29:交叉驗(yàn)證:電信詐騙為什么能成功?
跨界的意義 不在于同時(shí)做很多不同的事情,而是從另一個(gè)領(lǐng)域回望所在領(lǐng)域的問(wèn)題
交叉驗(yàn)證中,垂直正交信息的組合最有效,因?yàn)楣餐饔媚茏畲蟪潭冉档托畔㈧?/p>
大數(shù)據(jù)的重點(diǎn)不在于數(shù)據(jù)的體量大,而是數(shù)據(jù)的多維度
交叉驗(yàn)證:生活中絕大部分時(shí)候,一個(gè)維度的信息很難消除所有不確定性,解決這個(gè)問(wèn)題的最好辦法,不是把那個(gè)維度的信息搞得更準(zhǔn)確,而是用其他維度的信息進(jìn)行交叉驗(yàn)證
30:等價(jià)性:如何從等價(jià)信息里找答案?
等價(jià)信息和相關(guān)信息不同,后者的要求寬松得多,但是可靠性也差很多
很多時(shí)候 無(wú)法直接獲取某種信息,可使用等價(jià)信息解決問(wèn)題的方法
31:大數(shù)據(jù)(一):從四個(gè)特征把握大數(shù)據(jù)的本質(zhì)
有數(shù)據(jù)、有技術(shù)、有應(yīng)用場(chǎng)景(騰訊、阿里巴巴、今日頭條等)
有數(shù)據(jù)、無(wú)技術(shù)(移動(dòng)通訊運(yùn)營(yíng)商、銀行、零售業(yè)等)—需要專(zhuān)業(yè)人士
缺乏數(shù)據(jù)、有技術(shù)(數(shù)據(jù)公司等)—可為第二類(lèi)企業(yè)解決實(shí)際問(wèn)題
大數(shù)據(jù)時(shí)代受益的三類(lèi)企業(yè):
消除數(shù)據(jù)間矛盾,亦需要領(lǐng)域知識(shí)
在特定應(yīng)用場(chǎng)景還需要具有實(shí)時(shí)性
大數(shù)據(jù)的特征:數(shù)據(jù)量大、多維度(最好正交)、數(shù)據(jù)完備性(不是抽樣)
32:大數(shù)據(jù)(二):大數(shù)據(jù)思維的四個(gè)層次
第一層:從大量、混亂的數(shù)據(jù)中總結(jié)出相關(guān)性
第二層:不事先作假定,從大數(shù)據(jù)出發(fā)得到結(jié)論,再分析原因
第三層:利用大數(shù)據(jù)準(zhǔn)確把控宏觀規(guī)律的同時(shí),精確到每一個(gè)細(xì)節(jié)
第四層:通過(guò)幾個(gè)維度的強(qiáng)相關(guān)性,替代過(guò)去的因果關(guān)系
大數(shù)據(jù)思維是一種全新的思維方式和做事情的方法
33:互聯(lián)網(wǎng)廣告:為什么GOOGLE搜索的廣告效果好?
使用正交、可疊加信息的作用(如FACKBOOK)
用信息熵來(lái)定量衡量個(gè)性化服務(wù),但通常喜好上的差異程度比我們通常想的要小很多
GOOGLE的廣告系統(tǒng)利用的是用戶(hù)主動(dòng)輸入的信息,它最為有效
34:幸存者偏差:如何避免被已知信息誤導(dǎo)?
通識(shí)教育的重要性:避免思維習(xí)慣帶來(lái)的盲點(diǎn)
幸存者偏差:要不斷淘汰不好的項(xiàng)目,在生活中要止損,將利益最大化
35:奧卡姆剃刀法則:最簡(jiǎn)單的往往是最有效的
奧卡姆剃刀法則的應(yīng)用——做減法、不要制造偽需求、可提高判斷力(找到基函數(shù))
世界本身的規(guī)律在形式上并不復(fù)雜
過(guò)于復(fù)雜的描述常常是騙局
奧卡姆剃刀法則有實(shí)踐驗(yàn)證
奧卡姆剃刀法則有科學(xué)依據(jù)——找到這個(gè)領(lǐng)域支撐點(diǎn)的關(guān)鍵信息
簡(jiǎn)潔的往往是正確的,越是復(fù)雜,越容易犯錯(cuò)
36:最大熵原理:確定的答案找到之前,我們?cè)撟鍪裁矗?/p>
光滑——不會(huì)遇到黑天鵝事件,方方面面都考慮得很周全
不要把雞蛋放在一個(gè)籃子里
一個(gè)“光滑”的模型,可以讓預(yù)測(cè)的風(fēng)險(xiǎn)最小
最大熵原理:當(dāng)我們需要對(duì)一個(gè)隨機(jī)事件的概率分布進(jìn)行預(yù)測(cè)時(shí),我們的預(yù)測(cè)應(yīng)當(dāng)滿足全部已知條件,而對(duì)未知的情況不要作任何主觀假設(shè)
37:麥克斯韋的妖:為什么要保持系統(tǒng)的開(kāi)放性?
對(duì)于個(gè)人而言,引入負(fù)熵的方法是:行萬(wàn)里路、讀萬(wàn)卷書(shū)
一種是直接與外界進(jìn)行人的交換(能量熵)
另一種是接受外面新的思想(信息熵)
任何一個(gè)封閉系統(tǒng)都是越變?cè)綗o(wú)序,要想變得有序,就要引入“負(fù)熵”,即能量和信息
38:復(fù)盤(pán):如何把信息論學(xué)以致用?
需要知道如何把自己領(lǐng)域中的問(wèn)題,描述成一個(gè)信息處理的問(wèn)題
39:控制論:要不要成為變色龍?
要做變色龍(不斷應(yīng)對(duì)環(huán)境變化作出調(diào)整)
不要做恐龍(架子大,很唬人,但適應(yīng)性差)
控制論三要點(diǎn):突破牛頓絕對(duì)時(shí)間觀、系統(tǒng)與外界環(huán)境刺激有相互影響、通過(guò)反饋回路實(shí)現(xiàn)自我調(diào)節(jié)
40:系統(tǒng)論:如何讓整體效用大于部分之和?
發(fā)展:空間上作整體考慮,時(shí)間要還要考慮影響力,最終決策
科學(xué):分析問(wèn)題要遵循科學(xué)方法,而非簡(jiǎn)單的經(jīng)驗(yàn),方可獲得可重復(fù)成功
綜合:參考IPHONE的方法論
整體:任何局部改進(jìn),需要放回到整體中去考察
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版