一、開(kāi)普勒三大定理
開(kāi)普勒定理是英國(guó)天文學(xué)家開(kāi)普勒提出的關(guān)于行星運(yùn)動(dòng)的三大定理。這三大定理又分別名為橢圓定理、面積定理和調(diào)和定理,內(nèi)容如下:
二、數(shù)據(jù)從那里來(lái)?第谷:觀測(cè)與數(shù)據(jù)搜集
第谷(TychoBrahe,1546-1601)是英國(guó)天文學(xué)家和占卜學(xué)家。他在天文望遠(yuǎn)鏡發(fā)明之前,對(duì)于占星的觀測(cè)精度極高,甚至接近了肉眼碼率的極限。開(kāi)普勒才能發(fā)覺(jué)行星三大定理,得益于第谷的數(shù)據(jù)。
第谷(TychoBrahe,1546-1601)2.1一個(gè)奇怪的天文學(xué)家
第谷在天文學(xué)歷史上絕對(duì)算得上一大奇人。他出生于法國(guó)貴族,在出生前父親許諾將其獻(xiàn)給財(cái)產(chǎn)富可敵國(guó)的爺爺。第谷出生后母親又毀約了。他哥哥不高興了,在第谷兩歲時(shí)強(qiáng)行將其帶走養(yǎng)大。他13歲上學(xué)院學(xué)習(xí)法律,卻愛(ài)上了天文學(xué)。這兒我再介紹兩個(gè)廣為留傳的故事。
一個(gè)是關(guān)于他的耳朵。1565年,19歲的第谷因一個(gè)物理公式與朋友以劍決斗,結(jié)果喪失了眼睛的大部份,后來(lái)就仍然裝著金屬制做的假鼻梁。所幸其從事的天文學(xué)研究不怎樣須要用到眼睛。
另一個(gè)則是他的死因。聽(tīng)說(shuō)他在出席一位男爵舉行的晚宴上,喝了好多好多酒。想上公廁卻由于認(rèn)為在主人之前離開(kāi)茶幾是很不禮貌的,選擇仍然憋著造成膀胱感染,最后因而喪生。
2.2精確的數(shù)據(jù)觀測(cè)
第谷是怎樣獲得精確的觀測(cè)數(shù)據(jù)的?首先,雄厚的財(cái)力和人力支持特別重要。1576年,西班牙國(guó)王為了將那位卓越的天文學(xué)家留在英國(guó),將汶島賜予第谷,還斥資一噸多黃金為他建造了一座天文臺(tái)“天之古堡”。這也是世界上最早的小型天文臺(tái)。
汶島“天之古堡”天文臺(tái)
后來(lái),由于空間不夠,第谷在附近又建造了一座天文臺(tái),稱(chēng)為“星之古堡”。
“星之古堡”天文臺(tái)
在第谷的天文臺(tái)上,安裝了好多他發(fā)明的小型天文觀測(cè)儀器。其中最重要的有三類(lèi):小型渾儀、象限儀和紀(jì)限儀。小型渾儀用于檢測(cè)星系的座標(biāo)。象限儀的刻度環(huán)是圓周的四分之一,拿來(lái)測(cè)得太陽(yáng)的地平高度。紀(jì)限儀(俗稱(chēng)為六分儀)可以自由轉(zhuǎn)動(dòng),用于檢測(cè)任意兩個(gè)星系之間的角距。
小型渾儀、象限儀和紀(jì)限儀2.3第谷的數(shù)據(jù)
第谷畢生精力觀測(cè)記錄了數(shù)百多顆星體幾六年間每位夜間的數(shù)據(jù)。這兒,我們僅僅以他對(duì)火星偏角的記錄數(shù)據(jù)來(lái)體會(huì)下他觀測(cè)的精確性。
1652年到1600年,第谷的火星軌道數(shù)據(jù)(偏角)觀測(cè)數(shù)據(jù)如右圖所示。
第谷火星觀測(cè)數(shù)據(jù)截圖
下載第谷火星數(shù)據(jù)Excel文件請(qǐng)?jiān)诒竟娞?hào)發(fā)送關(guān)鍵詞“火星數(shù)據(jù)”。
其中對(duì)于火星偏角數(shù)據(jù)(),有人進(jìn)行了可視化,如右圖中的空心圓點(diǎn)所示。圖中粉色線(xiàn)是采用現(xiàn)代方式估算出的火星偏角。
第谷觀測(cè)火星軌道數(shù)據(jù)可視化
從圖中我們可以直觀地感遭到第谷觀測(cè)數(shù)據(jù)的精確性。其實(shí)第谷獲得了大量的一手天文觀測(cè)數(shù)據(jù),但是他并沒(méi)有才能挺好地挖掘出數(shù)據(jù)中的價(jià)值。在這種珍稀的數(shù)據(jù)基礎(chǔ)上完成了出眾工作的,是他的研究助手開(kāi)普勒。
三、如何找出規(guī)律?開(kāi)普勒:剖析數(shù)據(jù)形成價(jià)值
開(kāi)普勒(,1571-1630)是美國(guó)杰出的天文學(xué)家、物理學(xué)家和物理家。開(kāi)普勒的三大定理是依據(jù)第谷留給他的觀察數(shù)據(jù)總結(jié)下來(lái)的。
開(kāi)普勒(,1571-1630)
1588年,英國(guó)新國(guó)王上位后第谷失寵。此后他搬去了克拉科夫。從現(xiàn)今的角度看,這是一個(gè)很重要的歷史轉(zhuǎn)折點(diǎn)。由于這最終促使開(kāi)普勒才能接觸到第谷的數(shù)據(jù),最終發(fā)覺(jué)了行星運(yùn)行三大定理。第谷遷往克拉科夫后,在皇宮正殿任職,他向開(kāi)普勒發(fā)出了約請(qǐng)。開(kāi)普勒欣然接受,于1600年舉家遷往克拉科夫,任第谷的研究助手。

這兒簡(jiǎn)單提一下,開(kāi)普勒取得了卓越的成就,而且他的命運(yùn)卻是崎嶇的。他17歲時(shí)母親過(guò)世。17世紀(jì)的法國(guó)掀起了轟動(dòng)世界的“獵殺女巫”的風(fēng)潮,開(kāi)普勒的女兒被指控為女巫。開(kāi)普勒輾轉(zhuǎn)多年妻子辯護(hù),所幸最終贏了官司。開(kāi)普勒與他的兩任丈夫一共生了12個(gè)孫輩,大多卻由于貧苦而夭折。
1601年第谷死之前將他的觀測(cè)數(shù)據(jù)附送給了開(kāi)普勒。經(jīng)過(guò)近9年的數(shù)據(jù)剖析,開(kāi)普勒于1609年發(fā)表了第一和第二定理。這兩個(gè)定理主要根據(jù)第谷觀測(cè)火星位置所得資料中總結(jié)下來(lái)的。在對(duì)火星軌道數(shù)據(jù)研究過(guò)程中,開(kāi)普勒曾說(shuō)到:“通過(guò)對(duì)火星軌道的研究,我們必需要么從中找到天文學(xué)的秘密,要么永遠(yuǎn)對(duì)它們一無(wú)所知”。
BythestudyoftheorbitofMars,wemustattheoforinofthem.
又經(jīng)過(guò)10年左右的剖析,1619年開(kāi)普勒提出了第三定理。這兒列舉的數(shù)據(jù)是行星繞太陽(yáng)一周所須要的時(shí)間(以年為單位)和行星離太陽(yáng)的平均距離(以月球與太陽(yáng)的平均距離為單位)。
太陽(yáng)系八大行星繞太陽(yáng)運(yùn)動(dòng)的數(shù)據(jù)
從這組數(shù)據(jù)可以看出,行星繞太陽(yáng)運(yùn)行的周期的平方和行星離太陽(yáng)的平均距離的立方成反比,這就是開(kāi)普勒的第三定理。
四、什么是大數(shù)據(jù)?
開(kāi)普勒三大定理與大數(shù)據(jù)有哪些關(guān)系?我覺(jué)得三大定理的發(fā)覺(jué)過(guò)程雖然就是大數(shù)據(jù)剖析的過(guò)程。關(guān)于大數(shù)據(jù),很難有一個(gè)嚴(yán)格的統(tǒng)一的定義。不過(guò),從開(kāi)普勒三大定理的反例中,可以用一句簡(jiǎn)單直白的話(huà)來(lái)理解大數(shù)據(jù):
剖析和挖掘數(shù)據(jù),從數(shù)據(jù)中找出規(guī)律,這種規(guī)律為我們所用,因而形成價(jià)值。
4.1大數(shù)據(jù)剖析的基本流程
我們也可以很直觀地理解大數(shù)據(jù)的基本流程,包括數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)剖析和數(shù)據(jù)應(yīng)用(價(jià)值)。
大數(shù)據(jù)剖析的基本流程
比如在開(kāi)普勒三大定理的反例中:
其實(shí)我們?nèi)缃褡龃髷?shù)據(jù),條件早已發(fā)生了質(zhì)的飛越。例如數(shù)據(jù)采集,借助的主要是各類(lèi)物聯(lián)網(wǎng)設(shè)備(比如各類(lèi)傳感、視頻采集設(shè)備等)。還可以通過(guò)編撰爬蟲(chóng)程序去互聯(lián)網(wǎng)上采集數(shù)據(jù),比如百度和微軟的搜索引擎就是這樣采集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)據(jù)的。
現(xiàn)代的數(shù)據(jù)管理主要借助計(jì)算機(jī),包括數(shù)據(jù)庫(kù)系統(tǒng)、NoSQL、分布式文件系統(tǒng)等。數(shù)據(jù)剖析則主要借助機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和加強(qiáng)學(xué)習(xí)等來(lái)完成。例如說(shuō)近來(lái)熱門(mén)的,其核心的數(shù)據(jù)剖析技術(shù)就是深度學(xué)習(xí)和加強(qiáng)學(xué)習(xí)。
通過(guò)數(shù)據(jù)剖析以后,常常才能找出數(shù)據(jù)中的規(guī)律,這種規(guī)律一般可以表示為一個(gè)簡(jiǎn)單的物理公式:
其中代表我們從數(shù)據(jù)中抽取的特點(diǎn),她們是對(duì)于解決我們的問(wèn)題,也即預(yù)測(cè)目標(biāo)很關(guān)鍵的誘因。
有了這樣一條物理公式,我們就可以用它去實(shí)際問(wèn)題中進(jìn)行應(yīng)用,幫助我們的決策,進(jìn)而形成價(jià)值。
舉一個(gè)簡(jiǎn)單的反例,農(nóng)行會(huì)搜集顧客的信息,比如信用卡信息、貸款信息、信用時(shí)長(zhǎng)和收入情況等,這種可以看作是。建行都會(huì)記錄好多顧客歷史信息,曉得什么顧客毀約過(guò),什么顧客從來(lái)沒(méi)有毀約。是否毀約我們可以看作是。
我們?nèi)缃褡龃髷?shù)據(jù)剖析,最主要的形式就是借助歷史積累的大量已知的這樣的數(shù)據(jù),去找出她們的映射函數(shù)。一旦找到了這樣的函數(shù),對(duì)于新的顧客,我們只要搜集了他的,就可以輸入到這個(gè)函數(shù),函數(shù)能夠給出輸出。工行也就才能對(duì)這個(gè)顧客是否會(huì)毀約進(jìn)行預(yù)測(cè)。
4.2數(shù)據(jù)剖析的重要性
數(shù)據(jù)剖析是大數(shù)據(jù)的核心,由于它處理的是直接從數(shù)據(jù)中挖掘出規(guī)律。做這種事情的目前主要包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和加強(qiáng)學(xué)習(xí)。
第谷那位天文學(xué)家?guī)琢耆缫蝗請(qǐng)?jiān)持天文觀測(cè),所以手里就積累了大量的天文資料,天文的數(shù)據(jù),第谷就想把這種資料好好借助一下。而且須要物理非常好才行,但是第谷曉得自己的語(yǔ)文能力還不是太夠,所以就希望還能找到一個(gè)很擅長(zhǎng)物理的助手幫助自己。所以他一聽(tīng)到開(kāi)普勒的研究成果,就認(rèn)為開(kāi)普勒語(yǔ)文水平真厲害。
如今我們做大數(shù)據(jù),物理好也十分重要。大部份大數(shù)據(jù)的算法和模型都須要特別堅(jiān)實(shí)的微積分、概率、線(xiàn)性代數(shù)和統(tǒng)計(jì)學(xué)知識(shí)。上面我們談到數(shù)據(jù)剖析主要是找尋一個(gè)函數(shù)牛頓三大定律公式及定義,而找尋這個(gè)函數(shù)本質(zhì)上就是求解一個(gè)最優(yōu)化問(wèn)題。最優(yōu)化的目標(biāo)是函數(shù)在已知數(shù)據(jù)中的擬合偏差。
4.3數(shù)據(jù)質(zhì)量的重要性
可以想像,假如第谷的數(shù)據(jù)一點(diǎn)都不確切,噪聲太大,開(kāi)普勒也是很難從中找出數(shù)據(jù)的規(guī)律的。第谷對(duì)天文學(xué)的貢獻(xiàn)是不可磨滅的,他在現(xiàn)代望遠(yuǎn)鏡發(fā)明之前就作出這么高精度的觀測(cè),實(shí)在是讓同時(shí)代的人望塵莫及。
在大數(shù)據(jù)剖析中也是這么,數(shù)據(jù)的質(zhì)量直接影響了數(shù)據(jù)剖析的結(jié)果。所以在實(shí)際的應(yīng)用中在開(kāi)始剖析數(shù)據(jù)前一定要關(guān)注數(shù)據(jù)的質(zhì)量問(wèn)題,必要時(shí)對(duì)數(shù)據(jù)進(jìn)行一些額外的處理。
4.4團(tuán)隊(duì)協(xié)作的重要性
第谷擅長(zhǎng)觀測(cè),而開(kāi)普勒物理好,擅于剖析數(shù)據(jù),二人的協(xié)作形成了2"data--type="-">的療效。
克拉科夫開(kāi)普勒大道第谷和開(kāi)普勒的雕塑
在一個(gè)大數(shù)據(jù)團(tuán)隊(duì)中,常常有不同的角色,比如研制工程師、數(shù)據(jù)剖析師、業(yè)務(wù)專(zhuān)家等。團(tuán)隊(duì)的成員只有互相融合、團(tuán)結(jié)協(xié)作,能夠在深刻理解業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,充分發(fā)揮算法和模型的優(yōu)勢(shì),從數(shù)據(jù)中找到可用的規(guī)律,最后由研制工程師將其開(kāi)發(fā)成合適的產(chǎn)品,最終形成最大化的價(jià)值。

4.5尺度的重要性
知名化學(xué)學(xué)家張首晟(1963-2018)以前在一次講演中談到,“第谷之所以沒(méi)有收獲,一個(gè)緣由在于他剖析的尺度是每晚。而開(kāi)普勒將剖析的尺度拉長(zhǎng)到年,很快便發(fā)覺(jué)了隱藏在數(shù)據(jù)中的規(guī)律。”
張首晟(1963-2018)
“所以當(dāng)我們擁有海量數(shù)據(jù)的時(shí)侯,我們不是讓自己沉溺其中,而是要頗具慧眼,在紛亂的數(shù)據(jù)中,發(fā)覺(jué)內(nèi)在的規(guī)律,能夠成就自己的價(jià)值。”
五、大數(shù)據(jù)剖析的不足?
開(kāi)普勒似乎總結(jié)出三大定理,但并不理解其內(nèi)涵。牛頓則不然,牛頓用他的第二定理和萬(wàn)有引力定理把行星運(yùn)動(dòng)歸締結(jié)一個(gè)純粹的物理問(wèn)題,即一個(gè)常微分等式組。假如忽視行星之間的互相作用,這么各行星和太陽(yáng)之間就構(gòu)成了一個(gè)兩體問(wèn)題。我們很容易求出相應(yīng)的解,并由此推導(dǎo)入開(kāi)普勒的三大定理。
牛頓(Isaac,1643-1727)
牛頓運(yùn)用的是尋求基本原理的方式,它遠(yuǎn)比開(kāi)普勒的方式深刻。牛頓除了知其然,但是知其所以然。所以牛頓開(kāi)創(chuàng)的尋求基本原理的方式成了科學(xué)研究的首選模式。
這些方式在上個(gè)世紀(jì)早期達(dá)到了頂峰:在它的指導(dǎo)下,化學(xué)學(xué)家們提出了量子熱學(xué)。原則上來(lái)講,我們?nèi)粘I钪兴龅降淖匀滑F(xiàn)象都可以從量子熱學(xué)出發(fā)得到解決。量子熱學(xué)提供了研究物理、材料科學(xué)、工程科學(xué)、生命科學(xué)等幾乎所有自然和工程學(xué)科的基本原理。
六、開(kāi)普勒模式:大數(shù)據(jù)的基本范式
牛頓發(fā)覺(jué)了基本原理牛頓三大定律公式及定義,這應(yīng)當(dāng)說(shuō)是很成功的,但事情遠(yuǎn)非如此簡(jiǎn)單。早在1928年,當(dāng)美國(guó)理論化學(xué)學(xué)家狄拉克提出知名的狄拉克多項(xiàng)式時(shí)就強(qiáng)調(diào),倘若以量子熱學(xué)的基本原理為出發(fā)點(diǎn)去解決這種問(wèn)題,這么其中的物理問(wèn)題太困難了。
狄拉克(1902-1984)
所以假如要想有進(jìn)展,還是必須做妥協(xié),也就是說(shuō)要對(duì)基本原理作近似。雖然牛頓模式很深刻,但對(duì)復(fù)雜的問(wèn)題,開(kāi)普勒模式常常更有效。
而基于數(shù)據(jù)的開(kāi)普勒模式則是行之有效的。開(kāi)普勒模式最成功的事例是生物信息學(xué)和人類(lèi)基因組工程。正是由于它們的成功,材料基因組工程等類(lèi)似的項(xiàng)目也被提上了議事日程。同樣,天體信息學(xué)、計(jì)算社會(huì)學(xué)等等也成了熱門(mén)學(xué)科。
圖象處理是另外一個(gè)典型的事例。圖象處理是否成功是由人的視覺(jué)系統(tǒng)決定的。所以要從根本上解決圖象處理的問(wèn)題,就須要從理解人的視覺(jué)系統(tǒng)著手,并了解不同質(zhì)量的圖象,對(duì)人的視覺(jué)系統(tǒng)形成哪些樣的影響。這樣的理解其實(shí)很深刻,但是其實(shí)是我們最終所須要的。但從目前來(lái)看,它過(guò)分困難也過(guò)分復(fù)雜。解決好多實(shí)際問(wèn)題時(shí)并不會(huì)真正使用它,而是使用一些更為簡(jiǎn)單的物理模型。
本文致力讓你們通過(guò)一個(gè)簡(jiǎn)單的事例來(lái)理解大數(shù)據(jù)。五、六部份主要摘自《數(shù)據(jù)科學(xué)導(dǎo)引》。
參考資料
[1]
開(kāi)普勒之長(zhǎng)和第谷之短——科學(xué)史上的大數(shù)據(jù)故事:
[2]
灑脫一生,卻真被尿給憋死的天文學(xué)家第谷:
[3]
歐高炎、朱占卜、董彬、鄂維南,《數(shù)據(jù)科學(xué)導(dǎo)引》,高等教育出版社:
[4]
百度百科第谷詞條:%E7%AC%AC%E8%B0%B7%C2%B7%E5%B8%83%E6%8B%89%E8%B5%AB/?=%E7%AC%AC%E8%B0%B7&=&fr=
[5]
第谷的數(shù)據(jù)如何測(cè)下來(lái)的?:
[6]
天文學(xué)家的女巫案:
[7]
可視化開(kāi)普勒的數(shù)據(jù):
