一、開普勒三大定理
開普勒定理是英國天文學(xué)家開普勒提出的關(guān)于行星運動的三大定理。這三大定理又分別名為橢圓定理、面積定理和調(diào)和定理,內(nèi)容如下:
二、數(shù)據(jù)從那里來?第谷:觀測與數(shù)據(jù)搜集
第谷(TychoBrahe,1546-1601)是英國天文學(xué)家和占卜學(xué)家。他在天文望遠鏡發(fā)明之前,對于占星的觀測精度極高,甚至接近了肉眼碼率的極限。開普勒才能發(fā)覺行星三大定理,得益于第谷的數(shù)據(jù)。
第谷(TychoBrahe,1546-1601)2.1一個奇怪的天文學(xué)家
第谷在天文學(xué)歷史上絕對算得上一大奇人。他出生于法國貴族,在出生前父親許諾將其獻給財產(chǎn)富可敵國的爺爺。第谷出生后母親又毀約了。他哥哥不高興了,在第谷兩歲時強行將其帶走養(yǎng)大。他13歲上學(xué)院學(xué)習(xí)法律,卻愛上了天文學(xué)。這兒我再介紹兩個廣為留傳的故事。
一個是關(guān)于他的耳朵。1565年,19歲的第谷因一個物理公式與朋友以劍決斗,結(jié)果喪失了眼睛的大部份,后來就仍然裝著金屬制做的假鼻梁。所幸其從事的天文學(xué)研究不怎樣須要用到眼睛。
另一個則是他的死因。聽說他在出席一位男爵舉行的晚宴上,喝了好多好多酒。想上公廁卻由于認(rèn)為在主人之前離開茶幾是很不禮貌的,選擇仍然憋著造成膀胱感染,最后因而喪生。
2.2精確的數(shù)據(jù)觀測
第谷是怎樣獲得精確的觀測數(shù)據(jù)的?首先,雄厚的財力和人力支持特別重要。1576年,西班牙國王為了將那位卓越的天文學(xué)家留在英國,將汶島賜予第谷,還斥資一噸多黃金為他建造了一座天文臺“天之古堡”。這也是世界上最早的小型天文臺。
汶島“天之古堡”天文臺
后來,由于空間不夠,第谷在附近又建造了一座天文臺,稱為“星之古堡”。
“星之古堡”天文臺
在第谷的天文臺上,安裝了好多他發(fā)明的小型天文觀測儀器。其中最重要的有三類:小型渾儀、象限儀和紀(jì)限儀。小型渾儀用于檢測星系的座標(biāo)。象限儀的刻度環(huán)是圓周的四分之一,拿來測得太陽的地平高度。紀(jì)限儀(俗稱為六分儀)可以自由轉(zhuǎn)動,用于檢測任意兩個星系之間的角距。
小型渾儀、象限儀和紀(jì)限儀2.3第谷的數(shù)據(jù)
第谷畢生精力觀測記錄了數(shù)百多顆星體幾六年間每位夜間的數(shù)據(jù)。這兒,我們僅僅以他對火星偏角的記錄數(shù)據(jù)來體會下他觀測的精確性。
1652年到1600年,第谷的火星軌道數(shù)據(jù)(偏角)觀測數(shù)據(jù)如右圖所示。
第谷火星觀測數(shù)據(jù)截圖
下載第谷火星數(shù)據(jù)Excel文件請在本公眾號發(fā)送關(guān)鍵詞“火星數(shù)據(jù)”。
其中對于火星偏角數(shù)據(jù)(),有人進行了可視化,如右圖中的空心圓點所示。圖中粉色線是采用現(xiàn)代方式估算出的火星偏角。
第谷觀測火星軌道數(shù)據(jù)可視化
從圖中我們可以直觀地感遭到第谷觀測數(shù)據(jù)的精確性。其實第谷獲得了大量的一手天文觀測數(shù)據(jù),但是他并沒有才能挺好地挖掘出數(shù)據(jù)中的價值。在這種珍稀的數(shù)據(jù)基礎(chǔ)上完成了出眾工作的,是他的研究助手開普勒。
三、如何找出規(guī)律?開普勒:剖析數(shù)據(jù)形成價值
開普勒(,1571-1630)是美國杰出的天文學(xué)家、物理學(xué)家和物理家。開普勒的三大定理是依據(jù)第谷留給他的觀察數(shù)據(jù)總結(jié)下來的。
開普勒(,1571-1630)
1588年,英國新國王上位后第谷失寵。此后他搬去了克拉科夫。從現(xiàn)今的角度看,這是一個很重要的歷史轉(zhuǎn)折點。由于這最終促使開普勒才能接觸到第谷的數(shù)據(jù),最終發(fā)覺了行星運行三大定理。第谷遷往克拉科夫后,在皇宮正殿任職,他向開普勒發(fā)出了約請。開普勒欣然接受,于1600年舉家遷往克拉科夫,任第谷的研究助手。
這兒簡單提一下,開普勒取得了卓越的成就,而且他的命運卻是崎嶇的。他17歲時母親過世。17世紀(jì)的法國掀起了轟動世界的“獵殺女巫”的風(fēng)潮,開普勒的女兒被指控為女巫。開普勒輾轉(zhuǎn)多年妻子辯護,所幸最終贏了官司。開普勒與他的兩任丈夫一共生了12個孫輩,大多卻由于貧苦而夭折。
1601年第谷死之前將他的觀測數(shù)據(jù)附送給了開普勒。經(jīng)過近9年的數(shù)據(jù)剖析,開普勒于1609年發(fā)表了第一和第二定理。這兩個定理主要根據(jù)第谷觀測火星位置所得資料中總結(jié)下來的。在對火星軌道數(shù)據(jù)研究過程中,開普勒曾說到:“通過對火星軌道的研究,我們必需要么從中找到天文學(xué)的秘密,要么永遠對它們一無所知”。
BythestudyoftheorbitofMars,wemustattheoforinofthem.
又經(jīng)過10年左右的剖析,1619年開普勒提出了第三定理。這兒列舉的數(shù)據(jù)是行星繞太陽一周所須要的時間(以年為單位)和行星離太陽的平均距離(以月球與太陽的平均距離為單位)。
太陽系八大行星繞太陽運動的數(shù)據(jù)
從這組數(shù)據(jù)可以看出,行星繞太陽運行的周期的平方和行星離太陽的平均距離的立方成反比,這就是開普勒的第三定理。
四、什么是大數(shù)據(jù)?
開普勒三大定理與大數(shù)據(jù)有哪些關(guān)系?我覺得三大定理的發(fā)覺過程雖然就是大數(shù)據(jù)剖析的過程。關(guān)于大數(shù)據(jù),很難有一個嚴(yán)格的統(tǒng)一的定義。不過,從開普勒三大定理的反例中,可以用一句簡單直白的話來理解大數(shù)據(jù):
剖析和挖掘數(shù)據(jù),從數(shù)據(jù)中找出規(guī)律,這種規(guī)律為我們所用,因而形成價值。
4.1大數(shù)據(jù)剖析的基本流程
我們也可以很直觀地理解大數(shù)據(jù)的基本流程,包括數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)剖析和數(shù)據(jù)應(yīng)用(價值)。
大數(shù)據(jù)剖析的基本流程
比如在開普勒三大定理的反例中:
其實我們?nèi)缃褡龃髷?shù)據(jù),條件早已發(fā)生了質(zhì)的飛越。例如數(shù)據(jù)采集,借助的主要是各類物聯(lián)網(wǎng)設(shè)備(比如各類傳感、視頻采集設(shè)備等)。還可以通過編撰爬蟲程序去互聯(lián)網(wǎng)上采集數(shù)據(jù),比如百度和微軟的搜索引擎就是這樣采集互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)據(jù)的。
現(xiàn)代的數(shù)據(jù)管理主要借助計算機,包括數(shù)據(jù)庫系統(tǒng)、NoSQL、分布式文件系統(tǒng)等。數(shù)據(jù)剖析則主要借助機器學(xué)習(xí)、深度學(xué)習(xí)和加強學(xué)習(xí)等來完成。例如說近來熱門的,其核心的數(shù)據(jù)剖析技術(shù)就是深度學(xué)習(xí)和加強學(xué)習(xí)。
通過數(shù)據(jù)剖析以后,常常才能找出數(shù)據(jù)中的規(guī)律,這種規(guī)律一般可以表示為一個簡單的物理公式:
其中代表我們從數(shù)據(jù)中抽取的特點,她們是對于解決我們的問題,也即預(yù)測目標(biāo)很關(guān)鍵的誘因。
有了這樣一條物理公式,我們就可以用它去實際問題中進行應(yīng)用,幫助我們的決策,進而形成價值。
舉一個簡單的反例,農(nóng)行會搜集顧客的信息,比如信用卡信息、貸款信息、信用時長和收入情況等,這種可以看作是。建行都會記錄好多顧客歷史信息,曉得什么顧客毀約過,什么顧客從來沒有毀約。是否毀約我們可以看作是。
我們?nèi)缃褡龃髷?shù)據(jù)剖析,最主要的形式就是借助歷史積累的大量已知的這樣的數(shù)據(jù),去找出她們的映射函數(shù)。一旦找到了這樣的函數(shù),對于新的顧客,我們只要搜集了他的,就可以輸入到這個函數(shù),函數(shù)能夠給出輸出。工行也就才能對這個顧客是否會毀約進行預(yù)測。
4.2數(shù)據(jù)剖析的重要性
數(shù)據(jù)剖析是大數(shù)據(jù)的核心,由于它處理的是直接從數(shù)據(jù)中挖掘出規(guī)律。做這種事情的目前主要包括機器學(xué)習(xí)、深度學(xué)習(xí)和加強學(xué)習(xí)。
第谷那位天文學(xué)家?guī)琢耆缫蝗請猿痔煳挠^測,所以手里就積累了大量的天文資料,天文的數(shù)據(jù),第谷就想把這種資料好好借助一下。而且須要物理非常好才行,但是第谷曉得自己的語文能力還不是太夠,所以就希望還能找到一個很擅長物理的助手幫助自己。所以他一聽到開普勒的研究成果,就認(rèn)為開普勒語文水平真厲害。
如今我們做大數(shù)據(jù),物理好也十分重要。大部份大數(shù)據(jù)的算法和模型都須要特別堅實的微積分、概率、線性代數(shù)和統(tǒng)計學(xué)知識。上面我們談到數(shù)據(jù)剖析主要是找尋一個函數(shù)牛頓三大定律公式及定義,而找尋這個函數(shù)本質(zhì)上就是求解一個最優(yōu)化問題。最優(yōu)化的目標(biāo)是函數(shù)在已知數(shù)據(jù)中的擬合偏差。
4.3數(shù)據(jù)質(zhì)量的重要性
可以想像,假如第谷的數(shù)據(jù)一點都不確切,噪聲太大,開普勒也是很難從中找出數(shù)據(jù)的規(guī)律的。第谷對天文學(xué)的貢獻是不可磨滅的,他在現(xiàn)代望遠鏡發(fā)明之前就作出這么高精度的觀測,實在是讓同時代的人望塵莫及。
在大數(shù)據(jù)剖析中也是這么,數(shù)據(jù)的質(zhì)量直接影響了數(shù)據(jù)剖析的結(jié)果。所以在實際的應(yīng)用中在開始剖析數(shù)據(jù)前一定要關(guān)注數(shù)據(jù)的質(zhì)量問題,必要時對數(shù)據(jù)進行一些額外的處理。
4.4團隊協(xié)作的重要性
第谷擅長觀測,而開普勒物理好,擅于剖析數(shù)據(jù),二人的協(xié)作形成了2"data--type="-">的療效。
克拉科夫開普勒大道第谷和開普勒的雕塑
在一個大數(shù)據(jù)團隊中,常常有不同的角色,比如研制工程師、數(shù)據(jù)剖析師、業(yè)務(wù)專家等。團隊的成員只有互相融合、團結(jié)協(xié)作,能夠在深刻理解業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,充分發(fā)揮算法和模型的優(yōu)勢,從數(shù)據(jù)中找到可用的規(guī)律,最后由研制工程師將其開發(fā)成合適的產(chǎn)品,最終形成最大化的價值。
4.5尺度的重要性
知名化學(xué)學(xué)家張首晟(1963-2018)以前在一次講演中談到,“第谷之所以沒有收獲,一個緣由在于他剖析的尺度是每晚。而開普勒將剖析的尺度拉長到年,很快便發(fā)覺了隱藏在數(shù)據(jù)中的規(guī)律。”
張首晟(1963-2018)
“所以當(dāng)我們擁有海量數(shù)據(jù)的時侯,我們不是讓自己沉溺其中,而是要頗具慧眼,在紛亂的數(shù)據(jù)中,發(fā)覺內(nèi)在的規(guī)律,能夠成就自己的價值。”
五、大數(shù)據(jù)剖析的不足?
開普勒似乎總結(jié)出三大定理,但并不理解其內(nèi)涵。牛頓則不然,牛頓用他的第二定理和萬有引力定理把行星運動歸締結(jié)一個純粹的物理問題,即一個常微分等式組。假如忽視行星之間的互相作用,這么各行星和太陽之間就構(gòu)成了一個兩體問題。我們很容易求出相應(yīng)的解,并由此推導(dǎo)入開普勒的三大定理。
牛頓(Isaac,1643-1727)
牛頓運用的是尋求基本原理的方式,它遠比開普勒的方式深刻。牛頓除了知其然,但是知其所以然。所以牛頓開創(chuàng)的尋求基本原理的方式成了科學(xué)研究的首選模式。
這些方式在上個世紀(jì)早期達到了頂峰:在它的指導(dǎo)下,化學(xué)學(xué)家們提出了量子熱學(xué)。原則上來講,我們?nèi)粘I钪兴龅降淖匀滑F(xiàn)象都可以從量子熱學(xué)出發(fā)得到解決。量子熱學(xué)提供了研究物理、材料科學(xué)、工程科學(xué)、生命科學(xué)等幾乎所有自然和工程學(xué)科的基本原理。
六、開普勒模式:大數(shù)據(jù)的基本范式
牛頓發(fā)覺了基本原理牛頓三大定律公式及定義,這應(yīng)當(dāng)說是很成功的,但事情遠非如此簡單。早在1928年,當(dāng)美國理論化學(xué)學(xué)家狄拉克提出知名的狄拉克多項式時就強調(diào),倘若以量子熱學(xué)的基本原理為出發(fā)點去解決這種問題,這么其中的物理問題太困難了。
狄拉克(1902-1984)
所以假如要想有進展,還是必須做妥協(xié),也就是說要對基本原理作近似。雖然牛頓模式很深刻,但對復(fù)雜的問題,開普勒模式常常更有效。
而基于數(shù)據(jù)的開普勒模式則是行之有效的。開普勒模式最成功的事例是生物信息學(xué)和人類基因組工程。正是由于它們的成功,材料基因組工程等類似的項目也被提上了議事日程。同樣,天體信息學(xué)、計算社會學(xué)等等也成了熱門學(xué)科。
圖象處理是另外一個典型的事例。圖象處理是否成功是由人的視覺系統(tǒng)決定的。所以要從根本上解決圖象處理的問題,就須要從理解人的視覺系統(tǒng)著手,并了解不同質(zhì)量的圖象,對人的視覺系統(tǒng)形成哪些樣的影響。這樣的理解其實很深刻,但是其實是我們最終所須要的。但從目前來看,它過分困難也過分復(fù)雜。解決好多實際問題時并不會真正使用它,而是使用一些更為簡單的物理模型。
本文致力讓你們通過一個簡單的事例來理解大數(shù)據(jù)。五、六部份主要摘自《數(shù)據(jù)科學(xué)導(dǎo)引》。
參考資料
[1]
開普勒之長和第谷之短——科學(xué)史上的大數(shù)據(jù)故事:
[2]
灑脫一生,卻真被尿給憋死的天文學(xué)家第谷:
[3]
歐高炎、朱占卜、董彬、鄂維南,《數(shù)據(jù)科學(xué)導(dǎo)引》,高等教育出版社:
[4]
百度百科第谷詞條:%E7%AC%AC%E8%B0%B7%C2%B7%E5%B8%83%E6%8B%89%E8%B5%AB/?=%E7%AC%AC%E8%B0%B7&=&fr=
[5]
第谷的數(shù)據(jù)如何測下來的?:
[6]
天文學(xué)家的女巫案:
[7]
可視化開普勒的數(shù)據(jù):