一、開普勒三大定理
開普勒定理是英國天文學家開普勒提出的關于行星運動的三大定理。這三大定理又分別名為橢圓定理、面積定理和調和定理,內容如下:
二、數據從那里來?第谷:觀測與數據搜集
第谷(TychoBrahe,1546-1601)是英國天文學家和占卜學家。他在天文望遠鏡發明之前,對于占星的觀測精度極高,甚至接近了肉眼碼率的極限。開普勒才能發覺行星三大定理,得益于第谷的數據。
第谷(TychoBrahe,1546-1601)2.1一個奇怪的天文學家
第谷在天文學歷史上絕對算得上一大奇人。他出生于法國貴族,在出生前父親許諾將其獻給財產富可敵國的爺爺。第谷出生后母親又毀約了。他哥哥不高興了,在第谷兩歲時強行將其帶走養大。他13歲上學院學習法律,卻愛上了天文學。這兒我再介紹兩個廣為留傳的故事。
一個是關于他的耳朵。1565年,19歲的第谷因一個物理公式與朋友以劍決斗,結果喪失了眼睛的大部份,后來就仍然裝著金屬制做的假鼻梁。所幸其從事的天文學研究不怎樣須要用到眼睛。
另一個則是他的死因。聽說他在出席一位男爵舉行的晚宴上,喝了好多好多酒。想上公廁卻由于認為在主人之前離開茶幾是很不禮貌的,選擇仍然憋著造成膀胱感染,最后因而喪生。
2.2精確的數據觀測
第谷是怎樣獲得精確的觀測數據的?首先,雄厚的財力和人力支持特別重要。1576年,西班牙國王為了將那位卓越的天文學家留在英國,將汶島賜予第谷,還斥資一噸多黃金為他建造了一座天文臺“天之古堡”。這也是世界上最早的小型天文臺。
汶島“天之古堡”天文臺
后來,由于空間不夠,第谷在附近又建造了一座天文臺,稱為“星之古堡”。
“星之古堡”天文臺
在第谷的天文臺上,安裝了好多他發明的小型天文觀測儀器。其中最重要的有三類:小型渾儀、象限儀和紀限儀。小型渾儀用于檢測星系的座標。象限儀的刻度環是圓周的四分之一,拿來測得太陽的地平高度。紀限儀(俗稱為六分儀)可以自由轉動,用于檢測任意兩個星系之間的角距。
小型渾儀、象限儀和紀限儀2.3第谷的數據
第谷畢生精力觀測記錄了數百多顆星體幾六年間每位夜間的數據。這兒,我們僅僅以他對火星偏角的記錄數據來體會下他觀測的精確性。
1652年到1600年,第谷的火星軌道數據(偏角)觀測數據如右圖所示。
第谷火星觀測數據截圖
下載第谷火星數據Excel文件請在本公眾號發送關鍵詞“火星數據”。
其中對于火星偏角數據(),有人進行了可視化,如右圖中的空心圓點所示。圖中粉色線是采用現代方式估算出的火星偏角。
第谷觀測火星軌道數據可視化
從圖中我們可以直觀地感遭到第谷觀測數據的精確性。其實第谷獲得了大量的一手天文觀測數據,但是他并沒有才能挺好地挖掘出數據中的價值。在這種珍稀的數據基礎上完成了出眾工作的,是他的研究助手開普勒。
三、如何找出規律?開普勒:剖析數據形成價值
開普勒(,1571-1630)是美國杰出的天文學家、物理學家和物理家。開普勒的三大定理是依據第谷留給他的觀察數據總結下來的。
開普勒(,1571-1630)
1588年,英國新國王上位后第谷失寵。此后他搬去了克拉科夫。從現今的角度看,這是一個很重要的歷史轉折點。由于這最終促使開普勒才能接觸到第谷的數據,最終發覺了行星運行三大定理。第谷遷往克拉科夫后,在皇宮正殿任職,他向開普勒發出了約請。開普勒欣然接受,于1600年舉家遷往克拉科夫,任第谷的研究助手。
這兒簡單提一下,開普勒取得了卓越的成就,而且他的命運卻是崎嶇的。他17歲時母親過世。17世紀的法國掀起了轟動世界的“獵殺女巫”的風潮,開普勒的女兒被指控為女巫。開普勒輾轉多年妻子辯護,所幸最終贏了官司。開普勒與他的兩任丈夫一共生了12個孫輩,大多卻由于貧苦而夭折。
1601年第谷死之前將他的觀測數據附送給了開普勒。經過近9年的數據剖析,開普勒于1609年發表了第一和第二定理。這兩個定理主要根據第谷觀測火星位置所得資料中總結下來的。在對火星軌道數據研究過程中,開普勒曾說到:“通過對火星軌道的研究,我們必需要么從中找到天文學的秘密,要么永遠對它們一無所知”。
BythestudyoftheorbitofMars,wemustattheoforinofthem.
又經過10年左右的剖析,1619年開普勒提出了第三定理。這兒列舉的數據是行星繞太陽一周所須要的時間(以年為單位)和行星離太陽的平均距離(以月球與太陽的平均距離為單位)。
太陽系八大行星繞太陽運動的數據
從這組數據可以看出,行星繞太陽運行的周期的平方和行星離太陽的平均距離的立方成反比,這就是開普勒的第三定理。
四、什么是大數據?
開普勒三大定理與大數據有哪些關系?我覺得三大定理的發覺過程雖然就是大數據剖析的過程。關于大數據,很難有一個嚴格的統一的定義。不過,從開普勒三大定理的反例中,可以用一句簡單直白的話來理解大數據:
剖析和挖掘數據,從數據中找出規律,這種規律為我們所用,因而形成價值。
4.1大數據剖析的基本流程
我們也可以很直觀地理解大數據的基本流程,包括數據采集、數據管理、數據剖析和數據應用(價值)。
大數據剖析的基本流程
比如在開普勒三大定理的反例中:
其實我們如今做大數據,條件早已發生了質的飛越。例如數據采集,借助的主要是各類物聯網設備(比如各類傳感、視頻采集設備等)。還可以通過編撰爬蟲程序去互聯網上采集數據,比如百度和微軟的搜索引擎就是這樣采集互聯網上的網頁數據的。
現代的數據管理主要借助計算機,包括數據庫系統、NoSQL、分布式文件系統等。數據剖析則主要借助機器學習、深度學習和加強學習等來完成。例如說近來熱門的,其核心的數據剖析技術就是深度學習和加強學習。
通過數據剖析以后,常常才能找出數據中的規律,這種規律一般可以表示為一個簡單的物理公式:
其中代表我們從數據中抽取的特點,她們是對于解決我們的問題,也即預測目標很關鍵的誘因。
有了這樣一條物理公式,我們就可以用它去實際問題中進行應用,幫助我們的決策,進而形成價值。
舉一個簡單的反例,農行會搜集顧客的信息,比如信用卡信息、貸款信息、信用時長和收入情況等,這種可以看作是。建行都會記錄好多顧客歷史信息,曉得什么顧客毀約過,什么顧客從來沒有毀約。是否毀約我們可以看作是。
我們如今做大數據剖析,最主要的形式就是借助歷史積累的大量已知的這樣的數據,去找出她們的映射函數。一旦找到了這樣的函數,對于新的顧客,我們只要搜集了他的,就可以輸入到這個函數,函數能夠給出輸出。工行也就才能對這個顧客是否會毀約進行預測。
4.2數據剖析的重要性
數據剖析是大數據的核心,由于它處理的是直接從數據中挖掘出規律。做這種事情的目前主要包括機器學習、深度學習和加強學習。
第谷那位天文學家幾六年如一日堅持天文觀測,所以手里就積累了大量的天文資料,天文的數據,第谷就想把這種資料好好借助一下。而且須要物理非常好才行,但是第谷曉得自己的語文能力還不是太夠,所以就希望還能找到一個很擅長物理的助手幫助自己。所以他一聽到開普勒的研究成果,就認為開普勒語文水平真厲害。
如今我們做大數據,物理好也十分重要。大部份大數據的算法和模型都須要特別堅實的微積分、概率、線性代數和統計學知識。上面我們談到數據剖析主要是找尋一個函數牛頓三大定律公式及定義,而找尋這個函數本質上就是求解一個最優化問題。最優化的目標是函數在已知數據中的擬合偏差。
4.3數據質量的重要性
可以想像,假如第谷的數據一點都不確切,噪聲太大,開普勒也是很難從中找出數據的規律的。第谷對天文學的貢獻是不可磨滅的,他在現代望遠鏡發明之前就作出這么高精度的觀測,實在是讓同時代的人望塵莫及。
在大數據剖析中也是這么,數據的質量直接影響了數據剖析的結果。所以在實際的應用中在開始剖析數據前一定要關注數據的質量問題,必要時對數據進行一些額外的處理。
4.4團隊協作的重要性
第谷擅長觀測,而開普勒物理好,擅于剖析數據,二人的協作形成了2"data--type="-">的療效。
克拉科夫開普勒大道第谷和開普勒的雕塑
在一個大數據團隊中,常常有不同的角色,比如研制工程師、數據剖析師、業務專家等。團隊的成員只有互相融合、團結協作,能夠在深刻理解業務數據的基礎上,充分發揮算法和模型的優勢,從數據中找到可用的規律,最后由研制工程師將其開發成合適的產品,最終形成最大化的價值。
4.5尺度的重要性
知名化學學家張首晟(1963-2018)以前在一次講演中談到,“第谷之所以沒有收獲,一個緣由在于他剖析的尺度是每晚。而開普勒將剖析的尺度拉長到年,很快便發覺了隱藏在數據中的規律。”
張首晟(1963-2018)
“所以當我們擁有海量數據的時侯,我們不是讓自己沉溺其中,而是要頗具慧眼,在紛亂的數據中,發覺內在的規律,能夠成就自己的價值。”
五、大數據剖析的不足?
開普勒似乎總結出三大定理,但并不理解其內涵。牛頓則不然,牛頓用他的第二定理和萬有引力定理把行星運動歸締結一個純粹的物理問題,即一個常微分等式組。假如忽視行星之間的互相作用,這么各行星和太陽之間就構成了一個兩體問題。我們很容易求出相應的解,并由此推導入開普勒的三大定理。
牛頓(Isaac,1643-1727)
牛頓運用的是尋求基本原理的方式,它遠比開普勒的方式深刻。牛頓除了知其然,但是知其所以然。所以牛頓開創的尋求基本原理的方式成了科學研究的首選模式。
這些方式在上個世紀早期達到了頂峰:在它的指導下,化學學家們提出了量子熱學。原則上來講,我們日常生活中所遇到的自然現象都可以從量子熱學出發得到解決。量子熱學提供了研究物理、材料科學、工程科學、生命科學等幾乎所有自然和工程學科的基本原理。
六、開普勒模式:大數據的基本范式
牛頓發覺了基本原理牛頓三大定律公式及定義,這應當說是很成功的,但事情遠非如此簡單。早在1928年,當美國理論化學學家狄拉克提出知名的狄拉克多項式時就強調,倘若以量子熱學的基本原理為出發點去解決這種問題,這么其中的物理問題太困難了。
狄拉克(1902-1984)
所以假如要想有進展,還是必須做妥協,也就是說要對基本原理作近似。雖然牛頓模式很深刻,但對復雜的問題,開普勒模式常常更有效。
而基于數據的開普勒模式則是行之有效的。開普勒模式最成功的事例是生物信息學和人類基因組工程。正是由于它們的成功,材料基因組工程等類似的項目也被提上了議事日程。同樣,天體信息學、計算社會學等等也成了熱門學科。
圖象處理是另外一個典型的事例。圖象處理是否成功是由人的視覺系統決定的。所以要從根本上解決圖象處理的問題,就須要從理解人的視覺系統著手,并了解不同質量的圖象,對人的視覺系統形成哪些樣的影響。這樣的理解其實很深刻,但是其實是我們最終所須要的。但從目前來看,它過分困難也過分復雜。解決好多實際問題時并不會真正使用它,而是使用一些更為簡單的物理模型。
本文致力讓你們通過一個簡單的事例來理解大數據。五、六部份主要摘自《數據科學導引》。
參考資料
[1]
開普勒之長和第谷之短——科學史上的大數據故事:
[2]
灑脫一生,卻真被尿給憋死的天文學家第谷:
[3]
歐高炎、朱占卜、董彬、鄂維南,《數據科學導引》,高等教育出版社:
[4]
百度百科第谷詞條:%E7%AC%AC%E8%B0%B7%C2%B7%E5%B8%83%E6%8B%89%E8%B5%AB/?=%E7%AC%AC%E8%B0%B7&=&fr=
[5]
第谷的數據如何測下來的?:
[6]
天文學家的女巫案:
[7]
可視化開普勒的數據: