導讀:騰訊作為國內體量**大的互聯網公司之一,業(yè)務涵蓋用戶日常生活的方方面面,面對如此巨大業(yè)務數據量,如果不能對數據進行專業(yè)化處理并高效有序地存、管、用,如果不能使數據產生應有的價值,那么數據資產將會成為數據垃圾,成為社會和企業(yè)的負擔。大數據平臺作為騰訊底層的基礎設施之一,每天必須處理千萬級規(guī)模的離線數據任務及十萬億級別的實時計算,否則無法滿足業(yè)務每天數以億計的數據分析計算的需求。本文主要介紹騰訊大數據的構建理念和總體架構。01騰訊大數據的構建理念項目立項的時候我們曾有過激烈討論,是自主研發(fā)還是使用開源,“Tobe,ornottobe:thatisthequestion”。當時業(yè)務需求比較迫切,2009年上半年,QQ空間引入了“開心農場”業(yè)務,開啟了瘋狂增長的模式,業(yè)務部門的同事看著幾乎是垂直的增長曲線笑逐顏開,我們看著曲線卻笑不出來。如何能快速構建全新的數據倉庫,滿足業(yè)務快速增長的計算需求,我們在努力尋找答案。在2008~2009年,開源在國內還沒大行其道,很多程序員都有一種偏見,覺得使用開源都是沒什么技術含量的。幾乎所有的程序員心里都有一個夢想和追求,希望能自己實現一套前列的系統(tǒng),從而在中國乃至世界的軟件行業(yè)揚名立萬。數據收集可以通過自動化系統(tǒng)或手動方法進行。常州智能化數據采集系統(tǒng)
是指H5集成JavaScript數據采集SDK后,H5觸發(fā)的事件不直接同步給服務端,而是先發(fā)給App端的數據采集SDK,經App端數據采集SDK二次加工處理后入本地緩存再進行同步。App為什么要與H5打通呢?主要是從以下幾個角度考慮。1.數據丟失率在業(yè)界,App端采集數據的丟失率一般在1%左右,而H5采集數據的丟失率一般在5%左右(主要是因為緩存、網絡或切換頁面等原因)。因此,如果App與H5打通,H5觸發(fā)的所有事件都可以先發(fā)給App端數據采集SDK,經過App端二次加工處理后并入本地緩存,在符合特定策略之后再進行同步數據,即可把數據丟失率由5%降到1%左右。2.數據準確性眾所周知,H5無法直接獲取設備相關的信息,只能通過解析UserAgent值獲取到有限的信息,而解析UserAgent值,至少會面臨如下兩個問題:(1)有些信息通過解析UserAgent值根本獲取不到,比如應用程序的版本號等;(2)有些信息通過解析UserAgent值可以獲取到,但內容可能不正確。如果App與H5打通,由App端數據采集SDK補充這些信息,即可確保事件信息的準確性和完整性。3.用戶標識如果用戶在App端注冊或登錄之前使用我們的產品,我們一般都是使用匿名ID來標識用戶。而App與H5標識匿名用戶的規(guī)則不一樣。杭州本地數據采集管理系統(tǒng)數據采集可以通過智能家居設備實現對家庭能源消耗的監(jiān)測和管理。
所以數據分析法在工業(yè)設計中運用非常***,而且是極為重要的。[3]數據分析分析工具編輯使用Excel自帶的數據分析功能可以完成很多專業(yè)軟件才有的數據統(tǒng)計、分析,其中包括:直方圖、相關系數、協(xié)方差、各種概率分布、抽樣與動態(tài)模擬、總體均值判斷,均值推斷、線性、非線性回歸、多元回歸分析、移動平均等內容。在商業(yè)智能領域Cognos、StyleIntelligence、Microstrategy、Brio、BO和Oracle以及國內產品如YonghongZ-SuiteBI套件等。[5]數據分析步驟編輯數據分析有極***的應用范圍。典型的數據分析可能包含以下三個步:[6]1、探索性數據分析:當數據剛取得時,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數據中的規(guī)律性。[6]2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。[6]3、推斷分析:通常使用數理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。[6]數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價并改進數據分析的有效性組成。
關于作者:胡典鋼,***工業(yè)物聯網**,順豐物聯網平臺負責人,兼任順豐集團職業(yè)發(fā)展評審委員和ZETA聯盟工業(yè)物聯網高級顧問,負責順豐物聯網平臺建設及產品化工作。在物聯網、邊緣計算、工業(yè)大數據領域從業(yè)10余年,有豐富的實踐經驗。歷任NI公司應用工程師、高級應用工程師、大區(qū)銷售經理,兼任GSDZone社區(qū)專欄作者和海南大學校外**,NI(中國)**認證雙架構師——LabVIEW架構師和TestStand架構師,主導大型工業(yè)自動化測試控制和工業(yè)物聯網項目的開發(fā)工作。2016年受邀撰寫專著《TestStand工業(yè)自動化測試管理》,廣受業(yè)界好評,多次重印。本文摘編自《工業(yè)物聯網:平臺架構、關鍵技術與應用實踐》,經出版方授權發(fā)布。(ISBN:978-7-111-70227-6)延伸閱讀《工業(yè)物聯網》點擊上圖了解及購買轉載請聯系微信:DoctorData推薦語:這是一本從平臺架構、關鍵技術、應用實踐3個維度***講解工業(yè)物聯網如何在生產實踐中落地的著作。它是順豐物聯網平臺負責人10余年經驗的總結,得到了行業(yè)里近10位**的一致推薦。數據采集可以通過智能交通系統(tǒng)實現對交通擁堵和事故的實時預警。
人工智能(AI)是指通過模擬、仿真和延伸人類智能的方法和技術,使計算機系統(tǒng)能夠執(zhí)行類似于人類的認知、學習、推理和決策等智能活動。人工智能的目標是讓計算機系統(tǒng)能夠像人類一樣思考、學習和行動,從而解決各種復雜的問題,并提供智能化的服務和支持。人工智能涵蓋了多個子領域和技術,其中一些主要包括:機器學習:機器學習是一種讓計算機系統(tǒng)通過學習數據和模式來改善性能的技術,包括監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和強化學習等方法。深度學習:深度學習是機器學習的一個分支,基于人工神經網絡模型,通過多層次的非線性變換來學習數據的高級抽象表示,廣泛應用于圖像識別、語音識別、自然語言處理等領域。自然語言處理(NLP):自然語言處理是研究計算機如何理解、處理和生成自然語言的技術,包括文本分析、語言翻譯、語音識別等方面。計算機視覺:計算機視覺是研究計算機如何從圖像或視頻中理解和分析視覺信息的技術,包括目標檢測、圖像分類、物體識別等領域。智能機器人:智能機器人是結合了感知、學習和決策能力的機器人系統(tǒng),能夠自主地執(zhí)行任務和與環(huán)境進行交互。 數據采集可以通過物聯網技術實現對設備狀態(tài)和故障的遠程監(jiān)測。徐州光學數據采集單價
數據采集在科學研究中被廣泛應用,例如天文觀測和地質勘探。常州智能化數據采集系統(tǒng)
▲圖2***代離線計算平臺架構第二代架構從2012~2014年,在承載離線計算的基礎上,擴展了平臺能力,支持實時計算的需求,如圖3所示。▲圖3第二代實時計算平臺架構在***代離線計算平臺基礎之上,我們融合Storm和Spark構建了第二代實時計算平臺。主要的演進如下。1)集成Spark,離線計算比Hadoop性能更高。2)引入Storm,支持秒級/毫秒級的流式計算任務。3)建設了實時采集系統(tǒng)TDBank,數據采集實現從天級(T+1)到秒級的飛躍。4)支持資源和任務調度方面,平臺支持離線與在線混合部署,任務容器化,資源管理的維度支持CPU、內存,以及網絡與I/O,進一步提升了平臺輕量化、敏捷性與靈活性,極大提升了平臺利用率,降低了成本。第三代架構從2015~2019年,在通用大數據計算外,開始支持機器學習、深度學習等AI場景,BigData與AI在平臺層面逐步融合,如圖4所示?!鴪D4第三代機器學習計算平臺在第二代實時計算平臺基礎上,自主研發(fā)了機器學習平臺Angel,并以Angel為**構建第三代機器學習計算平臺生態(tài)。主要演進如下。1)我們與北京大學合作,自主研發(fā)了高性能分布式機器學習平臺。該平臺支持十億至百億維度模型,支持數據并行及模型并行,支持在線訓練。同時。常州智能化數據采集系統(tǒng)