基于Hadoop的Mintaka大數據平臺集成了多種語言等工具,實現對海量數據進行清洗、轉化、裝載,支持PB級數據的處理,并對這些數據進行處理分析,以統計出用戶的位置、行為習慣及標簽信息,以及深度的內容識別。
基于Hadoop的Mintaka大數據平臺集成了多種語言等工具,實現對海量數據進行清洗、轉化、裝載,支持PB級數據的處理,并對這些數據進行處理分析,以統計出用戶的位置、行為習慣及標簽信息,以及深度的內容識別。
Mintaka大數據平臺支持采集以下三種數據:
1. 網絡信令數據:移動通信信令、寬帶通信信令、物聯網等通信信令數據。
2. 業務數據:企業CRM、EPR、生產、銷售、物流等數據。
3. 互聯網數據:京東、天貓、今日頭條、美團等互聯網應用數據。
Mintaka可存儲與計算海量數據,如用戶標簽/位置/行為數據等,還可實現各類數據的關聯整合與統一建模,為上層應用提供統一的數據服務。采用“混搭架構”,能支撐不同業務的實時查詢、統計分析、大數據分析三類數據訪問需求。
專用數據處理組件:具有海量數據的實時計算、離線計算、實時熱查詢等能力。
用戶內容識別:對用戶使用的app/網站、搜索內容進行識別,并支持識別市面85%的重點手機應用/網站,如微信、京東、淘寶等app和網站上的具體動作,增加數據來源。
智能生成用戶標簽:通過對客戶的行為記錄及位置信息進行統計,使用智能學習引擎計算出用戶標簽。
用戶信息實時更新:從接收到的各類數據中,實時更新客戶行為記錄以及客戶位置信息。
數據非實時處理:可根據所記錄下來的所有客戶位置記錄及行為記錄進行非實時統計,實現離線大批量的數據處理。
多維分析:使用Apache Kylin?分布式分析引擎實現多維分析(OLAP),支持超大規模數據亞秒級快速查詢。
數據治理:提供數據血緣分析以及數據追溯,以及審計日志來追蹤、了解對敏感數據訪問的能力。
數據科學自動化:基于Cloudera數據科學家開發平臺,訪問數據更容易,運用數據科學獲得更多價值。
數據可視化分析:可將數據生成可視化圖表,使用網頁瀏覽器進行分析和操作,還可以將數據發布進行企業多人協作,實現了可視化的數據交互。
可視化運維管理:基于Cloudera Manager,支持對集群的管理、監控、診斷和集成功能。
支持電信行業每天十幾GB級別的數據量
面對萬億數據的亞秒級查詢延遲;水平拓展,從容應對高并發;無縫集成,兼容主流BI工具
全面支撐傳統DW/BI應用,可大大減少MPP軟件的采購費用,充分使用低硬件成本的Hadoop集群。