産品簡介

數(shù)據智能(néng)采集平台全網捕獲所需互聯網公開(kāi)信息,所見(jiàn)即所得式采集,為(wèi)用戶提供持續獲取外(wài)部海(hǎi)量數(shù)據的服務。通(tōng)過數(shù)據治理算法組件,對數(shù)據進行(xíng)清洗、治理,保證數(shù)據質量,為(wèi)數(shù)據應用提供有效支撐。

解決方案

頂層框架包括數(shù)據采集、自(zì)動清洗、智能(néng)分類、情報呈現、彙編報告、人(rén)工(gōng)幹預等6個部分。

産品功能(néng)

  • 數(shù)據源管理

    支持對定向網站、社交平台等數(shù)據源進行(xíng)配置管理。

  • 任務分發

    将采集的定向網站、社交平台轉換為(wèi)采集任務,協調監控每個任務隊列的情況。

  • 數(shù)據監控

    支持對采集任務異常情況進行(xíng)監控預警。

  • 數(shù)據治理

    支持對信息進行(xíng)初步處理後,将其結構化入庫,數(shù)據治理算法組件包括:标題抽取、新聞正文抽取、人(rén)名地(dì)名抽取、熱(rè)詞發現、自(zì)動聚類等。

産品特色

  • 海(hǎi)量抓取

    數(shù)據采集采用先進的分布式架構集群部署,可(kě)以抓取海(hǎi)量的網頁,消除單點抓取瓶頸。數(shù)據支持緩存處理和(hé)分庫存儲,保證采集系統穩定高效運行(xíng)。

  • 智能(néng)調度

    采用流式計算技術(shù),對用戶的數(shù)據請(qǐng)求能(néng)夠秒級快(kuài)速響應。智能(néng)的調度機制,對于實時(shí)性要(yào)求較高的源網站優先調度處理。

  • 數(shù)據采集完整可(kě)靠

    采用先進的數(shù)據采集容錯機制,确保數(shù)據傳輸的性能(néng)和(hé)正确性。對于傳輸錯誤的數(shù)據能(néng)夠進行(xíng)重傳。

不展示!