智慧城市 數(shù)據(jù)融合 第3部分:數(shù)據(jù)采集規(guī)范 GB/T 36625.3-2021
前言
GB/T 36625《智慧城市 數(shù)據(jù)融合)分為以下五個(gè)部分:
--第1部分:概念模型;
--第2部分:數(shù)據(jù)編碼規(guī)范;
--第3部分:數(shù)據(jù)采集規(guī)范;
--第4部分:開(kāi)放共享要求;
--第5部分:市政基礎(chǔ)設(shè)施數(shù)據(jù)元素。
本部分為GB/T 36625的第3部分。
本部分按照GB/T 1.1-2009 給出的規(guī)則起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。
本部分由中華人民共和國(guó)工業(yè)和信息化部提出。
本部分由全國(guó)通信標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC 485)歸口。
本部分起草單位:中國(guó)城市科學(xué)研究會(huì)、中城智慧(北京)城市規(guī)劃設(shè)計(jì)研究院有限公司、中城智慧科技有限公司、軟通智慧科技有限公司、北京清華同衡規(guī)劃設(shè)計(jì)研究院有限公司、上海竹唄信息技術(shù)有限公司、華為技術(shù)有限公司、深圳市華傲數(shù)據(jù)技術(shù)有限公司、中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院、訊飛智元信息科技有限公司、中興通訊股份有限公司、中冶京誠(chéng)工程技術(shù)有限公司、廣東珠光集團(tuán)有限公司、吉林吉大通信設(shè)計(jì)院股份有限公司、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、中國(guó)信息通信研究院、山東省標(biāo)準(zhǔn)化研究院、建設(shè)綜合勘察研究設(shè)計(jì)院有限公司。
本部分主要起草人:萬(wàn)碧玉、吳麗麗、馬蓉、王飛飛、王圣波、聶明、崔吳、龔健、李贊、蘇平、朱崇亞、姜棟、李玲玲、曹余、李寧麗、黎俊茂、毛漢平、劉雅晶、佟敏、劉朝暉、李海龍、單峰、張紅衛(wèi)、方可、減磊、杜青峰、李公立、劉棠麗、孫郁噸、陳慧文、王建新、于富東、王樹(shù)東。
智慧城市 ?數(shù)據(jù)融合
第3部分:數(shù)據(jù)采集規(guī)范
1范圍
GB/T 36625的本部分規(guī)定了智慧城市數(shù)據(jù)融合過(guò)程中數(shù)據(jù)采集過(guò)程、數(shù)據(jù)采集內(nèi)容、數(shù)據(jù)采集技術(shù)、數(shù)據(jù)采集質(zhì)量控制及數(shù)據(jù)采集安全控制。
本部分適用于智慧城市各系統(tǒng)的規(guī)劃設(shè)計(jì)、建設(shè)和管理,其他信息化領(lǐng)域的數(shù)據(jù)采集過(guò)程也可參考使用。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 5271.1信息技術(shù) ?詞匯 ?第1 部分:基本術(shù)語(yǔ)
GB/T 22239信息安全技術(shù) ?網(wǎng)絡(luò)安全等級(jí)保護(hù)基本要求
GB/T 31916.1- 2015信息技術(shù) ?云數(shù)據(jù)存儲(chǔ)和管理 ?第1部分:總則
GB/T 36625.1- 2018 智盤城市 ?數(shù)據(jù)融合 ?第1 部分:概念模型
3術(shù)語(yǔ)和定義
GB/T 5271.1 GB/T 36625.1- 2018 界定的以及下列術(shù)語(yǔ)和定義適用于本文件。為了便于使用,
以下重復(fù)列出了GB/T 36625.1 - 2018 中的某些術(shù)語(yǔ)和定義。
3.1數(shù)據(jù)融合data fusion
集成多個(gè)數(shù)據(jù)源以產(chǎn)生比任何單獨(dú)的數(shù)據(jù)源更有價(jià)值信息的過(guò)程。
[GB/T 36625.1- 2018,定義3.1]
3.2數(shù)據(jù)采集data acquisition
從數(shù)據(jù)源中得到原始數(shù)據(jù)。通過(guò)標(biāo)準(zhǔn)化處理并轉(zhuǎn)化為滿足數(shù)據(jù)共享與利用需求的過(guò)程。
4縮略語(yǔ)
下列縮略語(yǔ)適用于本文件。
CCKS:組合誠(chéng)信密制系統(tǒng)(Combined Credit Key System)
CPK :組合公明(Combined Public Key)
FTP:文件傳輸協(xié)議(File Transfer Protocol)
HTTP:超文本傳輸協(xié)議(HyperText Transfer Protocol)
HTTPS:超文本傳輸安全協(xié)議( HyperT'ext Transfer Safe Protocol)
JDBC:Java數(shù)據(jù)庫(kù)連接(Java DataBase Connciviy)
MQTT:消息隊(duì)列遇測(cè)傳輸(Message Queuing Telemetry Transport)
ODBC:開(kāi)放數(shù)據(jù)庫(kù)互連(Open Database Connectivity)
OPC:對(duì)象連接和嵌入技術(shù)在過(guò)程控制規(guī)范(Object Linking and Embedding lor Process Control)
PKI:公鑰基礎(chǔ)設(shè)施(Public Key Infrastructure)
PDA:數(shù)據(jù)采集器(Personal Digital Assistant)
注:又稱掌上電腦。
REST:表述性狀態(tài)轉(zhuǎn)移( epresentational State Transler)
TCP:傳輸控制協(xié)議(Transmission Control Protocol)
UDP:用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol)
VPN;虛擬專用網(wǎng)絡(luò)( Virtual Private Network)
5數(shù)據(jù)采集過(guò)程
數(shù)據(jù)采集過(guò)程實(shí)現(xiàn)對(duì)數(shù)據(jù)的交換與提取、數(shù)據(jù)匯聚處理、數(shù)據(jù)安全加密壓縮,并提供質(zhì)量控制、安全控制等輔助工具,如圖1所示。
?
數(shù)據(jù)采集過(guò)程包括:
--數(shù)據(jù)源選擇:根據(jù)需要采集數(shù)據(jù)的數(shù)據(jù)源類型(如:文件、數(shù)據(jù)庫(kù)、傳感器等) ,確定數(shù)據(jù)源連找通訊的方式,明確采集標(biāo)準(zhǔn)范圍及屬性。可支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)類型;可支持JD-BC、ODBC、OPC、MQTT、Modbus等多種迕接方式;叫支持TCP、UDP、FTP、HTTP等通訊協(xié)議。
--數(shù)據(jù)采集方式選擇:數(shù)據(jù)采集分為人工采集和系統(tǒng)采集兩種,通過(guò)分析相關(guān)數(shù)據(jù)源類型,根據(jù)可操作性、成本導(dǎo)向等原則選定數(shù)據(jù)采集方式。
--數(shù)據(jù)匯聚:對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、分析等處理,確保數(shù)據(jù)的完整性、準(zhǔn)確性和時(shí)效性。
--數(shù)據(jù)存儲(chǔ):可按熙GB/T 31916.1- 2015 的規(guī)定進(jìn)行,處理后的數(shù)據(jù)存儲(chǔ)應(yīng)滿足海量、安全、商性能、高可靠、易管理。
--數(shù)據(jù)質(zhì)量:數(shù)據(jù)采集周期內(nèi),應(yīng)保證數(shù)據(jù)的完整性.準(zhǔn)確性、一致性、時(shí)效性、可訪問(wèn)性、可追溯性。
--數(shù)據(jù)安全:數(shù)據(jù)采集周別內(nèi),應(yīng)按數(shù)據(jù)安全及安全控制要求,實(shí)現(xiàn)授權(quán)訪問(wèn)??啥ㄎ凰菰础?shù)據(jù)加密、安全審計(jì)及監(jiān)測(cè)等。
6數(shù)據(jù)采集內(nèi)容
從智監(jiān)慧城市建設(shè)與管理需求及我國(guó)智慧城市實(shí)踐經(jīng)驗(yàn)角度,智慧城市數(shù)據(jù)采集內(nèi)容包括但不限于基礎(chǔ)數(shù)據(jù)、專題數(shù)據(jù)、業(yè)務(wù)專屬數(shù)據(jù)和其他數(shù)據(jù)四大類:
--基礎(chǔ)數(shù)據(jù),如人口、法人單位、自然資源、地理空間、宏觀經(jīng)濟(jì)、電子證照等數(shù)據(jù);
--專題數(shù)據(jù),如房屋、城市部件、網(wǎng)格等與智慧城市相關(guān)的公共共享數(shù)據(jù);
--業(yè)務(wù)專屬數(shù)據(jù),如涉及公安、公共衛(wèi)生和醫(yī)療、教育、民政、交通、水利、人力資源和社會(huì)保障、市場(chǎng)監(jiān)管等眾多領(lǐng)域的業(yè)務(wù)數(shù)據(jù);
--其他數(shù)據(jù),如互聯(lián)網(wǎng)、工業(yè)、商業(yè)等數(shù)據(jù)。
7數(shù)據(jù)采集技術(shù)
7.1 數(shù)據(jù)采集技術(shù)要求
數(shù)據(jù)采集技術(shù)應(yīng)具備復(fù)雜網(wǎng)絡(luò)環(huán)境下,不同異構(gòu)數(shù)據(jù)源之間高速、穩(wěn)定、彈性伸縮的數(shù)據(jù)移動(dòng)及同步能力。采集技術(shù)包括但不限于:
--針對(duì)結(jié)構(gòu)單一、數(shù)據(jù)量相對(duì)較小的結(jié)構(gòu)化數(shù)據(jù),可通過(guò)數(shù)據(jù)庫(kù)表、文件、網(wǎng)絡(luò)服(WebService)、REST、HTTP/HTTPS、消息訂閱/發(fā)布等技術(shù)進(jìn)行數(shù)據(jù)采集;
--針對(duì)傳感器、智能手機(jī)、PDA設(shè)備、網(wǎng)絡(luò)等渠道產(chǎn)生的類型豐富、數(shù)據(jù)量較大的數(shù)據(jù),可通過(guò)分布式系統(tǒng)接口、分布式流數(shù)據(jù)收集、網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)進(jìn)行數(shù)據(jù)采集;
--針對(duì)由麥克風(fēng)、攝像頭等設(shè)備產(chǎn)生的海量音視頻數(shù)據(jù),可通過(guò)調(diào)音圖像識(shí)別、編解碼等技術(shù)轉(zhuǎn)化后進(jìn)行數(shù)據(jù)采集;
--針對(duì)問(wèn)卷調(diào)查、實(shí)地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),可通過(guò)在線填報(bào)、離線導(dǎo)人等人工轉(zhuǎn)化方式進(jìn)行數(shù)據(jù)采集。
7.2數(shù)據(jù)采集方法
7.2.1人工采集
通過(guò)人工填報(bào)、人工導(dǎo)入等方式獲得數(shù)據(jù)。
7.2.2系統(tǒng)采集
通過(guò)系統(tǒng)自動(dòng)錄入等方式獲得數(shù)據(jù),并應(yīng)滿足下列要求:
--支持全量、歷史數(shù)據(jù)采集:應(yīng)提供數(shù)據(jù)傳輸服務(wù)、商并發(fā)的商線數(shù)據(jù)上傳下載服務(wù),支持TB/PB級(jí)例的數(shù)據(jù)導(dǎo)入(全量數(shù)據(jù)或歷史數(shù)據(jù)的批量導(dǎo)人)及導(dǎo)出;
--支持實(shí)時(shí)或定時(shí)增量數(shù)據(jù)采集:宜提供實(shí)時(shí)同步、定時(shí)采集、數(shù)據(jù)訂閱、日志采集等服務(wù);
--支持條件過(guò)濾:按照指定條件進(jìn)行指定過(guò)濾采集,例如字段內(nèi)容;
--支持采集作業(yè)管理和調(diào)度:采集作業(yè)支持條件觸發(fā)、并發(fā)調(diào)度、周期循環(huán)調(diào)度等模式:支持對(duì)作業(yè)啟動(dòng)、停止、哲停、恢復(fù)等操作;
--支持?jǐn)?shù)據(jù)標(biāo)簽;依據(jù)數(shù)據(jù)清洗要求為數(shù)據(jù)標(biāo)記數(shù)據(jù)標(biāo)簽;
--支持?jǐn)?shù)據(jù)建模:提供居于不同業(yè)務(wù)國(guó)求進(jìn)行數(shù)據(jù)建模功能。
8數(shù)據(jù)采集質(zhì)量控制
8.1數(shù)據(jù)質(zhì)量控制原則
對(duì)數(shù)據(jù)的質(zhì)量控制應(yīng)貫穿整個(gè)采集過(guò)程,遵循但不限于以下原則:
a)完整性:應(yīng)包含數(shù)據(jù)規(guī)則要求的數(shù)據(jù)的必要元素;
b)準(zhǔn)確性:應(yīng)真實(shí)反映數(shù)據(jù)所描述的實(shí)體;
c)一致性:應(yīng)保證數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無(wú)矛盾;
d)時(shí)效性:應(yīng)保證數(shù)據(jù)發(fā)生變化后及時(shí)被更新;
e)可訪問(wèn)性:應(yīng)保證數(shù)據(jù)在需要時(shí)能被安全訪問(wèn);
f)可追溯性:應(yīng)保證數(shù)據(jù)能夠被跟蹤和管理。
8.2 數(shù)據(jù)質(zhì)量控制方式
8.2.1數(shù)據(jù)清洗
數(shù)據(jù)清洗過(guò)程管理應(yīng)包括但不限于:
a)數(shù)據(jù)分析:應(yīng)對(duì)數(shù)據(jù)源進(jìn)行分析,及時(shí)發(fā)現(xiàn)數(shù)據(jù)源存在的質(zhì)量問(wèn)題;
b)定義清洗規(guī)則:包括空值的檢查和處理、非法值的檢洲和處理、不一致數(shù)據(jù)的檢測(cè)和處理、相似重復(fù)記錄的檢測(cè)和處理等;
c)執(zhí)行數(shù)據(jù)清洗規(guī)則:依據(jù)定義的清洗規(guī)則,補(bǔ)足殘缺/空值、糾正不一致、完成數(shù)據(jù)拆分、數(shù)據(jù)合并或大重、數(shù)據(jù)脫敏、數(shù)據(jù)除噪等;
d)清洗結(jié)果驗(yàn)證:數(shù)據(jù)清洗方應(yīng)對(duì)定義的清洗方法的正確性和效率進(jìn)行驗(yàn)證與評(píng)估,對(duì)不滿足清洗要求的清洗方法進(jìn)行調(diào)整和改進(jìn)。數(shù)據(jù)清洗過(guò)程宜多次迭代并進(jìn)行分析、設(shè)計(jì)和驗(yàn)證。
8.2.2數(shù)據(jù)轉(zhuǎn)換
應(yīng)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)代碼、格式、類型等進(jìn)行轉(zhuǎn)換。必要時(shí),可建立“數(shù)據(jù)轉(zhuǎn)換規(guī)則表”。
8.2.3數(shù)據(jù)分析
應(yīng)通過(guò)數(shù)據(jù)聚合、數(shù)據(jù)歸類、數(shù)據(jù)關(guān)聯(lián)等方法、分析采集的數(shù)據(jù),形成上下文完整有效的數(shù)據(jù)。
8.3 數(shù)據(jù)質(zhì)量評(píng)價(jià)方法
數(shù)據(jù)質(zhì)量評(píng)價(jià)方法可分為定性評(píng)價(jià)法和定最評(píng)價(jià)法:
a) 定性評(píng)價(jià)法可根據(jù)事先確定的評(píng)價(jià)揩標(biāo),對(duì)數(shù)據(jù)的安全性、目的、用途、日志以及用戶自定義項(xiàng)日進(jìn)行評(píng)價(jià);
b)定量評(píng)價(jià)法可采用數(shù)據(jù)質(zhì)量檢測(cè)軟件檢在數(shù)據(jù)質(zhì)量,也可通過(guò)輔助工具結(jié)合人工識(shí)別分析方法進(jìn)行人工檢查。一般可分為全數(shù)檢查和抽樣檢查;
1)針對(duì)國(guó)家強(qiáng)制要求、特殊要求、其他可能導(dǎo)致嚴(yán)重影響的數(shù)據(jù)質(zhì)量項(xiàng)目進(jìn)行全數(shù)檢查;
2)針對(duì)質(zhì)量比較穩(wěn)定、數(shù)據(jù)量較大、檢查費(fèi)用與時(shí)間有限的情況進(jìn)行抽樣檢查。
9數(shù)據(jù)采集安全控制
9.1數(shù)據(jù)安全要求
數(shù)據(jù)采集安全貫穿于數(shù)據(jù)融合整個(gè)過(guò)程中,應(yīng)符合數(shù)據(jù)所屬或主管部門的安全要求,包括但不限于:
a) 應(yīng)符合GB/T 22239對(duì)數(shù)據(jù)應(yīng)用安全的相關(guān)要求;
b) 數(shù)據(jù)在整個(gè)采集、轉(zhuǎn)化、傳輸過(guò)程中應(yīng)依據(jù)授權(quán)使用,不被非法冒充、竊取、篡改、抵賴;
c)應(yīng)對(duì)數(shù)據(jù)采集環(huán)境、設(shè)施和技術(shù)采取必要的安全管控措施;
d)應(yīng)明確數(shù)據(jù)采集過(guò)程中個(gè)人信息和重要數(shù)據(jù)的知悉范圍和安全管控措施,并采取必要的技術(shù)手段和管理措施保證數(shù)據(jù)不被泄露;
e)應(yīng)能夠?qū)Σ杉臄?shù)據(jù)進(jìn)行定位溯源;
f)應(yīng)能夠?qū)?shù)據(jù)采集過(guò)程進(jìn)行安全審計(jì)及監(jiān)測(cè);
g)應(yīng)采用通過(guò)檢測(cè)認(rèn)證的密碼產(chǎn)品,來(lái)保障采集過(guò)程中的安全性。
9.2 安全控制方法
數(shù)據(jù)采集過(guò)程中應(yīng)全方位防御,避免病毒、攻擊、非授權(quán)的訪問(wèn)與內(nèi)部泄密,同時(shí)應(yīng)保障訪問(wèn)記錄的審查和監(jiān)督。應(yīng)包括但不限于:
a)對(duì)不同數(shù)據(jù)進(jìn)行分類并標(biāo)識(shí),采用安全技術(shù)進(jìn)行安全維護(hù);
b)監(jiān)控?cái)?shù)據(jù)使用情況,防止數(shù)據(jù)在采集過(guò)程中被非法訪問(wèn)、破壞、篡改、丟失、阻止;
c)設(shè)立訪問(wèn)和使用權(quán)限控制機(jī)制;
d)制定應(yīng)急響應(yīng)預(yù)案及相應(yīng)處理措施,并定期進(jìn)行應(yīng)急演練,及時(shí)發(fā)現(xiàn)安全問(wèn)題并處理;
e)定期對(duì)數(shù)據(jù)采集的安全性進(jìn)行風(fēng)險(xiǎn)評(píng)估,并據(jù)此制定相應(yīng)的風(fēng)險(xiǎn)處理計(jì)劃,及時(shí)排查安全漏洞,加固安全技術(shù);
f)采用安全技術(shù)維護(hù)數(shù)據(jù)安全,包括但不限于對(duì)稱與非對(duì)稱密碼技術(shù)及其硬化技術(shù)、VPN技術(shù)、身份認(rèn)證與鑒別技術(shù)、CPK技術(shù)、CCKS技術(shù)、PKI技術(shù)、完整性驗(yàn)證技術(shù),數(shù)字簽名技術(shù)、秘密共享技術(shù)等;
g)制定數(shù)據(jù)采集操作規(guī)程,規(guī)范數(shù)據(jù)采集的數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量、流程和方法等;
h)制定數(shù)據(jù)采集原則,明確采集數(shù)據(jù)的目的和用途,確保數(shù)據(jù)采集的合法性和正當(dāng)性;
i) 建立安全管理規(guī)范,避免人為因素導(dǎo)致數(shù)據(jù)泄露、損壞等安全事故。
?
?