DNS惡意流量分析 - DataCon 2019數據賽DNS方向第一名解題方案

DataCon是由2019中國國際大數據產業博覽會組委會、貴州省公安廳指導，北京奇安信科技有限公司(360企業安全)和清華大學主辦的大數據安全分析比賽。
隨著大數據和人工智慧時代的到來，催生了很多新的安全技術方法，包括人工智慧、機器學習、可視化分析等，這些技術方法有別於傳統的安全檢測等技術，此次比賽與攻防演練實戰結合，重點考察選手利用這些新的技術方法對不同場景下的安全問題進行惡意流量分析、惡意代碼分析、追蹤溯源的能力。通過比賽豐富提升攻防演練的維度和價值，持續提升參賽者的安全能力和實戰經驗，有效培養選拔大數據安全人才。

題目 1: DNS惡意流量檢測：從數據包中識別出五種DNS攻擊流量所在packet id。

題目要求：PDF
得分：100.0
名次：top 1

題目2：DGA域名識別與家族聚類：從數據包中識別出全部DGA域名並按家族聚類。

題目要求：PDF
得分：98.83
名次：top 1

決賽現場答辯PPT: PDF

Q1 DNS惡意流量檢測

解題思路：結合專家經驗在多個維度做統計特徵，濾出超越統計基線3sigma的異常行為，人工檢驗異常數據確認攻擊，然後編寫規則濾出該類攻擊全部數據包。

方案特點：

使用雲環境大數據分析組件，高效完成題目。
使用異常檢測方法，所使用的特徵空間能夠對數據集做完全線性二分類，達到100% precision和recall。

1.1 數據結構化處理

原始pcap上傳至伺服器，使用 tshark -r q1_final.pcap -T ek > output_ek.json 解包並按照elasticsearch格式導出json。
由於題目要求提交packet index，再將解出的39G json文件使用python腳本添加index列。

import json path = output_ek.json output = output_ek_index.json with open(path) as f: with open(output, w) as w: index = 1 sep = $$$$$ while True: line = f.readline() if not line: break if timestamp in line: out_line = str(index) + sep + line.strip() +

w.write(out_line)
if index % 10000 == 0:
print index
index += 1
print total:, index

數據上傳到阿里雲大數據分析服務 MaxCompute 做包解析和結構化分析。

DNS惡意流量分析 - DataCon 2019數據賽DNS方向第一名解題方案

Q1 DNS惡意流量檢測

1.1 數據結構化處理

1.2 解題策略

1.3 特徵工程

1.4 異常檢測

1.5 人工驗證及過濾

1.6 總結

Q2 DGA域名檢測與家族聚類

解題策略

DGA域名發現(二分類)

特徵維度

特徵選擇

XGBoost模型訓練

二分類結果

域名社區發現

圖節點與邊的定義

社區發現結果

社區合併

結果優化

主要問題和待提高的地方

計算效率

比賽結果

Ref

熱門新聞

週熱門

DNS惡意流量分析 - DataCon 2019數據賽DNS方向第一名解題方案

Q1 DNS惡意流量檢測

1.1 數據結構化處理

1.2 解題策略

1.3 特徵工程

1.4 異常檢測

1.5 人工驗證及過濾

1.6 總結

Q2 DGA域名檢測與家族聚類

解題策略

DGA域名發現(二分類)

特徵維度

特徵選擇

XGBoost模型訓練

二分類結果

域名社區發現

圖節點與邊的定義

社區發現結果

社區合併

結果優化

主要問題和待提高的地方

計算效率

比賽結果

Ref

ctf的本質是什麼？

從理論上說是否只要知道主機ip（外網），就可以入侵或者是攻擊？

請問手機號泄露怎麼辦？

CTF中安全雜項選手（misc）以後能夠在哪些行業有優勢？

知乎上有哪些值得關注的黑客（網路安全從業人員）？

只會一點c語言，如何開始ctf？

我電腦疑似被黑客盜取信息，我該怎麼辦?

滲透測試那麼多漏洞該怎麼學呢。？

物聯網學生能不能往信息安全方向走？

大學專業的是信息安全但是上的課跟信息安全沒有一點關係，都是蹭別的專業的課，感覺被騙了，怎麼辦？

你為什麼選擇卡巴斯基？

CTF PWN選手如何轉型？漏洞挖掘該如何入門？

遇到勒索病毒怎麼辦？

如何評價黑客圈內的「社工之王」黑客Helen？

在大學裡學習信息安全是靠自學嗎?

熱門新聞

週熱門