新闻中心

News Center

【DataCon故事之加密恶意流量】出题人72分,答卷人89分
发布日期:2021-08-03 作者:大会发布

又是一年DataCon竞赛即将到来。对从出题到做题参与全程赛事的南哥我来说,倒计时带来的是一种全新的兴奋和激动。2020年的赛事,我是加密恶意流量检测竞赛方向的出题人和评委。


“我是南京邮电大学**学院研二学生,现研究课题方向为恶意加密流量检测。因实验需要真实环境的带标签数据集,特申请2020年DataCon比赛方向二(恶意加密流量)的带标签数据集……”


“我是云南财经大学**专业的在读硕士,主要研究方向为网络安全与数据挖掘,之前已参与过钓鱼网站URL识别、电信宽带流失预警、电信5G换机用户挖掘等项目。近来,本人正在进行加密异常流量检测的相关研究,且是毕业论文的方向,特向贵组织提出数据申请……”


“我是广州大学网研院教师***,今年的信息安全课程项目是‘加密恶意流量检测’,可否申请加密恶意流量的数据集给学生做实验?……“


2021年上半年,诸多高校的学生向DataCon社区提出了数据申请,主办方已经收到了来自全国各大高校60多位教师和学生的数据集申请。其中加密恶意流量的数据集尤其受到关注。


回顾一年前,2020年7月13日,第二届DataCon竞赛启动,260支队伍晋级决赛,34天的角逐,17支队伍分获一二三等奖。而2020年新增的加密恶意流量检测竞赛方向,其一二三等奖,由清华大学HawkEye战队、极客信安战队、清华大学404战队和中科院信工所0o0等四支队伍获得。而这一方向,从开始到最后,经历了两年的时间,是最具挑战的一个赛事方向。


2020DataCon颁奖典礼


波折


早在2019年,首届DataCon大数据安全分析比赛的主办方,清华大学网研院和奇安信集团的专家团队,就确定了加密恶意流量检测竞赛方向。

根据全球网络安全技术的发展趋势,为了确保通信安全和隐私,2019年后,将有超过60%的企业网络流量被加密,而这种加密策略也同时增大了恶意流量被发现和检出的难度。加密恶意流量检测,成为了学术界和工业界都非常关注的一个技术方向。


清华大学-奇安信联合研究中心主任段海新教授说:大赛的目的,是面向网络安全行业最为缺乏的积极防御人才选拔和培养,我们适时推出这个题目,是有意义的,不仅能培养未来的人才,也可引导行业的关注。


清华大学-奇安信联合研究中心主任段海新教授


DataCon比赛,最大特点是强调“实战化”,筹备过程中,需要模拟真实网络环境,最大程度地还原恶意软件的加密通信行为;选手参赛做题的体验,才能最接近于真实网络环境的攻防对抗场景。


如何通过不解密的方式直接从大体量的加密流量中检测出恶意流量,从出题的角度而言,模拟出这样的场景,对数据的要求是很高的。

在当时的条件下,数据集的成熟度以及规模还达不到出题的要求,经过反复测试和评估,在临发布赛题前一周,主办方的出题专家组最终决定再沉淀一年。


石出


2020年,经过研究团队两年的筹备,加密恶意流量方向的数据积累终于完成。万事俱备,就等题目放出后看选手的回应了。出题专家们悬着一颗心,看着参与抢位晋级赛的战队最后达到了80支队伍之多,心里的那块石头才落了地。


为了出这道题,我们也是颇费了一番苦心,这些数据分析类的题目,赛题有梯度,要循序渐进,在签到题中出题人煞费苦心地埋伏了后续正式比赛知识点的提醒,在选项中暗示会用到的一些工具和分析思路。


为了使比赛的评分方式更加贴近于真实场景,主办方放弃了通常数据类竞赛的F1-Score等常用评价方法,设计了贴合产业界的评价方式,采用了检出率-误报率*惩罚因子的方式,并划定了检出率和误报率需要达到的最低要求,无法通过刷单一指标来获得高分。


也就是说选手需要保证检测结果同时具备较好的检出率和较低的误报率才能获得分数,否则均不得分。这也体现了DataCon面向真实安全需求的初衷。该评分方法也得到了选手的认可。


功夫不负苦心人。该题的效果远超出设计预期。出题人在试解题过程中,尝试了多种解题路径,经过2个月的迭代,最终做到了72分的成绩,原以为达到这个成绩的足以获奖,但就在比赛刚刚开始的一周左右,有选手的成绩就已经与这个分数持平,最后获奖选手中,最高得分一度达到了89分,远超出题人的预期。


“虽然由于出题人心有旁鹜,无法专心解题而使得分数不高,但选手的这个成绩,也是远超出出题人水平的。而且选手的解题思路反过来也提升了我们的研究。”相关出题专家介绍时,对参与选手的水平表示叹服。


参与该题的80支战队,有11支战队胜出,获得优胜奖。原先还有专家对这道题的设置忧心忡忡:会不会做成算法类的场景,会不会有选手纯采用AI或机器学习的算法,并不理解安全……事实上,这样的情况也未出现,并不是运气使然,出题人在客观评分的系统中,就已经预设了绿色通道(检出率不高,但是准确率高于95%,误报率低于5%的队伍可以通过绿色通道晋级),鼓励真正有安全分析经验的人参与进来。最终的结果中,同时具备专业知识以及机器学习建模能力的队伍得分更高,而纯用AI技术的则最终无缘晋级。


冠军


在加密恶意流量前三强的角逐过程中,戏剧性的转折出现在最后的答辩环节。


进入答辩环节之前,极客信安战队,凭借在加密流量分析领域的丰富经验,一直保持着领先势头。虽然第二名清华大学HawkEye战队紧追不舍,在进入答辩之前仍然处于落后。然而,在最终答辩的环节,HawkEye交出了一份令评委们眼前一亮的“作业“:一份近乎完美的解题报告以及一场内容丰富、面面俱到的答辩。在20%的答辩分中,几乎得到了满分,最终清华大学HawkEye战队完成逆转,获得了冠军。


2019DataCon专家评审会


冠军战队——清华大学HawkEye战队的韩东岐说,我参赛前没有此类赛事的经验,是边打边学走过来的。


清华大学HawkEye战队的解题报告接近于一篇优秀的论文,他们在综述里描述了此次参赛的解题思路:


由于加密流量荷载不可观测且流量数据体量较大,我们通过采用机器学习技术结合领域知识,对加密恶意流量和正常流量的行为特征进行深入挖掘,实现对恶意流量的自动化检测。我们所采用的检测方法的总体结构是让多个分别利用不同的异构特征训练而成的分类器进行多数投票(MajorityVoting)的方式来获取最终的判定结果。由于我们所采用的多种特征是异构数据,且具有不同的组织特点,我们并没有直接采用将这些特征统一编码并输入到集成学习分类器中的常规方式,而是针对各个特征的特点分别构建对应的分类器,并利用他们的分类结果进行投票,最终取得多数票的分类结果被定为最终的分类结果。参与投票的多个模型中部分使用了多维特征综合分析,另一部分使用经过分析后黑白样本区分较大的、置信度较高的单维特征对多维特征中的潜在的过拟合和判断错误进行消解。同时,我们考虑到了数据包级、流级、主机级多维度的行为建模,将不同层次的数据进行聚合分析,提升对于黑白样本建模的准确度。


清华大学HawkEye战队的解题思路分享


获胜冠军团队,并没有满足于胜利的光环,相反,他们发现了更多的研究问题,也确认必须依托于真实的生产数据,才能做出更好的研究。2021年夏,冠军战队的主选手韩东岐加入了主办方奇安信技术研究院的团队实习,希望在加密恶意流量的研究上更进一步。


赛后比赛评委们坦言:“HawkEye战队选手们在半个月的时间里从0开始一边复现相关学术成果,一边根据阶段得分调检测方法,一步一步稳扎稳打,最终交出了一份令人称赞的成果,这非常了不起,对于后来的DataCon参赛选手是一个很好的榜样。“


再厉


加密恶意流量的竞赛在2020年8月中落下帷幕,然而,在参赛选手的促动下,社区开启了另一个令各方心动的计划——开放数据集。


DataCon社区一共开放了6部数据集,包括DNS恶意域名、加密恶意流量、恶意代码、僵尸网络、网络黑产,以及邮件安全等。其中,加密恶意流量数据集是国内首个公开的加密恶意流量数据集,数据源自于2020年2月~6月收集的恶意软件与正常软件,经奇安信技术研究院天穹沙箱运行并采集其产生的流量筛选生成。数据集定义的恶意流量为恶意软件(均为exe类型)产生的加密流量,白流量为正常软件(均为exe类型)产生的加密流量。流量内容为443端口产生的TLS/SSL数据包。


这一数据集一经推广,就不断收到了来自全国各地知名高校的学生的申请邮件,“目前申请加密恶意流量数据集的大多有科研背景的选手。“有些学生已经在此基础上发表了论文。中科院信工所的一位研究生,采用了加密恶意流量数据集进行攻击检测,在A类期刊上发表了文章。


根据我们目前的计划,即将开始的DataCon2021,将延续2020年的高水准,面向企业安全分析需求,提供前沿的、高质量的数据集、攻击场景供大家尽情使用。“选手有更多的操作空间,不会受限于出题人预设的解题思路,自由度更高,鼓励多样性的解题方法,从某种意义上,在其他竞赛中被禁止的非预期解,在这里是我们所鼓励的预期解。“此次比赛之后,同样会再次开放数据集。


DataCon专家委员会主任、清华大学段海新教授说:“参加CTF竞赛能让你找到一个好工作,参加DataCon竞赛,能让你写出一篇优秀的毕业论文。“


2021年DataCon大数据安全分析竞赛即将在北京网络安全大会上宣布启动。让我们共同期待大数据安全分析竞赛的这场年度盛宴!


相关新闻
媒体聚焦|数字经济时代 商用密码技术大有可为
 2021北京网络安全大会近日召开。在由中国密码学会指导、中关村网络安全与信息化产业联盟承办的“密码应用与实践论坛”上,密码前沿研究、学科建设新进展以及商用密码应用等成为焦点。...

2021-09-03

自动化威胁检测与响应 奇安信多个实战化产品集中亮相
  天眼新一代安全感知系统、云锁服务器安全管理系统、安全DNS、SOAR、系统安全平台……8月28日,在2021年北京网络安全大会期间...

2021-09-02

关保元年:安全体系经营成业界焦点——2021年北京网络安全大会扫描
  “关键信息基础设施是经济社会运行的神经中枢,是当前遭到网络攻击的重点目标,是网络安全的重中之重。国务院出台《关键信息...

2021-09-02

距离大会开幕

8月26-28日