大数据技能点

                路漫漫其修远兮,吾将上下而求索             一、大数据通用处理平台         1、Spark      ...

阅读全文>>

使用K-means对网站访问者进行聚类

在分析Web日志流程中,寻找可疑请求、寻找异常访问者为分析流程中的基础流程,传统的做法是使用正则进行筛选,而这些正则则是通过我们已知的安全经验编写出来的,此时我们可以通过尝试一些新的方法~ 一、数据准备 同上篇 二、算法测试 依赖库地址:[K-Means Java实现](https://sourceforge.net/p/yuanboshekmeans/code/ref/master/) 我们下载kmeans库之后将其引用到项目中,并编写测试Demo,测试库的可用性。测试Demo如图:  可以看到我们使用了4个3维的样本数据,数据...

阅读全文>>

使用LOF(Local Outlier Factor)异常检测算法检测异常访问者

 在日常日志分析中,我们通常使用自己的“安全经验”编写出关于攻击的一些规则去寻找日志中攻击行为,从而得到一段时间内的异常访问者IP,即所有“命中过规则”的访问者,而面对千变万化的Web应用、不断更新迭代的技术以及攻击者变幻莫测的攻击手法,难免我们有时无法紧随攻击者的步伐,如果某一个攻击者发起过攻击但是所使用的攻击手法不在我们所已知的安全经验范围内,此时这个恶意的访问者便会从我们的关注范围溜走。      此时我们可以另辟蹊径,忘掉那些已知的安全规则,尝试使用不同的方法在日志中找到异常访问者。此时我们可以使用异常检测算法中的LOF算法(Loca...

阅读全文>>

安全圈关系可视化分析(安全圈也许就这么大续集)

即将迎来国庆+中秋小长假,部分同事已经请假提前回家,工作氛围感觉渐淡下来,于是开始整理最近以来的工作的总结,以及开始准备节后一个技术沙龙的议题,还有节后的工作计划,闲暇之余聊到了二哥(gainover)之前的“安全圈有多大?”于是又重温了一遍,二哥作为生物学博士,使用生物学中分子的分析方法分析了安全圈的关系。     二哥通过爬取腾讯微博的数据,以自己为起始点爬取用户的关注了哪些人,通过这种可视化方法能得到很多有意思的信息,下面记录一下实践过程吧~          一、数据爬取  &n...

阅读全文>>

使用Gephi可视化分析博客友链引用关系

最近工作中一直在研究数据分析,试图在传统安全上做一些新的尝试,分析过程中用到了Gephi,此工具号称为“数据可视化领域的 Photoshop”,研究之余,突然想到以前写的一个用于爬取友情链接的小工具,然后发现爬取的数据信息正好可以用来练习使用Gephi,于是花了一点时间准备对友情链接进行数据可视化。                  一、爬虫             想要分析数据,...

阅读全文>>