大数据技能点

                路漫漫其修远兮,吾将上下而求索             一、大数据通用处理平台         1、Spark      ...

阅读全文>>

使用K-means对网站访问者进行聚类

在分析Web日志流程中,寻找可疑请求、寻找异常访问者为分析流程中的基础流程,传统的做法是使用正则进行筛选,而这些正则则是通过我们已知的安全经验编写出来的,此时我们可以通过尝试一些新的方法~ 一、数据准备 同上篇 二、算法测试 依赖库地址:[K-Means Java实现](https://sourceforge.net/p/yuanboshekmeans/code/ref/master/) 我们下载kmeans库之后将其引用到项目中,并编写测试Demo,测试库的可用性。测试Demo如图:  可以看到我们使用了4个3维的样本数据,数据...

阅读全文>>

使用LOF(Local Outlier Factor)异常检测算法检测异常访问者

 在日常日志分析中,我们通常使用自己的“安全经验”编写出关于攻击的一些规则去寻找日志中攻击行为,从而得到一段时间内的异常访问者IP,即所有“命中过规则”的访问者,而面对千变万化的Web应用、不断更新迭代的技术以及攻击者变幻莫测的攻击手法,难免我们有时无法紧随攻击者的步伐,如果某一个攻击者发起过攻击但是所使用的攻击手法不在我们所已知的安全经验范围内,此时这个恶意的访问者便会从我们的关注范围溜走。      此时我们可以另辟蹊径,忘掉那些已知的安全规则,尝试使用不同的方法在日志中找到异常访问者。此时我们可以使用异常检测算法中的LOF算法(Loca...

阅读全文>>

安全圈关系可视化分析(安全圈也许就这么大续集)

即将迎来国庆+中秋小长假,部分同事已经请假提前回家,工作氛围感觉渐淡下来,于是开始整理最近以来的工作的总结,以及开始准备节后一个技术沙龙的议题,还有节后的工作计划,闲暇之余聊到了二哥(gainover)之前的“安全圈有多大?”于是又重温了一遍,二哥作为生物学博士,使用生物学中分子的分析方法分析了安全圈的关系。     二哥通过爬取腾讯微博的数据,以自己为起始点爬取用户的关注了哪些人,通过这种可视化方法能得到很多有意思的信息,下面记录一下实践过程吧~          一、数据爬取  &n...

阅读全文>>

使用Gephi可视化分析博客友链引用关系

最近工作中一直在研究数据分析,试图在传统安全上做一些新的尝试,分析过程中用到了Gephi,此工具号称为“数据可视化领域的 Photoshop”,研究之余,突然想到以前写的一个用于爬取友情链接的小工具,然后发现爬取的数据信息正好可以用来练习使用Gephi,于是花了一点时间准备对友情链接进行数据可视化。                  一、爬虫             想要分析数据,...

阅读全文>>

Web安全日志分析浅谈


阅读全文>>

个人项目&工具导航

最近经常有人问我要脚本、工具啥的..其实你们仔细找找,就能找到。不过为了照顾小白,在此文章建立导航。 0.Web信息收集工具 地址:http://jeary.org/post-4.html 说明:此工具为初学c#所写,所以有些地方有bug,另外功能方面也体验不好(写这个工具的时候还是未成年呀!!) PS:此工具已放弃维护,别再问我有没有新版了.. 1.社交信息爬取工具 地址:http://jeary.org/post-5.html 说明:有一段时间喜欢从别人的公开社交信息收集...

阅读全文>>

在线子域名、C段、同IP服务器查询[2016.5.9更新]

自从用习惯shodan、zoomeye等成熟的产品,意识到了数据的价值和重要性,于是开始尝试自己折腾,搭建数据检索系统,此域名查询系统为学习项目,仅为Demo版本,开放测试版本,不断完善中。 上图: 说明: 0.数据来源于园长的1.5E域名 1.此项目目的为学习ES,所以并不成熟 2.服务器资源有限,大家轻碰(坏了赔钱- -) 3.有时间会持续添加功能,在线实时跑任务、更新数据、其他解析记录等等等 4.支持的语法有ip、domain、cip,默认无语法则模糊搜索...

阅读全文>>