写于 2018-12-26 08:03:02| APP自助领取彩金8-18| 验证手机自动送彩金59
<p>大多数SEO都听说过使用日志文件来了解Googlebot的行为,但似乎很少有人知道它们可用于识别抓取您网站的坏机器人</p><p>这些僵尸程序越来越多地执行JavaScript,膨胀分析,获取资源以及抓取和复制内容</p><p> Incapsula 2014机器人流量报告在90天内查看了20,000个网站(各种规模),发现机器人占所有网站流量的56%; 29%的人本质上是恶意的</p><p>额外的洞察力表明,您建立品牌的次数越多,您的目标就越大</p><p>虽然有些服务可以自动化比这里显示的技术更高级的技术,但本文是一个简单的起点(使用Excel)来理解使用日志文件的基础知识,在服务器级别阻止坏机器人并清理分析报告</p><p>所有服务器都会保留每个请求到他们托管的站点的列表</p><p>无论客户是使用Firefox浏览器还是Googlebot正在寻找新创建的页面,所有活动都会记录在一个简单的文件中</p><p>这些日志文件的位置取决于您拥有的服务器或主机的类型</p><p>以下是常见平台的一些细节</p><p>找到文件后,合并,然后在Excel(或您首选的方法)中打开</p><p>由于某些日志文件的大小,这通常说起来容易做起来难</p><p>对于大多数中小型站点,使用具有大量处理能力的计算机应该就足够了</p><p>下面,.log文件使用纯文本编辑器手动合并到一个新的.txt文件中,然后使用文本到列和“空格”分隔符在Excel中打开,稍加一些清理以使列标题排成一行</p><p>在Excel中合并和打开日志后,通过IP查找命中数相当容易</p><p>要做到这一点:作为识别潜在坏机器人的最后一步,找出哪些用户代理与IP最匹配的网站相关联</p><p>为此,请返回数据透视表,只需将用户代理添加到数据透视表的行标签部分</p><p>现在,找到与顶级IP相关联的用户代理就像文本搜索一样简单</p><p>在这种情况下,IP没有声明的用户代理(来自中国),并且比任何其他IP都多了80,000倍</p><p>现在已经识别出恶意IP,使用这些说明来防止分析中的数字膨胀,然后阻止该IP完全访问该站点</p><p>在Google Analytics中使用过滤器,您可以排除IP</p><p>导航到管理员 - >选择视图(在进行此类更改时总是一个好主意创建新视图) - >过滤器 - > +新过滤器 - >预定义 - >从IP地址排除流量 - >指定IP(正则表达式)</p><p>提示:Google Analytics会自动阻止IAB识别的已知抓取工具(非成员价值14,000美元)</p><p>只需导航到管理员 - >查看设置,在其中显示“Bot Filtering”的位置,选中“排除已知机器人和蜘蛛的所有命中</p><p>”在更改配置文件设置之前创建新视图始终是最佳做法</p><p>如果使用Omniture,则有三种方法可以按IP排除数据</p><p>与识别日志文件的位置类似,阻止IP在服务器级别访问站点的方法会根据您使用的服务器类型而改变</p><p>第三方解决方案通过网络路由所有流量,以实时识别机器人(好的和坏的)</p><p>他们不仅要查看IP和用户代理字符串,还要查看HTTP标头,导航网站行为和许多其他因素</p><p>一些网站正在使用reCAPTCHA等方法来确保其网站访问者是人</p><p>您听说过哪些其他方法可以帮助防止“坏机器人的崛起</p><p>”这篇文章中表达的观点是客座作者的观点,