代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Java
】
一个页面静态化的工具类
作者:
dezai
/ 发布于
2014/8/6
/
666
自动爬取所有网页,生成静态页面。如果 不需要静态化,可以配置 变量。 网页地址生成规则是正则表达式 。 页面静态化的方案:1、把需要静态化的页面静态化。2、把不需要静态化页面的url地址 用标签 转换。 优点:不需要URL转发。
package com.spider; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.Arrays; import java.util.Date; import java.util.List; import java.util.UUID; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.commons.io.IOUtils; /** * @author lpf * 一个URL缓存工具类 */ public class Spider { static String refuseUrl[] = new String[] {"/shop/acart.do"};//多有不需要处理的url地址 static String[][] convert = new String[4][2] ;//url变更规则 static String[] v= new String[]{"<link.+href=\"(.+?)\"","<script.+src=\"(.+?)\"","<img.+src=\"(.+?)\"","url\\((.+?)\\)"} ;//给css,js,jpg,png 加版本号 static{ convert[0]=new String[]{ "^/(.+?).do$", "/%s.html"}; //处理以/开头,以.do结尾的 convert[1]=new String[]{ "^/(.+?).jsp$", "/%s.html"};//处理以/开头,以.jsp结尾的 convert[2]=new String[]{ "^/phone/peijian/index.jsp\\?type=(.+)", "/phone/peijian/index_type_%s.html"};//处理分类 convert[3]=new String[]{ "^/phone/product.do\\?id=(.+)", "/phone/product%s.html"};//处理产品 } public static void main(String[] args) throws Exception { System.out.println(addV( staticUrl(getUrlHtml("http://www.daq.cn")) ) ); } /** * 给css,js,jpg,png 加版本号 * @author lpf * @param sb * @return */ public static StringBuffer addV(StringBuffer sb) { StringBuffer res=new StringBuffer(); for (int i = 0; i < v.length; i++) { res=new StringBuffer(); Pattern pattern = Pattern.compile( v[i]); Matcher matcher = pattern.matcher( sb); while (matcher.find()) { String v=matcher.group(0); String v1=matcher.group(1); matcher.appendReplacement(res,v.replace(v1 ,v1+"?v="+ new Date().getTime())); } matcher.appendTail(res); sb=res; } return res; } /** * 得到一个网页的所有url * @author lpf * @param url * @return * @throws Exception */ public static List<String> getPageUrl(String url) throws Exception { List<String> ls=new ArrayList<String>(); StringBuffer sb= getUrlHtml(url); Pattern pattern = Pattern.compile("<a.+href=\"(.+?)\""); Matcher matcher = pattern.matcher( sb); while (matcher.find()) { ls.add( matcher.group(1)); } return ls; } /** * 得到一个网页的html内容 * @author lpf * @param url * @return */ public static StringBuffer getUrlHtml(String url) { List<String> ls=new ArrayList<String>(); try { URL u = new URL( url); InputStream in = u.openStream(); ByteArrayOutputStream os=new ByteArrayOutputStream(); IOUtils.copy(in, os); in.close(); StringBuffer sb=new StringBuffer( new String( os.toByteArray()) ); os.close(); return sb; } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return null; } /** * 把一个网页的内容url地址全部静态化 * @author lpf * @param sb * @return */ public static StringBuffer staticUrl(StringBuffer sb) { Pattern pattern = Pattern.compile("<a.+href=\"(.+?)\""); Matcher matcher = pattern.matcher( sb); StringBuffer res=new StringBuffer(); while (matcher.find()) { String v=matcher.group(0); String v1=matcher.group(1); matcher.appendReplacement(res,v.replace(v1 ,convertUrl( matcher.group(1)))); } matcher.appendTail(res); return res; } /** * 把一个url地址,通过规则变成另外个地址 * @author lpf * @param url * @return */ private static String convertUrl(String url) { //先过滤不需要处理的页面 for (int i = 0; i < refuseUrl.length; i++) { if ( refuseUrl[i].equals(url)) { return url; } } //按照规则改写地址 for (int i = 0; i < convert.length; i++) { String []c=convert[i]; Pattern pattern = Pattern.compile( c[0]); Matcher matcher = pattern.matcher( url); while (matcher.find()) { return String.format( c[1] ,matcher.group(1)); } } return url; } }
试试其它关键字
工具类
页面静态化
同语言下
.
List 切割成几份 工具类
.
一行一行读取txt的内容
.
Java PDF转换成图片并输出给前台展示
.
java 多线程框架
.
double类型如果小数点后为零则显示整数否则保留两位小
.
将图片转换为Base64字符串公共类抽取
.
sqlParser 处理SQL(增删改查) 替换schema 用于多租户
.
JAVA 月份中的第几周处理 1-7属于第一周 依次类推 29-
.
java计算两个经纬度之间的距离
.
输入时间参数计算年龄
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
dezai
贡献的其它代码
(
1065
)
.
双色球
.
列出所有物理网络适配器
.
快乐数的 Python 实现
.
计算当月还剩天数
.
猜属相
.
二十四小时时钟
.
每日一语
.
很酷的日历
.
超长日历表单
.
最简单的时钟
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3