代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Java
】
网络爬虫保存数据库
作者:
灏明
/ 发布于
2014/12/10
/
425
public class ParseNewsInfoServiceImpl extends BaseServiceImpl implements ParseNewsInfoService { public void add(NewsInfo t) { // TODO Auto-generated method stub this.getParseNewsInfoDAO().insert(t); } public void delete(NewsInfo t) { // TODO Auto-generated method stub this.getParseNewsInfoDAO().delete(t); } public NewsInfo ParseNews(String url) { // TODO Auto-generated method stub NewsInfo newsInfo = new NewsInfo(); Document doc = null; try { doc = Jsoup.connect(url).timeout(10000).get(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } String title = doc.getElementsByClass("contentTitle").get(0).ownText(); String titleDate = doc.getElementsByClass("postDate").get(0).ownText(); String readNum =doc.getElementsByClass("postviews").get(0).ownText(); String imgURL = doc.select("img").first().absUrl("src"); Element bodyAll=doc.getElementsByClass("pageContentSide").get(0); String text = doc.select("#NewsPostDetailContent").text(); newsInfo.setTitle(title); newsInfo.setTitleDate(titleDate); newsInfo.setReadNum(readNum); newsInfo.setImgURL(imgURL); newsInfo.setText(text); return newsInfo; } } public class ParseNewsListServiceImpl extends BaseServiceImpl implements ParseNewsListService { public void add(NewsListBean t) { // TODO Auto-generated method stub this.getParseNewsListDAO().insert(t); } public void delete(NewsListBean t) { // TODO Auto-generated method stub this.getParseNewsListDAO().delete(t); } //根据新闻的页数来解析新闻标题 public List<NewsListBean> ParseNewsList(int pageNum) { // TODO Auto-generated method stub Map<String, String> cookies = new HashMap<String, String>(); List<NewsListBean> list = new ArrayList<NewsListBean>(); Document document = null; try { document = Jsoup.connect(getURL(pageNum)).cookies(cookies).get(); } catch (IOException e1) { // TODO Auto-generated catch block e1.printStackTrace(); } for (Element e : document.getElementsByClass("newsSummarytitle")) { NewsListBean newsList = new NewsListBean(); newsList.setTitle(e.select("a").attr("title")); newsList.setLink(e.select("a").attr("href")); newsList.setTitleDate(CharArrToString.charArrToString(e .select("span").text().toString())); list.add(newsList); } /* * for (int i = 0; i < list.size(); i++) { * System.out.println(list.get(i).getTitle() + "\n" + * list.get(i).getLink()+"\n" + list.get(i).getTitleDate()); } */ return list; } public static String getURL(int pageNum) { return "http://www.cs.swust.edu.cn/index.php?mact=News,m0d722,default,1&m0d722number=25&m0d722category=%E6%96%B0%E9%97%BB%E5%8A%A8%E6%80%81&m0d722summarytemplate=newsPageList&m0d722pagenumber=" + pageNum + "&m0d722returnid=36&page=36"; }
试试其它关键字
网络爬虫
同语言下
.
List 切割成几份 工具类
.
一行一行读取txt的内容
.
Java PDF转换成图片并输出给前台展示
.
java 多线程框架
.
double类型如果小数点后为零则显示整数否则保留两位小
.
将图片转换为Base64字符串公共类抽取
.
sqlParser 处理SQL(增删改查) 替换schema 用于多租户
.
JAVA 月份中的第几周处理 1-7属于第一周 依次类推 29-
.
java计算两个经纬度之间的距离
.
输入时间参数计算年龄
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
灏明
贡献的其它代码
(
23
)
.
获取目录下的文件数和文件夹数
.
全角转半角 半角转全角 接收文本框的值
.
替换jquer的默认$符号
.
获得Cpu使用率类
.
生成验证码,缩略图,及水印图
.
sql 2005 sql 2008导出数据字典方法
.
FileUpload触发图浏览事件
.
一般图匹配(邻接表形式)
.
掉链图片的替代图片方法
.
遍历m个元素取k个的递归解法
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3