代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
PHP
】
php网络爬虫技术
作者:
Dezai.CN
/ 发布于
2011/11/22
/
433
<div>function get_urls($url){</div> <div> $url_array=array();</div> <div> $the_first_content=file_get_contents($url);</div> <div> $the_second_content=file_get_contents($url);</div> <div> $pattern1 = "/http:\/\/[a-zA-Z0-9\.\?\/\-\=\&\:\+\-\_\'\"]+/";</div> <div> $pattern2="/http:\/\/[a-zA-Z0-9\.]+/";</div> <div> preg_match_all($pattern2, $the_second_content, $matches2);</div> <div> preg_match_all($pattern1, $the_first_content, $matches1);</div> <div> $new_array1=array_unique($matches1[0]);</div> <div> $new_array2=array_unique($matches2[0]);</div> <div> $final_array=array_merge($new_array1,$new_array2);</div> <div> $final_array=array_unique($final_array);</div> <div> for($i=0;$i<count($final_array);$i++)</div> <div> {</div> <div> echo $final_array[$i]."<br/>";</div> <div> } <div> } <div> get_urls("<a href="http://www.baidu.com">http://www.baidu.com</a>"); </div>
试试其它关键字
网络爬虫
同语言下
.
用net匹配并替换iOS标准的emoji表情符号
.
处理带Emoji表情的的字符串
.
获取微信昵称时 过滤特殊字符
.
通过判断上传文件的头字符来判断文件的类型
.
模拟百度URL加密解密算法
.
以太坊检查地址是否合法
.
实现crontab解析类
.
获取每个月的开始和结束时间
.
图片上传工具类
.
APP手机应用信息采集
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
Dezai.CN
贡献的其它代码
(
4037
)
.
多线程Socket服务器模块
.
生成随机密码
.
清除浮动样式
.
弹出窗口居中
.
抓取url的函数
.
使用base HTTP验证
.
div模拟iframe嵌入效果
.
通过header转向的方法
.
Session操作类
.
执行sqlite输入插入操作后获得自动编号的ID
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3