PHP网页抓取之抓取百度贴吧邮箱数据代码分享


Posted in Python onApril 13, 2016

百度贴吧大家都经常逛,去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发。

对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些回复的邮箱,然后再粘贴发送邮件,不是被折磨死就是被累死。无聊至极写了一个抓取百度贴吧邮箱数据的程序,需要的拿走。

程序实现了一键抓取帖子全部邮箱和分页抓取邮箱两个功能,界面懒得做了,效果如下:

PHP网页抓取之抓取百度贴吧邮箱数据代码分享

老规矩,直接贴源码

<?php
$url2="";
$page="";
if($_GET['url2']==""){
$url2="http://tieba.baidu.com/p/2314539885?pn=1";
}else{
$url2=$_GET['url2'];
}

if($_GET['page']==""){
$page="1";
}else{
$page=$_GET['page'];
}
?>
<form action="" method="get">
<input type="hidden" value="getAll" name="type" />
<table>
<tr>
<td>帖子链接:</td><td><input type="text" name="url" value="http://tieba.baidu.com/p/2314539885" style="width:300px;" /></td>
</tr>
<tr>
<td>总页数:</td><td><input type="text" name="page" style="width:300px;" value="<?php echo $page;?>" /></td>
</tr>
<tr>
<td colspan=2><input type="submit" value="抓取全部邮箱数据" /></td>
</tr>
</table>
</form>

<form action="" method="get">
<input type="hidden" value="getNow" name="type" />
<table>
<tr>
<td>帖子链接:</td><td><input type="text" name="url2" value="<?php echo $url2;?>" style="width:300px;" /></td>
</tr>
<tr>
<td colspan=2><input type="submit" value="抓取当前页面邮箱数据" /></td>
</tr>
</table>
</form>
<?php
if($_GET['type']!=""){
$counts=0;
if($_GET['type']=="getAll"){
$pages=$_GET['page'];
$url = $_GET['url'];
for($i=0;$i<$pages;$i++){
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, $url);
curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);
$texts = curl_exec($ch2);
curl_close($ch2);
$dat=getEmail($texts);
for($j=0;$j<count($dat);$j++){
echo $dat[$j]."<br />";
$counts++;
}
}
}else if($_GET['type']=="getNow"){
$url = $_GET['url2'];
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, $url);
curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);
$texts = curl_exec($ch2);
curl_close($ch2);
$dat=getEmail($texts);
for($i=0;$i<count($dat);$i++){
echo $dat[$i]."<br />";
$counts++;
}
}
echo '<h2>共采集到数据:'.$counts.'条</h2>';
}
function getEmail($str){
$pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/"; 
preg_match_all($pattern,$str,$emailArr); 
return $emailArr[0]; 
}
?>
Python 相关文章推荐
python中的sort方法使用详解
Jul 25 Python
python实现爬虫统计学校BBS男女比例(一)
Dec 31 Python
python 接口_从协议到抽象基类详解
Aug 24 Python
Python实现获取nginx服务器ip及流量统计信息功能示例
May 18 Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 Python
Django数据库类库MySQLdb使用详解
Apr 28 Python
在python tkinter界面中添加按钮的实例
Mar 04 Python
Python中的xlrd模块使用原理解析
May 21 Python
互斥锁解决 Python 中多线程共享全局变量的问题(推荐)
Sep 28 Python
python 如何做一个识别率百分百的OCR
May 29 Python
教你漂亮打印Pandas DataFrames和Series
May 29 Python
给numpy.array增加维度的超简单方法
Jun 02 Python
python 实时遍历日志文件
Apr 12 #Python
python字符串连接方法分析
Apr 12 #Python
python去除文件中空格、Tab及回车的方法
Apr 12 #Python
Python脚本实现虾米网签到功能
Apr 12 #Python
Python脚本简单实现打开默认浏览器登录人人和打开QQ的方法
Apr 12 #Python
用Python写冒泡排序代码
Apr 12 #Python
详解Python的Django框架中manage命令的使用与扩展
Apr 11 #Python
You might like
php 在字符串指定位置插入新字符的简单实现
2016/06/28 PHP
PHP赋值的内部是如何跑的详解
2019/01/13 PHP
身份证号码前六位所代表的省,市,区, 以及地区编码下载
2007/04/12 Javascript
一个判断email合法性的函数[非正则]
2008/12/09 Javascript
Ajax+Json 级联菜单实现代码
2009/10/27 Javascript
动感效果的TAB选项卡jquery 插件
2011/07/09 Javascript
JavaScript Memoization 让函数也有记忆功能
2011/10/27 Javascript
滚动图片效果 jquery实现回旋滚动效果
2013/01/08 Javascript
js修改table中Td的值(定义td的双击事件)
2013/01/10 Javascript
JQuery插件开发示例代码
2013/11/06 Javascript
JS计算网页停留时间代码
2014/04/28 Javascript
在Python中使用glob模块查找文件路径的方法
2015/06/17 Javascript
jquery实现模拟百分比进度条渐变效果代码
2015/10/29 Javascript
JS简单实现禁止访问某个页面的方法
2016/09/13 Javascript
jquery实现自适应banner焦点图
2017/02/16 Javascript
关于使用js算总价的问题
2017/06/23 Javascript
微信小程序有旋转动画效果的音乐组件实例代码
2018/08/22 Javascript
微信小程序性能优化之checkSession的使用
2019/03/06 Javascript
4 种滚动吸顶实现方式的比较
2019/04/09 Javascript
微信小程序实现购物车代码实例详解
2019/08/29 Javascript
[48:52]DOTA2上海特级锦标赛A组小组赛#2 Secret VS CDEC第一局
2016/02/25 DOTA
Python Socket编程入门教程
2014/07/11 Python
Python中自定义函数的教程
2015/04/27 Python
python中reload(module)的用法示例详解
2017/09/15 Python
python 常见字符串与函数的用法详解
2018/11/23 Python
Python实现微信小程序支付功能
2019/07/25 Python
Pytorch使用MNIST数据集实现基础GAN和DCGAN详解
2020/01/10 Python
手把手教你进行Python虚拟环境配置教程
2020/02/03 Python
Python基于read(size)方法读取超大文件
2020/03/12 Python
html5+CSS3+JS实现七夕言情功能代码
2017/08/28 HTML / CSS
植村秀美国官网:Shu Uemura美国
2019/03/19 全球购物
Currentbody西班牙:美容仪专家
2019/09/28 全球购物
开展党的群众路线教育实践活动工作总结
2014/11/05 职场文书
党组织关系的介绍信模板
2019/06/21 职场文书
教你漂亮打印Pandas DataFrames和Series
2021/05/29 Python
详解Java ES多节点任务的高效分发与收集实现
2021/06/30 Java/Android