Java爬虫

一、代码
爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
打开网页:
URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);
读取网页内容:
BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));
正则表达式进行匹配:
tring mail_regex = "\\w+@\\w+(\\.\\w+)+";
储存结果:
List<String> list = new ArrayList<String>();
/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Spider {
public static void main(String[] args) throws IOException {
// List<String> list = getMails();
// for(String mail : list){
// System.out.println(mail);
// }
List<String> list = getMailsByWeb();
for(String mail : list){
System.out.println(mail);
}
}
public static List<String> getMailsByWeb() throws IOException{
//1,读取源文件。
//URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
//URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");
BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));
//2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
String mail_regex = "\\w+@\\w+(\\.\\w+)+";
List<String> list = new ArrayList<String>();
Pattern p = Pattern.compile(mail_regex);
String line = null;
while((line=bufr.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
//3,将符合规则的数据存储到集合中。
list.add(m.group());
}
}
return list;
}
public static List<String> getMails() throws IOException{
//1,读取源文件。
BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));
//2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
String mail_regex = "\\w+@\\w+(\\.\\w+)+";
List<String> list = new ArrayList<String>();
Pattern p = Pattern.compile(mail_regex);
String line = null;
while((line=bufr.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
//3,将符合规则的数据存储到集合中。
list.add(m.group());
}
}
return list;
}
}
二、运行结果
abc1@sina.com.cn 1@1.1
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# java
# 爬虫详解
# 爬虫
# Java 网络爬虫基础知识入门解析
# JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例
# Java实现的爬虫抓取图片并保存操作示例
# java实现爬虫爬网站图片的实例代码
# JAVA爬虫实现自动登录淘宝
# java实现一个简单的网络爬虫代码示例
# Java爬虫Jsoup+httpclient获取动态生成的数据
# Java 爬虫如何爬取需要登录的网站
# 数据存储
# 打开网页
# 希望能
# 相关联
# 要对
# 谢谢大家
# 源代码
# 正则表达式
# lt
# String
# gt
# List
# tring
# openStream
# mail_regex
# Matcher
相关文章:
Android滚轮选择时间控件使用详解
网站制作与设计教程,如何制作一个企业网站,建设网站的基本步骤有哪些?
香港网站服务器数量如何影响SEO优化效果?
南阳网站制作公司推荐,小学电子版试卷去哪里找资源好?
制作网站的公司有哪些,做一个公司网站要多少钱?
如何通过网站建站时间优化SEO与用户体验?
c++怎么实现高并发下的无锁队列_c++ std::atomic原子变量与CAS操作【详解】
名字制作网站免费,所有小说网站的名字?
网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?
建站之星展会模板:智能建站与自助搭建高效解决方案
新网站制作渠道有哪些,跪求一个无线渠道比较强的小说网站,我要发表小说?
如何设计高效校园网站?
山东网站制作公司有哪些,山东大源集团官网?
建站之星24小时客服电话如何获取?
,网页ppt怎么弄成自己的ppt?
如何用西部建站助手快速创建专业网站?
广东专业制作网站有哪些,广东省能源集团有限公司官网?
电商平台网站制作流程,电商网站如何制作?
如何快速生成可下载的建站源码工具?
如何快速查询域名建站关键信息?
详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)
建站主机选购指南:核心配置与性价比推荐解析
建站之星会员如何解锁更多建站功能?
如何登录建站主机?访问步骤全解析
北京企业网站设计制作公司,北京铁路集团官方网站?
西安大型网站制作公司,西安招聘网站最好的是哪个?
PHP正则匹配日期和时间(时间戳转换)的实例代码
网站制作价目表怎么做,珍爱网婚介费用多少?
制作网站建设的公司有哪些,网站建设比较好的公司都有哪些?
保定网站制作方案定制,保定招聘的渠道有哪些?找工作的人一般都去哪里看招聘信息?
免费制作小说封面的网站有哪些,怎么接网站批量的封面单?
建站之星如何快速生成多端适配网站?
网站制作哪家好,cc、.co、.cm哪个域名更适合做网站?
北京建设网站制作公司,北京古代建筑博物馆预约官网?
制作电商网页,电商供应链怎么做?
如何快速使用云服务器搭建个人网站?
微信小程序 input输入框控件详解及实例(多种示例)
如何在沈阳梯子盘古建站优化SEO排名与功能模块?
网站设计制作企业有哪些,抖音官网主页怎么设置?
手机怎么制作网站教程步骤,手机怎么做自己的网页链接?
想学网站制作怎么学,建立一个网站要花费多少?
如何高效配置IIS服务器搭建网站?
青岛网站建设如何选择本地服务器?
建站之星安全性能如何?防护体系能否抵御黑客入侵?
学校为何禁止电信移动建设网站?
建站主机服务器选型指南与性能优化方案解析
南京网站制作费用,南京远驱官方网站?
小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?
弹幕视频网站制作教程下载,弹幕视频网站是什么意思?
如何在Golang中使用encoding/gob序列化对象_存储和传输数据
*请认真填写需求信息,我们会在24小时内与您取得联系。