全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

java 爬虫详解及简单实例

Java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。

打开网页:

URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);

读取网页内容:

BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));

正则表达式进行匹配:

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果:

List<String> list = new ArrayList<String>();

/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {

  public static void main(String[] args) throws IOException {
//    List<String> list = getMails();
//    for(String mail : list){
//      System.out.println(mail);
//    }
  
    List<String> list = getMailsByWeb();
    for(String mail : list){
      System.out.println(mail);
    }
  }

  public static List<String> getMailsByWeb() throws IOException{
    //1,读取源文件。
    //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
    //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
    URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");

    BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List<String> list = new ArrayList<String>();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static List<String> getMails() throws IOException{
    //1,读取源文件。
    BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List<String> list = new ArrayList<String>();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!


# java  # 爬虫详解  # 爬虫  # Java 网络爬虫基础知识入门解析  # JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例  # Java实现的爬虫抓取图片并保存操作示例  # java实现爬虫爬网站图片的实例代码  # JAVA爬虫实现自动登录淘宝  # java实现一个简单的网络爬虫代码示例  # Java爬虫Jsoup+httpclient获取动态生成的数据  # Java 爬虫如何爬取需要登录的网站  # 数据存储  # 打开网页  # 希望能  # 相关联  # 要对  # 谢谢大家  # 源代码  # 正则表达式  # lt  # String  # gt  # List  # tring  # openStream  # mail_regex  # Matcher 


相关文章: Android滚轮选择时间控件使用详解  网站制作与设计教程,如何制作一个企业网站,建设网站的基本步骤有哪些?  香港网站服务器数量如何影响SEO优化效果?  南阳网站制作公司推荐,小学电子版试卷去哪里找资源好?  制作网站的公司有哪些,做一个公司网站要多少钱?  如何通过网站建站时间优化SEO与用户体验?  c++怎么实现高并发下的无锁队列_c++ std::atomic原子变量与CAS操作【详解】  名字制作网站免费,所有小说网站的名字?  网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?  建站之星展会模板:智能建站与自助搭建高效解决方案  新网站制作渠道有哪些,跪求一个无线渠道比较强的小说网站,我要发表小说?  如何设计高效校园网站?  山东网站制作公司有哪些,山东大源集团官网?  建站之星24小时客服电话如何获取?  ,网页ppt怎么弄成自己的ppt?  如何用西部建站助手快速创建专业网站?  广东专业制作网站有哪些,广东省能源集团有限公司官网?  电商平台网站制作流程,电商网站如何制作?  如何快速生成可下载的建站源码工具?  如何快速查询域名建站关键信息?  详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)  建站主机选购指南:核心配置与性价比推荐解析  建站之星会员如何解锁更多建站功能?  如何登录建站主机?访问步骤全解析  北京企业网站设计制作公司,北京铁路集团官方网站?  西安大型网站制作公司,西安招聘网站最好的是哪个?  PHP正则匹配日期和时间(时间戳转换)的实例代码  网站制作价目表怎么做,珍爱网婚介费用多少?  制作网站建设的公司有哪些,网站建设比较好的公司都有哪些?  保定网站制作方案定制,保定招聘的渠道有哪些?找工作的人一般都去哪里看招聘信息?  免费制作小说封面的网站有哪些,怎么接网站批量的封面单?  建站之星如何快速生成多端适配网站?  网站制作哪家好,cc、.co、.cm哪个域名更适合做网站?  北京建设网站制作公司,北京古代建筑博物馆预约官网?  制作电商网页,电商供应链怎么做?  如何快速使用云服务器搭建个人网站?  微信小程序 input输入框控件详解及实例(多种示例)  如何在沈阳梯子盘古建站优化SEO排名与功能模块?  网站设计制作企业有哪些,抖音官网主页怎么设置?  手机怎么制作网站教程步骤,手机怎么做自己的网页链接?  想学网站制作怎么学,建立一个网站要花费多少?  如何高效配置IIS服务器搭建网站?  青岛网站建设如何选择本地服务器?  建站之星安全性能如何?防护体系能否抵御黑客入侵?  学校为何禁止电信移动建设网站?  建站主机服务器选型指南与性能优化方案解析  南京网站制作费用,南京远驱官方网站?  小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?  弹幕视频网站制作教程下载,弹幕视频网站是什么意思?  如何在Golang中使用encoding/gob序列化对象_存储和传输数据 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。