Java获取任意http网页源代码的方法分享-java教程-PHP中文网

这篇文章主要介绍了Java获取任意http网页源代码的方法,可实现获取网页代码以及去除HTML标签的代码功能,涉及Java正则操作相关实现技巧,需要的朋友可以参考下

本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考，具体如下：

JAVA获取任意http网页源代码可实现如下功能：

1. 获取任意http网页的代码
2. 获取任意http网页去掉HTML标签的代码

Webpage类：

/**
 * 网页操作相关类
 */
package test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
 * @author winddack
 *
 */
public class Webpage {
  private String pageUrl;//定义需要操作的网页地址
  private String pageEncode="UTF8";//定义需要操作的网页的编码
  public String getPageUrl() {
    return pageUrl;
  }
  public void setPageUrl(String pageUrl) {
    this.pageUrl = pageUrl;
  }
  public String getPageEncode() {
    return pageEncode;
  }
  public void setPageEncode(String pageEncode) {
    this.pageEncode = pageEncode;
  }
  //定义取源码的方法
  public String getPageSource()
  {
    StringBuffer sb = new StringBuffer();
    try {
      //构建一URL对象
      URL url = new URL(pageUrl);
      //使用openStream得到一输入流并由此构造一个BufferedReader对象
      BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode));
      String line;
      //读取www资源
      while ((line = in.readLine()) != null)
      {
        sb.append(line);
      }
      in.close();
    }
    catch (Exception ex)
    {
      System.err.println(ex);
    }
    return sb.toString();
  }
  //定义一个把HTML标签删除过的源码的方法
  public String getPageSourceWithoutHtml()
  {
    final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式
    final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定义style的正则表达式
    final String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
    final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符
    String htmlStr = getPageSource();//获取未处理过的源码
    Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
    Matcher m_script = p_script.matcher(htmlStr);
    htmlStr = m_script.replaceAll(""); // 过滤script标签
    Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
    Matcher m_style = p_style.matcher(htmlStr);
    htmlStr = m_style.replaceAll(""); // 过滤style标签
    Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
    Matcher m_html = p_html.matcher(htmlStr);
    htmlStr = m_html.replaceAll(""); // 过滤html标签
    Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
    Matcher m_space = p_space.matcher(htmlStr);
    htmlStr = m_space.replaceAll(""); // 过滤空格回车标签
    htmlStr = htmlStr.trim(); // 返回文本字符串
    htmlStr = htmlStr.replaceAll(" ", "");
    htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);
    return htmlStr;
  }
}

登录后复制

调用：

Webpage page=new Webpage();
page.setPageUrl("http://www.baidu.com");
String code=page.getPageSourceWithoutHtml();
System.out.println(code);

登录后复制

以上就是Java获取任意http网页源代码的方法分享的详细内容，更多请关注php中文网其它相关文章！

首页

PHP培训

视频教程

学习路径

资源下载

技术文章

社区

微信公众号

php8，我来也

细说PHP(2021版)第一季

TP6.0 搭建个人博客实战（玉女心经版）

2018前端入门_HTML5

JavaScript极速入门_玉女心经系列

独孤九贱(1)_HTML5视频教程

CSS视频教程-玉女心经版

30分钟学会网站布局

Thinkphp6.0正式版视频教程

php8，我来也

PHP实战天龙八部之微信支付视频教程

CI框架30分钟极速入门

MySQL权威开发指南（教程）

Redis基础视频课程

尚观Oracle入门到精通视频教程

PDO操作极速入门,今天你用了吗？

你的第一行UNI-APP代码

Uniapp简爱读书项目开发--第一季

公益直播：Uniapp微信小程序1:1仿饿了么首页

Flutter从零到APP上架

phpStudy V8 视频教程

兄弟连新版Linux视频教程

Git教程(60分钟全程无废话版)

vscode其实很简单

AXURE 9视频教程(适合产品经理交互产品设计 UI)

零基础精通 PS 视频教程

16天带你入门UI视频教程

PS技法与切片技术视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述—程序员必须掌握的基础知识

程序员入门必备教程—HTTP协议详解

Websocket视频教程