当前位置：首页 > 技术文章 > 正文内容

[Jsoup] HTML解析器，轻松获取网页内容

arlanguage1周前 (04-27)技术文章15

Jsoup简介

jsoup 是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

官网地址：
http://jsoup.org/

在官网中下载 jsou-1.8.3.jar 文件，添加到自己项目的lib库中，便可使用Jsoup提供的api，官网中也提供了一套使用指南（Cookbook），便于开发者借鉴。
Jsoup解析HTML得到一个Document对象，通过操作Document的属性来获取HTML页面内容，所以，在开始之前，先介绍一下XML中Node、Element、Document等这些相关概念的区别，防止因概念混淆而导致乱用错用。

相关概念

Jsoup中的继承关系

public abstract class Node implements Cloneable

public class Element extends Node

public class Document extends Element

从Jsoup源码对三者的定义可以看出如下一个树形继承关系：

Node（节点）
从上述继承关系上可以明确一点，文档中的所有内容都可以看做是一个节点。节点有很多种类型：属性节点（Attribute）、注释节点（Note）、文本节点（Text）、元素节点（Element）等，通常所说的节点是这些多种节点的统称。
Element（元素）
相比节点而言，元素则是一个更小范围的定义。元素继承于节点，是节点的子集，所以一个元素也是一个节点，节点拥有的公有属性和方法在元素中也能使用。
Document（文档）
文档继承于元素，指整个HTML文档的源码内容，通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容。
相互转换
基于Node、Element和Document之间的“缠绵”关系，可以利用各个类中提供的方法适当转换获取所需对象，以供使用。
使用案例
Jsoup解析Html获取Document对象的方式分为三类：在线Url、Html文本字符串、文件，对应API如下

connect(String url)
parse(String html)

parse(File in, String charsetName)

在获取到Document对象之后，可以结合HTML源码，利用Jsoup提供的api通过class、tag、id、attribute等相关属性获取对应Element，进而得到所需要的网页内容。
下面以Jsoup的官网Cookbook页面为例，解析并获取页面目录内容。
网页内容：

网页源码：

<!DOCTYPE html>
<!-- saved from url=(0031)http://www.open-open.com/jsoup/ -->
<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>jsoup开发指南,jsoup中文使用手册,jsoup中文文档</title>
<meta name="keywords" content="jsoup开发指南,jsoup中文使用手册,jsoup中文文档,jsoup java html解析器">
<meta name="description" content="jsoup Cookbook中文版 - 由http://www.open-open.com翻译整理"><link rel="stylesheet" type="text/css" href="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/style.css">
</head><body class="n1-cookbook">
<div class="wrap">
<div class="header">
<div class="nav-sections">
<ul>
<li class="n1-home">
<h4><a href="http://jsoup.org/">jsoup</a></h4></li>
<li class="n1-news"><a href="http://jsoup.org/news/">新闻</a></li>
<li class="n1-bugs"><a href="http://jsoup.org/bugs">bugs</a></li>
<li class="n1-discussion"><a href="http://jsoup.org/discussion">讨论</a></li>
<li class="n1-download"><a href="http://jsoup.org/download">下载</a></li>
<li class="n1-api"><a href="http://jsoup.org/apidocs/">api参考</a></li>
<li class="n1-cookbook"><a href="http://jsoup.org/cookbook/">Cookbook</a></li></ul>
</div></div>
<div class="breadcrumb"><a href="http://jsoup.org/">jsoup</a> <span class="seperator">>></span> cookbook </div>
<div class="content">
<div class="col1">
<h1>jsoup Cookbook(中文版)</h1>
<div class="toc">
<h3>入门</h3>
<ol start="1">
<li><a href="http://www.open-open.com/jsoup/parsing-a-document.htm">解析和遍历一个html文档</a></li>
</ol>
<h3>输入</h3>
<ol start="2">
<li><a href="http://www.open-open.com/jsoup/parse-document-from-string.htm">解析一个html字符串</a></li>
<li><a href="http://www.open-open.com/jsoup/parse-body-fragment.htm">解析一个body片断</a></li>
<li><a href="http://www.open-open.com/jsoup/load-document-from-url.htm">根据一个url加载Document对象</a></li>
<li><a href="http://www.open-open.com/jsoup/load-document-from-file.htm">根据一个文件加载Document对象</a></li>
</ol>
<h3>数据抽取</h3>
<ol start="6">
<li><a href="http://www.open-open.com/jsoup/dom-navigation.htm">使用dom方法来遍历一个Document对象</a></li>
<li><a href="http://www.open-open.com/jsoup/selector-syntax.htm">使用选择器语法来查找元素</a></li>
<li><a href="http://www.open-open.com/jsoup/attributes-text-html.htm">从元素集合抽取属性、文本和html内容</a></li>
<li><a href="http://www.open-open.com/jsoup/working-with-urls.htm">URL处理</a></li>
<li><a href="http://www.open-open.com/jsoup/example-list-links.htm">程序示例：获取所有链接</a></li>
</ol>
<h3>数据修改</h3>
<ol start="11">
<li><a href="http://www.open-open.com/jsoup/set-attributes.htm">设置属性值</a></li>
<li><a href="http://www.open-open.com/jsoup/set-html.htm">设置元素的html内容</a></li>
<li><a href="http://www.open-open.com/jsoup/set-text.htm">设置元素的文本内容</a></li>
</ol>
<h3> html清理</h3>
<ol start="14">
<li><a href="http://www.open-open.com/jsoup/whitelist-sanitizer.htm">消除不受信任的html (来防止xss攻击)</a></li>
</ol><script src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/ca-pub-7963911354665843.js"></script><script type="text/javascript"><!--
google_ad_client = "pub-7963911354665843";
/* 728x90, 创建于 11-1-27 */
google_ad_slot = "5890482646";
google_ad_width = 728;
google_ad_height = 90;
//-->
</script>
<script type="text/javascript" src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/show_ads.js">
</script><ins id="aswift_0_expand" style="display:inline-table;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><ins id="aswift_0_anchor" style="display:block;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><iframe width="728" height="90" frameborder="0" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" onload="var i=this.id,s=window.google_iframe_oncopy,H=s&&s.handlers,h=H&&H[i],w=this.contentWindow,d;try{d=w.document}catch(e){}if(h&&d&&(!d.body||!d.body.firstChild)){if(h.call){setTimeout(h,0)}else if(h.match){try{h=s.upd(h,i)}catch(e){}w.location.replace(h)}}" id="aswift_0" name="aswift_0" style="left:0;position:absolute;top:0;"></iframe></ins></ins></div></div>
<div class="col2"></div></div>
<div class="footer"><b>jsoup</b> html parser: copyright (c) 2009 - 2011 <a href="http://www.open-open.com/" rel="me"><b>jonathan hedley</b></a> </div></div>
</body></html>

Jsoup解析：

import java.io.IOException;
import java.text.ParseException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
/**
* @author 亦枫
* @created_time 2016年1月5日
* @file_user_todo Java测试类
* @blog http://www.jianshu.com/users/1c40186e3248/latest_articles
*/
public class JavaTest {
/**
* 入口函数
* @param args
* @throws ParseException
*/
public static void main(String[] args) throws ParseException {
try {
//解析Url获取Document对象
Document document = Jsoup.connect("http://www.open-open.com/jsoup/").get();
//获取网页源码文本内容
System.out.println(document.toString());
//获取指定class的内容指定tag的元素
Elements liElements = document.getElementsByClass("content").get(0).getElementsByTag("li");
for (int i = 0; i < liElements.size(); i++) {
System.out.println(i + ". " + liElements.get(i).text());
}
} catch (IOException e) {
System.out.println("解析出错！");
e.printStackTrace();
}
}
}

解析结果：

扫描二维码推送至手机访问。

本文链接：http://www.arlanguage.com/post/4186.html

标签: jquery select选中

分享给朋友：

返回列表

上一篇：推荐2个.Net开源Html解析器，方便我们提取网页数据

下一篇：超优秀 H5可视化制作编辑器H5DS

AR编程网

[Jsoup] HTML解析器，轻松获取网页内容

“[Jsoup] HTML解析器，轻松获取网页内容” 的相关文章

为什么一条UPDATE语句有索引反而更慢

Nginx安全相关配置常用教程 nginx安全策略

高性能Linux服务器构建实战:运维监控、性能调优与集群应用

宝塔面板通过可视化界面来管理云服务器的运维软件

一起学习Kubernetes:容器和镜像

宝塔面板如何关闭https强制跳转http/https共存

滇ICP备2024046894号-3