技术交流28群

服务热线

135-6963-3175

微信服务号

JSOUP 教程 更新时间 2023-9-30 浏览3122次

Jsoup是一个用于解析、处理和操作HTML文档的Java库。它提供了简单而强大的API,使你能够从HTML中提取数据、修改HTML内容以及执行其他HTML处理任务。下面是一个简单的JSoup教程,介绍了基本的用法和常见的操作。


导入Jsoup库:首先,你需要将JSoup库添加到你的Java项目中。你可以从JSoup的官方网站(https://jsoup.org/)下载JSoup的JAR文件,并将其添加到你的项目的类路径中。


解析HTML文档:使用JSoup解析HTML文档非常简单。下面是一个示例,展示了如何从URL加载HTML文档并解析:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class JSoupExample {
    public static void main(String[] args) {
        try {
            // 从URL加载HTML文档
            Document doc = Jsoup.connect("http://example.com").get();
            // 选择元素并提取数据
            Elements links = doc.select("a[href]");
            for (Element link : links) {
                System.out.println("Link Text: " + link.text());
                System.out.println("Link URL: " + link.attr("href"));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述示例中,我们使用Jsoup.connect()方法从URL加载HTML文档,并通过doc.select()选择器选择所有<a>标签。然后,我们遍历选定的元素列表并提取链接文本和URL。


操作HTML元素:JSoup提供了一组丰富的方法,用于操作和修改HTML元素。以下是一些常见的操作:

修改元素内容:

Element element = doc.select("h1").first();
element.text("New Heading"); // 设置新的文本内容

添加新元素:

Element newElement = doc.createElement("p");
newElement.text("This is a new paragraph.");
doc.body().appendChild(newElement); // 将新元素添加到<body>标签中

删除元素:

Element elementToRemove = doc.select("div#removeMe").first();
elementToRemove.remove(); // 删除选定的元素

属性操作:

Element element = doc.select("img").first();
element.attr("src", "new_image.jpg"); // 设置新的src属性值
element.removeAttr("alt"); // 移除alt属性

JSoup是一个灵活且功能强大的HTML处理库,可以帮助你轻松地解析、处理和操作HTML文档。希望这个简单的教程对你有所帮助!如果你有任何进一步的问题,请随时提问。