Html解析库Jsoup使用记录

DeepDC · 2024 年9 月 26 日 09:49

implementation ‘org.jsoup:jsoup:1.16.1’

解析html文本字符串为Document

val doc: Document = Jsoup.parse(webSrc)

select方法的使用

 public Elements select(String cssQuery) {
        return Selector.select(cssQuery, this);
 }

Jsoup 的 select 方法使用 CSS 选择器来查找和筛选 HTML 元素

Elements paragraphs = doc.select("p");  // 选择所有 <p> 标签

Elements items = doc.select(".item");  // 选择所有 class="item" 的元素

Element header = doc.select("#header").first();  // 选择 id="header" 的元素

Elements links = doc.select("a[href]");  // 选择所有带有 href 属性的 <a> 标签
Elements images = doc.select("img[src]");  // 选择所有带有 src 属性的 <img> 标签

Elements specificLinks = doc.select("a[href='http://example.com']");  // 选择 href 属性等于 "http://example.com" 的 <a> 标签

Elements divParagraphs = doc.select("div > p");  // 选择所有直接位于 <div> 内的 <p> 标签

Element secondDiv = doc.select("div:nth-child(2)").first();  // 选择第二个 <div> 元素

Elements lastItems = doc.select("li:last-child");  // 选择列表中的最后一个 <li> 元素

Elements combined = doc.select("div#content .item[title]");  // 选择 id 为 content 的 <div> 内的 class 为 item 且带有 title 属性的元素

Elements containsText = doc.select("p:contains(Hello)");  // 选择包含 "Hello" 文本的 <p> 标签

Elements emptyDivs = doc.select("div:empty");  // 选择所有没有子元素的 <div>

Elements siblingDivs = doc.select("div ~ div");  // 选择和某个 <div> 同级的后续所有 <div> 元素

Elements elements = doc.select("a, div");  // 选择所有 <a> 和 <div> 标签