java爬虫系列:怎么用jsoup进行爬虫开发?(3)

jsoup时优秀的java爬虫框架,上一篇已经分享了怎么添加代理,头部,和参数,这篇分享用jsoup进行模拟登陆

工具/原料

  • eclipse/idea
  • jsoup
  • 需要爬取的网站

方式/步骤

  1. 1

    第一步:找到需要登岸的网站的接口,即登岸挪用的接口,按F12,点击登岸,在network一栏看到请求的接口,如图:

  2. 2

    第二步:点击接口,查看登岸信息的参数,在Header最下面可以看到 form data,这就时请求参数,如图:

  3. 3

    第三步:用上面的请求参数进行构建,jsoup代码如下:

    Map<String, String> data = new HashMap<>();
    data.put("username", "ss");
    data.put("password", "ss");

    Document doc = Jsoup.connect("")
           .data(data)
           .post();
    System.out.println(doc.toString());

    成果如图:

  4. 4

    第四步:上面输出成果提醒登岸掉败,必定是用户名或密码错误,下面输入准确的用户名和密码,看成果是否能当作功,如图:


    可以看到登岸当作功

  5. 5

    第五步:登岸后的cookies提取和保留。登岸完当作之后,鄙人次请求的就不需要登岸,只要把把cookies带入即可,代码如下:

    Map<String, String> data = new HashMap<>();
    data.put("username", "xxx");
    data.put("password", "xxx");
    Connection.Response res = Jsoup.connect("http://127.0.0.1:8080/login").data(data)
           .method(Connection.Method.POST).execute();
    // res.cookies() 提取cookies 进行下一次请求
    Document doc = Jsoup.connect("http://localhost:8080/index").cookies(res.cookies()).post();

  6. 6

    第六步:这篇是简单的登岸模拟请求,下一篇将对请求的dom进行解析

注重事项

  • 网站通顺
  • 发表于 2020-04-25 19:00
  • 阅读 ( 87 )
  • 分类:其他类型

相关问题

0 条评论

请先 登录 后评论