Discuz! Board

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 252|回复: 1

解决提取问题并控制抓取 从表面上看我的示

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-1-2 11:40:39 | 显示全部楼层 |阅读模式
本帖最后由 JoyunttoA99 于 2023-1-2 11:44 编辑

在此处找到此功能的更多详细信息和更广泛的用例文档集)。利用自定义提取将允许我从一组页面中抓取特定文本(或其他元素)。 配置提取参数 我将从配置提取参数开始。 在这张照片中,我打开了自定义提取设置并将第一个提取器设置为 。我需要设置多个提取器,因为需要抓取同一 上的多个线程标题。您可以简单地将代码剪切并粘贴到下一个提取器中 但一定要在最后更新数字序列(橙色轮廓),以避免一遍又一遍地获取相同的信息 另请注意我已将提取类型设置为 提取文本。

这通常是获取所需信息的最简洁方法,但如果您在获取所需数据时遇到问题,则可能需要尝 手机号码库 试使用其他选项。 提示:在处理此问题时,您可能会发现需要抓取 的不同部分,而不是您的想法。拨号的过程可能需要反复试验(更多内容见下文)。 抓取 代码 要获取我们需要的实际提取代码(在上面的中间框中可见): 使用 导航到包含您要捕获的内容的 右键单击要抓取的文本,然后选择 检查 或 检查元素 确保您在代码视图中看到您想要突出显示的文本然后右键单击并选择。



您可以使用其他选项,但我建议先查看上面提到的 文档)。 值得注意的是,很多时候,当您尝试获取所需文本的 时,实际上需要选择网站前端视图中所选文本上方一级的 元素(第三步多于)。 在这一点上,运行一个非常简短的测试爬网以确保正在提取所需信息是个不错的主意。去做这个: 在复制 信息的页面的 上启动爬虫 大约 秒后停止爬虫并导航到 的 自定义 选项卡,将过滤器设置为 提取 (如果您以某种方式调整了命名,则设置为不同的设置)然后在提取器字段中查找数据。




回复

使用道具 举报

0

主题

274

帖子

554

积分

高级会员

Rank: 4

积分
554
发表于 2023-1-9 20:52:04 | 显示全部楼层
好好好好好好好好好好好好好好好好好顶
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2024-9-20 00:59 , Processed in 0.065117 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表