没有添加黑名单参数,我们返回了超过 35,000 个链接。 然后我们告诉 Integrity 忽略查询字符串,不检查外部 URL 并忽略尾随斜杠。 报告完成后,我们就得到了实时网站上所有 URL 的列表。就是这么简单! 注意:如果您不知道您的黑名单规则是什么,您可以随时在不添加任何规则的情况下运行搜索,并将完整导出加载到 Microsoft Excel 中。
从这里
可以使用高级过滤器过滤信 特殊数据库 息并输入“product_compare”等关键字,然后批量删除结果。第一次抓取网站时,哪些页面可能会被拉入并不总是很明显,所以这对大多数人来说可能是一个更好的选择。 一旦我们有了实时 URL 列表,我们就在 Excel 中打开文件,删除所有包含不相关信息的其他列(状态、出现在、链接文本),然后在 URL 上执行查找和替换命令(ctrl + f)以将实时 URL 替换为开发站点 URL。
这很简单,只需将 即可
查找和替换命令运行完毕后,我们 响力电子邮件自动化 就会得到一个开发 URL 列表,这些 URL 可能存在于开发站点上,也可能不存在。我们将此文件“另存为”,并将其命名为“liveurlsondevsite.csv”。
第 2 步 – Scrapebox 链接检查器 注意
我需要一台 PC 来完成此部分。我从未 印度手机号码 发现过适用于 Mac 的工具,就像 Scrapebox 链接检查器适用于 PC 一样。肯定会有可用的工具,但我们办公室里有 Windows 和 Mac 系统,所以这只是偏好和方便。 一旦我们有了包含可能在我们的开发网站上或可能不在我们的开发网站上的链接的 CSV,我们就将它们复制到 .txt 文件中,并将其加载到 Scrapebox 链接检查器工具 (yourbacklinks.txt) 中。
然后,我们创建了第二个 .txt 文件
其中包含文本“(将其保存为 yoursites.txt),并将其添加为“您的网站”部分,以便 scrapebox 可以在这些页面上搜索某些内容。 然后,该工具会逐一检查每个链接,以查看 URL 字符串是否已找到、未找到或出现 404 错误。
实际上,我们只对返回
404 错误的页面感兴趣。这是因为,如果您在“yoursites.txt”中输入的 URL 为“已找到”或“未找到”,则该 URL 上仍存在一个页面。如果显示 404,则该页面实际上已死,需要进行重定向。 然后,我们将“找到的条目”和“未找到的条目”导出为 txt 文件。遗憾的是,scrapebox 不允许您导出 404 页面列表,这时 Excel 就派上用场了。