0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Python 一個超快的公共情報搜集爬蟲

科技綠洲 ? 來源:Python實用寶典 ? 作者:Python實用寶典 ? 2023-11-03 15:16 ? 次閱讀

Photon是一個由s0md3v開源的情報搜集爬蟲,其主要功能有:

1.爬取鏈接(內(nèi)鏈、外鏈)。
2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密鑰(在前端代碼中不小心被釋放出來的)。
5.js文件和Endpoint(spring中比較重要的監(jiān)視器)
6.匹配自定義正則表達式的字符串。
7.子域名和DNS相關數(shù)據(jù)。

你可以用它來干很多事,比如爬圖片、找漏洞、找子域名、爬數(shù)據(jù)等等。而且提取出來的數(shù)據(jù)格式非常整潔:

圖片

不僅如此,它甚至支持json格式 ,僅需要在輸入命令的時候加上json參數(shù):

python photon.py -u "http://example.com" --export=json

為什么能用來做情報搜集呢?耐心往后看哦。

1.下載安裝

你可以上photon的github下載完整項目:
https://github.com/s0md3v/Photon

或者關注下方Python實用寶典公眾號在后臺回復photon獲得國內(nèi)網(wǎng)盤下載地址。下載后解壓到你想要使用的地方。如果你還沒有安裝Python,建議閱讀這篇文章:超詳細Python安裝指南,進行Python的安裝。

安裝完Python后,打開CMD(windows)/Terminal(macOS),下面簡稱為終端,進入你剛解壓的文件夾,然后輸入以下命令安裝Photon的依賴:

pip install -r requirements.txt

如圖所示:

圖片

2.簡單使用

注意,使用的時候要在Photon文件夾下。比如我們隨便提取一個網(wǎng)站的URL試一下,在終端輸入以下命令:

python photon.py -u https://bk.tencent.com/

結果如下:

圖片

它會在當前目錄下產(chǎn)生一個你測試的域名的文件夾,比如在我這里是 bk.tencent.com:

圖片

嘻嘻,讓我們看看里面有什么東西,有沒有程序員留下的小彩蛋,打開external.txt,這是該網(wǎng)站的外鏈的存放位置。可以看到,這里不僅僅是只有網(wǎng)站頁面,連CDN文件地址都會放在這里,所以external可能是個藏寶庫哦。

圖片

還能一下找出該網(wǎng)站上鏈接的全部開源項目:

圖片

3.擴展

這個項目的價值,不僅在于能夠快速拉取你想要得到的數(shù)據(jù),還在于能夠構建一個牛逼轟轟的 情報系統(tǒng) (如果你技術夠強的話)。因為它是能不斷延伸下去的,比如從外鏈出發(fā),你能找到很多和這個網(wǎng)站相關的訊息:

圖片

相比于搜索引擎搜索的結果,實際上這些信息更符合情報的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通過這個Photon,你可以順藤摸瓜找到那些隱藏在互聯(lián)網(wǎng)世界的它們。

試想一下,如果你搜集了很多這樣的網(wǎng)站...然后用正則表達式搭建一個屬于你自己的搜索引擎,這樣的感覺是不是很棒?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 監(jiān)視器

    關注

    1

    文章

    780

    瀏覽量

    33078
  • 參數(shù)
    +關注

    關注

    11

    文章

    1754

    瀏覽量

    32044
  • 代碼
    +關注

    關注

    30

    文章

    4722

    瀏覽量

    68234
  • python
    +關注

    關注

    55

    文章

    4767

    瀏覽量

    84375
  • 爬蟲
    +關注

    關注

    0

    文章

    82

    瀏覽量

    6813
收藏 人收藏

    評論

    相關推薦

    Python數(shù)據(jù)爬蟲學習內(nèi)容

    ,利用爬蟲,我們可以解決部分數(shù)據(jù)問題,那么,如何學習Python數(shù)據(jù)爬蟲能?1.學習Python基礎知識并實現(xiàn)基本的爬蟲過程
    發(fā)表于 05-09 17:25

    Python爬蟲與Web開發(fā)庫盤點

    ,高層次的web抓取網(wǎng)頁,并從web站點的頁面中提取結構化的數(shù)據(jù)Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。最爽的就是它是框架,任何人都可以根據(jù)需求方便的修改,里面有很多類型爬蟲的基
    發(fā)表于 05-10 15:21

    Python 爬蟲:8 常用的爬蟲技巧總結!

    的話,就需要多線程了,這里給簡單的線程池模板 這個程序只是簡單地打印了1-10,但是可以看出是并發(fā)的。雖然說python的多線程很雞肋,但是對于爬蟲這種網(wǎng)絡頻繁型,還是能定程度提高
    發(fā)表于 01-02 14:37

    0基礎入門Python爬蟲實戰(zhàn)課

    學習資料良莠不齊爬蟲門實踐性的技能,沒有實戰(zhàn)的課程都是騙人的!所以這節(jié)Python爬蟲實戰(zhàn)課,將幫到你!課程從0基礎入門開始,受眾人群廣泛:如畢業(yè)大學生、轉行人群、對
    發(fā)表于 07-25 09:28

    Python爬蟲簡介與軟件配置

    Python爬蟲練習、爬蟲簡介1. 介紹2. 軟件配置二、爬取南陽理工OJ題目三、爬取學校信息通知四、總結五、參考、
    發(fā)表于 01-11 06:32

    python網(wǎng)絡爬蟲概述

    、MySQL、MongoDB、Redis …關于爬蟲的合法性幾乎每個網(wǎng)站都有名為robots.txt的文檔,當然也有有些網(wǎng)站沒有設定。對于沒有設定robots.txt的網(wǎng)站可以通過網(wǎng)絡爬蟲
    發(fā)表于 03-21 16:51

    Python 公共情報搜集爬蟲——Photon

    Photon是由s0md3v開源的情報搜集爬蟲,其主要功能有:1.爬取鏈接(內(nèi)鏈、外鏈)。2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。3.文件(p
    發(fā)表于 06-23 16:35

    完全自學指南Python爬蟲BeautifulSoup詳解

    完全自學指南Python爬蟲BeautifulSoup詳解
    發(fā)表于 09-07 08:55 ?39次下載
    完全自學指南<b class='flag-5'>Python</b><b class='flag-5'>爬蟲</b>BeautifulSoup詳解

    WebSpider——多個python爬蟲項目下載

    此文檔包含多個python爬蟲項目
    發(fā)表于 03-26 09:29 ?3次下載

    Python爬蟲8常用的爬蟲技巧分析總結

    python也差不多年多了,python應用最多的場景還是web快速開發(fā)、爬蟲、自動化運維:寫過簡單網(wǎng)站、寫過自動發(fā)帖腳本、寫過收發(fā)郵件腳本、寫過簡單驗證碼識別腳本。
    的頭像 發(fā)表于 08-18 11:45 ?5076次閱讀

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內(nèi)容詳細介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發(fā)表于 08-28 15:32 ?29次下載

    Python寫網(wǎng)絡爬蟲

    Python寫網(wǎng)絡爬蟲的方法說明。
    發(fā)表于 06-01 11:55 ?21次下載

    利用Python編寫簡單網(wǎng)絡爬蟲實例

    利用 Python編寫簡單網(wǎng)絡爬蟲實例2 實驗環(huán)境python版本:3.3.5(2.7下報錯
    發(fā)表于 02-24 11:05 ?14次下載

    Photon:公共情報搜集爬蟲

    Photon是由s0md3v開源的情報搜集爬蟲,其主要功能有: 1.爬取鏈接(內(nèi)鏈、外鏈)。 2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。 3.文
    的頭像 發(fā)表于 10-31 15:17 ?486次閱讀
    Photon:<b class='flag-5'>一</b><b class='flag-5'>個</b><b class='flag-5'>超</b><b class='flag-5'>快</b>的<b class='flag-5'>公共</b><b class='flag-5'>情報搜集</b><b class='flag-5'>爬蟲</b>

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法

    Python爬蟲中文亂碼問題。 、了解字符編碼 在解決亂碼問題之前,我們首先需要了解些基本的字符編碼知識。常見的字符編碼有ASCII、UTF-8和GBK等。 1. ASCII:是
    的頭像 發(fā)表于 01-12 15:11 ?2057次閱讀