燒制網頁RSS源主要有FEED43和Huginn兩種方法。
- FEED43:簡單免費,六小時抓取一次,每次抓取20條靜態頁面。使用攻略- RSS 入門篇:FEED43&FeedEx-為靜態網頁定製 RSS 源
2. Huginn:自由度高,可設定抓取頻率、內容結構、js結果、輸出樣式等;需要搭建伺服器,學習Huginn抓取規則
Huginn 準備工作:
- 準備一臺 Debian/Ubuntu 環境的伺服器
- 按Qi大的攻略搭建Huginn,也可以直接看Huginn 官方搭建攻略
準備工作完成後,我們已經可以使用 Huginn 抓取頁面了。但很多網站都是用 JS 載入動態內容,需要通過 PhantomJs Cloud 抓取頁面 JS 緩存。
————————
Huginn + PhantomJs Cloud 全網頁抓取
一、Phantom Js Cloud API key 獲取
註冊 PhantomJs Cloud ,然後將 API key 保存在 Huginn 的 Credentials 中。