網(wǎng)站制作NEWS
半自動加工了一本電子書
本文探討半自動方式從多個網(wǎng)頁生成一本電子書的流程,使用了多種工具如git bash shell, total commander, grep, sed,涉及正則表達式、CSS、HTML等技術(shù)。書的具體內(nèi)容不重要,本文聚焦于加工過程和技術(shù)實現(xiàn)。
設(shè)想重讀多年前所讀的令人熱血沸騰的現(xiàn)代故事小說,但手頭的紙質(zhì)版已難以尋覓。決定自行制作電子版以備未來翻閱。首先,搜索網(wǎng)絡(luò)找到電子書版本,由于zlib和jiumodiary未提供,找到學(xué)校圖書館的紙質(zhì)版,通過搜索引擎找到一個切分為79小節(jié)的網(wǎng)站并下載。
使用SingleFile工具將79個鏈接保存為HTML文件,預(yù)覽結(jié)果類似包含多節(jié)鏈接的頁面。接著,借助Total Commander批量修改文件名,通過正則表達式實現(xiàn),將文件重命名為按序號排序的格式。
接下來,計劃用shell腳本調(diào)用sed和grep對HTML內(nèi)容進行批量修改,首先在命令行測試腳本參數(shù),確保正則表達式正確。生成的腳本調(diào)用sed和grep針對所有79個HTML文件進行處理,每行對應(yīng)一個文件,確保每個文件內(nèi)容僅包含一節(jié)的文字內(nèi)容。
使用calibre編輯電子書功能將修改后的HTML文件整合為電子書。在微信讀書APP中檢查格式,發(fā)現(xiàn)需要對格式進行微調(diào),包括段落間距、首行縮進等。通過cat、sed、管道、重定向、CSS、HTML等技術(shù)應(yīng)用實例逐步優(yōu)化格式。
為電子書添加目錄,利用calibre編輯功能中的相應(yīng)選項。在微信讀書中發(fā)現(xiàn)標題顯示問題,通過在標題前添加4個空格解決,確保顯示效果完美。
整個加工過程耗時約2小時45分鐘,撰寫博客時又花了1小時。何時能有時間重讀這部精彩小說,等待著未來的某個時刻。這個加工過程不僅實現(xiàn)了電子書的制作,也是一次技術(shù)實踐的探索。
多重隨機標簽