網(wǎng)站制作NEWS
半自動(dòng)加工了一本電子書
本文探討半自動(dòng)方式從多個(gè)網(wǎng)頁生成一本電子書的流程,使用了多種工具如git bash shell, total commander, grep, sed,涉及正則表達(dá)式、CSS、HTML等技術(shù)。書的具體內(nèi)容不重要,本文聚焦于加工過程和技術(shù)實(shí)現(xiàn)。
設(shè)想重讀多年前所讀的令人熱血沸騰的現(xiàn)代故事小說,但手頭的紙質(zhì)版已難以尋覓。決定自行制作電子版以備未來翻閱。首先,搜索網(wǎng)絡(luò)找到電子書版本,由于zlib和jiumodiary未提供,找到學(xué)校圖書館的紙質(zhì)版,通過搜索引擎找到一個(gè)切分為79小節(jié)的網(wǎng)站并下載。
使用SingleFile工具將79個(gè)鏈接保存為HTML文件,預(yù)覽結(jié)果類似包含多節(jié)鏈接的頁面。接著,借助Total Commander批量修改文件名,通過正則表達(dá)式實(shí)現(xiàn),將文件重命名為按序號(hào)排序的格式。
接下來,計(jì)劃用shell腳本調(diào)用sed和grep對(duì)HTML內(nèi)容進(jìn)行批量修改,首先在命令行測試腳本參數(shù),確保正則表達(dá)式正確。生成的腳本調(diào)用sed和grep針對(duì)所有79個(gè)HTML文件進(jìn)行處理,每行對(duì)應(yīng)一個(gè)文件,確保每個(gè)文件內(nèi)容僅包含一節(jié)的文字內(nèi)容。
使用calibre編輯電子書功能將修改后的HTML文件整合為電子書。在微信讀書APP中檢查格式,發(fā)現(xiàn)需要對(duì)格式進(jìn)行微調(diào),包括段落間距、首行縮進(jìn)等。通過cat、sed、管道、重定向、CSS、HTML等技術(shù)應(yīng)用實(shí)例逐步優(yōu)化格式。
為電子書添加目錄,利用calibre編輯功能中的相應(yīng)選項(xiàng)。在微信讀書中發(fā)現(xiàn)標(biāo)題顯示問題,通過在標(biāo)題前添加4個(gè)空格解決,確保顯示效果完美。
整個(gè)加工過程耗時(shí)約2小時(shí)45分鐘,撰寫博客時(shí)又花了1小時(shí)。何時(shí)能有時(shí)間重讀這部精彩小說,等待著未來的某個(gè)時(shí)刻。這個(gè)加工過程不僅實(shí)現(xiàn)了電子書的制作,也是一次技術(shù)實(shí)踐的探索。
多重隨機(jī)標(biāo)簽