資料來源:
圖書館
館藏資訊
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★
第二版和第一版做比較,增加下列內容:
★:全書增加約50個程式實例
★:網路趨勢,了解輿情
★:網路關鍵字查詢
★:YouBike資訊
★:國際金融資料查詢
★:博客來圖書排行榜
★:中央氣象局
★:租屋網站
★:生活應用
下列是本書有關網路爬蟲知識的主要內容:
★:認識搜尋引擎與網路爬蟲
★:認識約定成俗的協議robots.txt
★:從零開始解析HTML網頁
★:認識與使用Chrome開發人員環境解析網頁
★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
★:說明lxml模組
★:Selenium模組
★:XPath方法解說
★:css定位網頁元素
★:Cookie觀念
★:自動填寫表單
★:使用IP代理服務與實作
★:偵測IP
★:更進一步解說更新的模組Requests-HTML
★:認識適用大型爬蟲框架的Scrapy模組
在書籍內容,筆者設計爬蟲程式探索下列相關網站:
☆:國際與國內股市資訊
☆:基金資訊
☆:股市數據
☆:人力銀行
☆:維基網站
☆:主流媒體網站
☆:政府開放數據網站
☆:YouBike服務網站
☆:PTT網站
☆:電影網站
☆:星座網站
☆:小說網站
☆:博客來網站
☆:中央氣象局
☆:露天拍賣網站
☆:httpbin網站
☆:python.org網站
☆:github.com網站
☆:ipstack.com網站API實作
☆:Google API實作
☆:Facebook API實作
探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
★:CSV檔案格式
★:JSON檔案格式
★:XML、Pickle
★:Excel
★:SQLite
在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
☆:URL編碼與中文網址觀念
☆:將中文儲存在JSON格式檔案
☆:亂碼處理
☆:簡體中文在繁體中文Windows環境資料下載與儲存
☆:解析Ajax動態加載網頁,獲得更多頁次資料
☆:使用Chromium瀏覽器協助Ajax動態加載
資料來源:
TAAZE 讀冊
延伸查詢
Google Books
Amazon
洪錦魁
一位跨越電腦作業系統與科技時代的電腦專家,著作等身的作家。
■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
■ 人工智慧時代他的代表作品是機器學習彩色圖解 + 基礎數學與基礎微積分 + Python實作。
除了作品被翻譯為簡體中文、馬來西亞文外,2000 年作品更被翻譯為Mastering HTML 英文版行銷美國,近年來作品則是在北京清華大學和台灣深智同步發行:
1:Java 入門邁向高手之路王者歸來
2:Python 最強入門邁向頂尖高手之路王者歸來
3:Python 最強入門邁向數據科學之路王者歸來
4:Python 網路爬蟲:大數據擷取、清洗、儲存與分析王者歸來
5:演算法最強彩色圖鑑 + Python 程式實作王者歸來
6:網頁設計HTML+CSS+JavaScript+jQuery+Bootstrap+Google Map 王者歸來
7:機器學習彩色圖解 + 基礎數學篇 + Python 實作王者歸來
8:機器學習彩色圖解 + 基礎微積分篇 + Python 實作王者歸來
9:R 語言邁向Big Data 之路
10:Excel 完整學習邁向最強職場應用王者歸來
他的近期著作分別登上天瓏、博客來、Momo 電腦書類暢銷排行榜第一名,他的書著作最大的特色是,所有程式語法會依特性分類,同時以實用的程式範例做解說,讓整本書淺顯易懂,讀者可以由他的著作事半功倍輕鬆掌握相關知識。
資料來源:
TAAZE 讀冊