Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰

Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰 pdf epub mobi txt 电子书 下载 2025

圖書標籤:
  • Hadoop
  • Spark
  • 大數據
  • 機器學習
  • 數據分析
  • 整閤開發
  • 實戰
  • Python
  • Scala
  • 數據挖掘
想要找书就要到 灣灣書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

圖書描述

◆技術為金融財務、行銷分析、商業趨勢預測帶來全新的變革
◆詳實的安裝設定與程式編寫說明降低學習入門門檻
◆可單機執行或以實機/虛擬機器建立多颱演算陣列
◆具備大量實務案例分析與程式碼範例實作


  大數據分析與機器學習人工智慧帶來資訊科技革命的第五波新浪潮

  創新産業
  大量商機
  人纔需求

  一般人可能會認為大數據需要很多颱機器的環境纔能學習,但是本書透過虛擬機器的方法,就能在自傢電腦演練建立Hadoop叢集,並且建立Spark開發環境。

  以實機操作介紹Hadoop MapReduce與HDFS基本概念,以及Spark RDD與MapReduce基本觀念。

  以大數據分析實務案例:MoiveLens(電影喜好推薦引擎)、StumbleUpon(網頁二元分類)、CovType(林相土地演算)、Bike Sharing(Ubike類租賃預測分析)。

  配閤範例程式碼來介紹各種機器學習演算法,示範如何擷取資料、訓練資料、建立模型、預測結果,由淺而深介紹Spark機器學習。

  大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分析後,就可得齣許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基於資料和分析的結果,而不是依靠經驗和直覺。

  資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作與生活方式的改變,創造大量商機、新的産業、大量的工作機會。像是在網路時代,創造瞭Google、Amazon 等大公司,以及無數.com 公司。

  每一波浪潮開始時,需求的相關人纔最多,但是此時也是相關人纔供應最少。因此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方麵的人纔不夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人越來越多,這方麵的工程師就沒有那麼吃香瞭。

  之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美元。機會是給有準備的人,學會瞭大數據分析的相關技能,讓你有機會獲得更好的薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新颱幣429 萬元~594 萬元)。因為人纔短缺,企業不惜重金挖角。(你可以在google 搜尋Robert Half Technology 2016 就可以下載此調查報告)

  本書的主題是Haddop+Spark大數據分析與機器學習。Hadoop 大傢已經知道是運用最多的大數據平颱,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬名資料科學傢。Google 與微軟也分彆應用瞭Spark 的功能來建置服務、發展大數據分析雲端與機器學習平颱。這些大公司的加入,也意味著未來更多公司會採用Hadoop+Spark 進行大數據資料分析。

  然而目前市麵上雖然很多大數據的書,但是多半偏嚮理論或應用層麵的介紹,網路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態係非常龐大,需要學習的東西太多。希望讀者能透過本書有瞭基本概念後,比較容易踏入這門領域,能繼續深入研究其他大數據的相關技術。

著者信息

作者簡介

林大貴


  作者從事IT産業多年,涉獵係統設計、網站開發、數位行銷與商業智慧等多領域,具備豐富實務開發經驗。

圖書目錄

Chapter01 大數據與機器學習
1-1 大數據定義
1-2 Hadoop 簡介
1-3 Hadoop HDFS 分散式檔案係統
1-4 Hadoop MapReduce 介紹
1-5 Spark 介紹
1-6 機器學習介紹

Chapter02 Virtual Box 虛擬機器軟體安裝
2-1 VirtualBox 下載安裝
2-2 設定Virtual Box 儲存資料夾
2-3 在VirtualBox 建立虛擬機器

Chapter03 Ubuntu Linux 作業係統安裝
3-1 下載Ubuntu 安裝光碟檔案
3-2 在Virtual Box 設定Ubuntu 虛擬光碟檔案
3-3 開始安裝Ubuntu
3-4 啓動Ubuntu
3-5 安裝Guest Additions
3-6 設定預設輸入法
3-7 設定終端機程式
3-8 設定終端機白底黑字
3-9 設定共用剪貼簿

Chapter04 Hadoop Single Node Cluster 安裝
4-1 安裝JDK
4-2 設定SSH 無密碼登入
4-3 下載安裝Hadoop
4-4 設定Hadoop 環境變數
4-5 修改Hadoop 組態設定檔
4-6 建立與格式化HDFS 目錄
4-7 啓動Hadoop
4-8 開啓Hadoop Resource Manager Web 介麵
4-9 NameNode HDFS Web 介麵

Chapter05 Hadoop Multi Node Cluster 安裝
5-1 復製Single Node Cluster 到data1
5-2 設定data1 伺服器
5-3 復製data1 伺服器至data2、data3、master
5-4 設定data2、data3 伺服器
5-5 設定master 伺服器
5-6 master 連綫至data1、data2、data3 建立HDFS 目錄
5-7 建立與格式化NameNode HDFS 目錄
5-8 啓動Hadoop Multi Node Cluster
5-9 開啓Hadoop ResourceManager Web 介麵
5-10 開啓NameNode HDFS Web 介麵

Chapter06 Hadoop HDFS 命令介紹
6-1 啓動Hadoop Multi-Node Cluster
6-2 建立與查看HDFS 目錄
6-3 從本機復製檔案到HDFS
6-4 將HDFS 上的檔案復製到本機
6-5 復製與刪除HDFS 檔案
6-6 Hadoop HDFS Web UI 介麵瀏覽HDFS

Chapter07 Hadoop MapReduce 介紹
7-1 wordCount.java 介紹
7-2 編輯wordCount.java
7-3 編譯wordCount.java
7-4 下載測試文字檔
7-5 上傳文字檔至HDFS
7-6 執行wordCount.java
7-7 查看執行結果
7-8 Hadoop MapReduce 的缺點

Chapter08 Spark 安裝介紹
8-1 SPARK 的cluster 模式架構圖
8-2 Scala 介紹與安裝
8-3 安裝SPARK
8-4 啓動spark-shell 互動介麵
8-5 設定spark-shell 顯示訊息
8-6 啓動Hadoop
8-7 本機執行Spark-shell 程式
8-8 在Hadoop YARN 執行spark-shell
8-9 建置Spark standalone cluster 執行環境
8-10 在Spark standalone 執行spark-shell

Chapter09 Spark RDD 介紹
9-1 RDD 的特性
9-2 基本RDD「轉換」運算
9-3 多個RDD「轉換」運算
9-4 基本「動作」運算
9-5 RDD Key-Value 基本「轉換」運算
9-6 多個RDD Key-Value「轉換」運算
9-7 Key-Value「動作」運算
9-8 Broadcast 廣播變數
9-9 accumulator 纍加器
9-10 RDD Persistence 持久化
9-11 使用Spark 建立WordCount
9-12 Spark WordCount 詳細解說

Chapter10 Spark 整閤開發環境介紹
10-1 下載與安裝Scala IDE
10-2 下載專案所需要的Library
10-3 啓動eclipse
10-4 建立新Spark 專案
10-5 設定專案程式庫
10-6 新增scala 程式
10-7 下載WordCount 測試資料
10-8 建立WordCount.scala
10-9 編譯WordCount.scala 程式
10-10 執行WordCount.scala 程式
10-11 匯齣jar 檔
10-12 spark-submit 詳細介紹
10-13 在本機local 模式執行WordCount 程式
10-14 在hadoop yarn-client 執行WordCount 程式
10-15 WordCount 程式在Spark Standalone Cluster 執行
10-16 本書範例程式安裝說明

Chapter11 建立推薦引擎
11-1 推薦演算法介紹
11-2 「推薦引擎」大數據分析使用情境
11-3 ALS 推薦演算法介紹
11-4 ml-100k 推薦資料下載與介紹
11-5 使用spark-shell 匯入ml-100k 資料
11-6 查看匯入的資料
11-7 使用ALS.train 進行訓練
11-8 使用模型進行推薦
11-9 顯示推薦的電影的名稱
11-10 建立Recommend 專案
11-11 Recommend.scala 程式碼
11-12 建立PrepareData() 資料準備
11-13 recommend() 推薦程式碼
11-14 執行Recommend.scala
11-15 建立AlsEv alution.scala 調校訓練參數
11-16 建立PrepareData() 資料準備
11-17 進行訓練評估
11-18 執行AlsEv aluation
11-19 修改Recommend.scala 為最佳參數組閤

Chapter12 StumbleUpon 資料集介紹
12-1 StumbleUpon 資料集
12-2 下載StumbleUpon 資料
12-3 以LibreOffice Calc 試算錶查看train.tsv
12-4 二元分類演算法

Chapter13 決策樹二元分類
13-1 決策樹介紹
13-2 建立Classi fication 專案
13-3 建立RunDecisionTreeBinary.scala 程式
13-4 資料準備階段
13-5 訓練評估階段
13-6 預測階段
13-7 執行RunDecisionTreeBinary.scala
13-8 修改RunDecisionTreeBinary 調校訓練參數
13-9 RunDecisionTreeBinary 執行參數調校程式
13-10 RunDecisionTreeBinary 不執行參數調校程式

Chapter14 邏輯迴歸二元分類
14-1 邏輯迴歸分析介紹
14-2 RunLogisticRegressionWithSGDBinary.scala 程式說明
14-3 執行RunDecisionTreeRegression.scala 進行參數調校
14-4 執行RunDecisionTreeRegression.scala 不進行參數調校

Chapter15 支援嚮量機器SVM 二元分類
15-1 支援嚮量機器SVM 演算法基本概念
15-2 RunSVMWithSGDBinary.scala 程式說明
15-3 執行SVMWithSGD.scala 進行參數調校
15-4 執行SVMWithSGD.scala 不進行參數調校

Chapter16 單純貝氏二元分類
16-1 單純貝氏分析原理介紹
16-2 RunNaiveBayesBinary.scala 程式說明
16-3 執行NaiveBayes.scala 進行參數調校
16-4 執行NaiveBayes.scala 不進行參數調校

Chapter17 決策樹多元分類
17-1 「森林覆蓋樹種」大數據問題分析情境
17-2 UCI Covertype 資料集介紹
17-3 下載與查看資料
17-4 建立RunDecisionTreeMulti.scala
17-5 修改RunDecisionTreeMulti.scala 程式
17-6 執行RunDecisionTreeMulti.scala 進行參數調校
17-7 執行RunDecisionTreeMulti.scala 不進行參數調校

Chapter18 決策樹迴歸分析
18-1 Bike Sharing 大數據問題分析
18-2 Bike Sharing 資料集
18-3 下載與查看資料
18-4 建立RunDecisionTreeRegression.scala
18-5 修改RunDecisionTreeRegression.scala
18-6 執行RunDecisionTreeRegression.scala 執行參數調校
18-7 執行RunDecisionTreeRegression.scala 不執行參數調校

Chapter19 使用Apache Zeppelin 資料視覺化
19-1 Apache Zeppelin 介紹
19-2 安裝Zeppelin 前的準備
19-3 Apache Zeppelin 安裝
19-4 啓動Apache Zeppelin
19-5 建立新的Notebook
19-6 使用Zeppelin 執行Shell 命令
19-7 建立暫存資料錶「UserTable」
19-8 使用Zeppelin 執行年齡統計Spark SQL
19-9 使用Zeppelin 執行性彆統計Spark SQL
19-10 依照職業統計
19-11 Spark SQL 加入文字方塊輸入參數
19-12 加入選項參數
19-13 Zeppelin 在firefox 瀏覽器使用的問題
19-14 同時顯示多個統計欄位
19-15 工具列設定
19-16 設定段落標題
19-17 設定Paragraph 段落寬度
19-18 設定顯示模式

圖書序言

圖書試讀

用户评价

评分

第一次接觸到大數據這個領域,說實話,心裏還是有點打鼓的。畢竟,名字聽起來就覺得很硬核,加上Hadoop和Spark這些關鍵字,腦海裏浮現的都是一堆代碼和復雜的架構圖。不過,手上的這本《Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰》倒是讓我眼前一亮。雖然書名聽起來有點長,但實際翻閱起來,感覺它的敘事方式很接地氣,一點點地把原本遙不可及的概念給拆解開來。一開始,它就不是直接丟給你一堆技術名詞,而是先從大數據到底是什麼、為什麼重要開始講起,讓我這個新手也能慢慢跟上。然後,它很有條理地介紹瞭Hadoop的HDFS和MapReduce,感覺像是把一個龐然大物切成瞭可以理解的小塊,讓我知道數據是怎麼存儲、怎麼被處理的。即使是初學者,也能在這種循序漸進的引導下,建立起對大數據處理流程的基本認識。我特彆喜歡它在解釋概念時,會穿插一些實際應用的例子,比如電商的數據分析、社交媒體的趨勢預測等等,這樣就能立刻感受到這些技術離我們並不遙遠,而且能夠解決實際問題,這大大提升瞭我繼續往下讀的動力。

评分

整本書讀下來,我最大的感受就是它的“實戰”二字名副其實。它不是一本純理論的書籍,也不是一本隻有概念講解的書。作者在書中傾注瞭大量的篇幅來展示如何將Hadoop和Spark這兩個強大的工具,以及機器學習的技術,融會貫通,真正地應用於解決實際的大數據問題。書中的每一個案例,都仿佛是作者在真實項目中的一次復盤,從問題分析、技術選型,到架構設計、代碼實現,再到最後的性能調優和結果解讀,都講得非常詳細。我尤其喜歡它提供的那些可執行的代碼示例,我都可以直接復製到自己的開發環境中進行測試和學習,這大大縮短瞭學習和實踐的周期。讀這本書,感覺就像是跟著一位經驗豐富的工程師在手把手地教你如何做大數據開發,那種學習的效率和收獲感是其他很多書難以比擬的。對於想要在實際工作中應用大數據技術,或者希望提升自己在大數據開發和機器學習整閤能力的讀者來說,這本書絕對是值得入手的一本好書。

评分

在我看來,《Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰》這本書在機器學習部分的講解,雖然不是像一本專門的機器學習教材那樣麵麵俱到,但它勝在“整閤”二字。它把機器學習的常用算法,比如分類、迴歸、聚類等,與Spark MLlib緊密地結閤起來,用一種更實用的方式呈現。對於我們這些可能已經有一定機器學習基礎,但希望將這些能力應用到大數據場景中的讀者來說,這本書非常閤適。它不會讓你從頭學習所有的數學原理,而是直接教你如何利用Spark的強大能力,去快速地實現這些機器學習算法,並且處理海量的數據。例如,書中關於模型訓練和評估的部分,用Spark MLlib實現起來效率很高,而且還可以方便地進行分布式訓練。這對於處理TB甚至PB級彆的數據來說,是至關重要的。它讓我看到瞭將機器學習能力“放大”的可能性,不再受限於單機性能,而是可以在分布式環境中,輕鬆地處理更復雜的模型和更大規模的數據集。

评分

這本《Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰》在介紹Spark的部分,真的可以說是給我打開瞭新世界的大門。Spark的內存計算能力,相比於Hadoop MapReduce,那種效率上的飛躍,光是想想就讓人覺得興奮。書裏對Spark的RDD、DataFrame和Dataset這幾個核心概念做瞭非常詳盡的講解,而且還會對比它們之間的優缺點,告訴我什麼時候該用哪個。最棒的是,它不是枯燥地陳述理論,而是把這些理論都落實到具體的代碼實現上。我尤其欣賞它在講解Spark SQL和Spark Streaming時,給齣的那些實戰代碼片段,那些代碼我都嘗試著在自己的環境裏跑過,看到數據流動、結果輸齣,那種成就感是無與倫比的。而且,它還介紹瞭Spark MLlib,這可是機器學習的部分,把大數據分析和機器學習結閤在一起,這正是我們現在很多企業都在追求的。從數據預處理到模型訓練、評估,整套流程都梳理得很清楚,讓我覺得以後在工作中,可以嘗試用Spark來搭建更強大的數據分析和預測係統。

评分

不得不說,這本書在整閤開發這一塊的內容,做得相當到位。很多時候,我們學習大數據技術,常常是孤立地學習Hadoop、Spark,卻不知道如何將它們有效地結閤起來,形成一個完整的項目流程。《Hadoop+Spark大數據巨量分析與機器學習整閤開發實戰》恰恰填補瞭這一塊的空白。它不是簡單地把Hadoop和Spark的功能羅列一遍,而是著重於“整閤開發”,也就是說,它教我們如何將Hadoop作為數據的存儲層,Spark作為強大的計算引擎,再結閤機器學習庫,來實現端到端的解決方案。書裏有幾個章節專門講瞭如何構建一個完整的大數據分析項目,從數據采集、清洗、存儲,到使用Spark進行復雜的分析和建模,最後如何部署和監控。這些章節中的案例都很貼近實際業務場景,比如如何構建一個用戶行為分析平颱,或者一個實時的推薦係統。這些例子都非常具體,有詳細的步驟和代碼示例,讓我覺得學到的東西可以直接應用到工作中,很有實際操作價值。

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 twbook.tinynews.org All Rights Reserved. 灣灣書站 版權所有