課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段一:數據分析師認知篇

此階段為我們整個課程的第一階段,開發基礎階段。將主要側重Java語言及結構化查詢語言SQL語言的學習。通過對Java語言基礎語法、OOP編程、多線程及網絡編程、MySQL數據庫、Maven項目管理等開發入門工具的學習,訓練學員掌握大數據必備的基本編碼能力,為后續進一步學習大數據分析/推薦系統等更高級的內容打下堅實且必要基礎。

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 數據分析師先導篇

2課時

1、對數據分析專業有初步的了解
2、了解什么是數據分析
3、了解數據分析師的工作職責及工作流程
4、為自己樹立職業目標"
1、數據分析的概念
2、數據分析的作用
3、數據分析六部曲
4、數據分析的三大誤區
5、數據分析師的發展和職業要求
1、從零開始學會搭建Python開發環境
2、掌握Python基礎語法
3、理解基本編程思想與方法
能夠使用Python寫一個簡單的基于控制臺的應用
02 邏輯為先—XMIND

3課時

思維導圖將左右腦功能結合,通過目標管理 -> 方案制定->解決方案,讓工作、學習、思考效率提升。它的界面比 FreeMind 要美觀很多,繪制出的思維導圖也更加漂亮,功能也更加豐富。它兼容FreeMind 和 MindManager數據格式,并且不僅可以繪制思維導圖,還能繪制魚骨圖、二維圖、樹形圖、邏輯圖、組織結構圖。 1、xmind簡介
2、xmind作用
3、xmind模板的制作和下載
4、xmind內容制作
5、導入及導出
6、學習方法課堂案例
7、滴答拼車實戰演練
8、其他思維導圖介紹
1、學會用XMIND制作思維導圖
2、整理思維邏輯性,在今后的工作和學習中靈活運用各類思維導圖圖表
無論是學習中的筆記還是工作中的會議紀要,還是改善自己的思維邏輯性,都可以用XMIND來解決。
03 流程主導—VISIO

4課時

Visio是一款便于IT和商務專業人員就復雜信息、系統和流程進行可視化處理、分析和交流的軟件。使用具有專業外觀的 Office Visio 圖表,可以促進對系統和流程的了解,深入了解復雜信息并利用這些知識做出更好的業務決策。 1、VISIO的基本布局和功能模塊
2、流程圖結構說明
3、DO&DONOT業務流程圖注意事項
4、項目實戰:制作簡單流程圖
5、使用Visio畫UML序列圖
學會利用VISIO制作業務流程圖,了解公司詳細的業務流程 對公司業務流程更加清晰,為后續分析做好基礎。
04 專業展現——PPT

1課時

專業數據分析師會以PPT或文檔方式對報告進行專業展現。而PPT的制作是展示一個分析師是否專業的直接標準。通過對本門課程的學習會使學員掌握高效,美觀,炫酷,專業的制作方法。 1、專業展現—PPT
2、基本簡介
3、幾個不得不說的真相
4、經驗分享
5、實戰動畫
學會專業的PPT制作,讓你的數據報告看起來更專業,為最后的數據分析報告錦上添花 學會做好看的ppt,是你成為優秀數據分析師的秘密武器,它會在老板面試幫你展現你的展業水準!

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段二:數據預處理分析篇

本課程為數據分析的初級應用階段,主要通過Python語言、Excel、Power BI、My SQL、Tableau等可視化工具進行對數據的預處理,讓學員能夠在拿到數據后對數據進行清洗,轉換等處理,為接下來的數據建模打下基礎。

  • 重要程度:
  • 難度級別:
本課程本課程針對初學者的學習特點,在結構上采用“由淺到深、由點到面、由傳統運算到綜合應用”的組織思路,在教學上采用“理論與實際相結合”的教學原則,全面具體地對Power BI的基礎操作、連結數據、加載數據、處理數據、轉換和塑造數據、建模數據、可視化數據顯示、數據分析等內容作了介紹。在正課講解過程中還穿插了很多操作技巧,如此安排,旨在讓學員學會Power BI的基礎知識,掌握Power BI的操作技能,并能熟練應用Power BI于數據分析的工作之中,實現數據的中高級展現。
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 Excel數據處理與分析實戰

48課時

本課程針對初學者的學習特點,在結構上采用“由淺到深、由點到面、由傳統運算到綜合應用”的組織思路,在教學上采用“理論與實際相結合”的教學原則,全面具體地對Excel的基礎操作、數據內容的輸入與編輯、公式與函數的應用、數據的排序與篩選、分類匯總與合并計算、透視表/透視圖的應用、工作表的輸出打印、power view、power map等內容作了介紹。在正課講解過程中還穿插了很多操作技巧,旨在讓學員掌握Excel的操作技能,并能熟練應用Excel于數據分析的工作之中,通過以上操作可以實現對數據的基本展現。 1、用Excel實現數據清洗和轉化
2、用Excel之Power Query實現數據轉換和清洗
3、數據分析和建模(power query和power pivot的使用)
4、數據展現之基本統計圖介紹及簡單制作
5、數據展現之利用Excel實現基本數據透視表
6、數據展現之利用Power View實現高級透視表
7、數據展現之利用Power Map實現bing地圖
8、宏與VBA
9、Excel解決某公司財務報表動態生成
1、熟練掌握用Excel、power query實現數據的清洗和轉換
2、學會使用power pivot進行數據建模
3、學會利用power view、power map實現數據展現
4、了解宏與VBA
學完本課程可基本完成數據分析的工作,包括數據預處理,數據建模,數據分析以及數據展現,達到初級數據分析師的標準。
02 Power BI快速上手商業數據可視化

16課時

1、微軟Power BI簡介
2、通過power pivot報告快速上手power bi
3、Power BI Desktop 界面介紹和數據導入整理
4、Power BI Desktop建立數據分析模型
5、Power BI Online Service(在線版)特有功能
6、Power BI Online Service 報告的分享與寫作
7、power bi和Excel的配合
8、數據的刷新
9、儀表板的制作原則
10、常用可視化圖表介紹
11、Power BI 之巧用地圖
1、掌握Power BI 桌面版的使用
2、使用power BI desktop進行數據的導入、處理、建模、及分析
3、學會及配合使用power bi和Excel
4、學會使用power bi進行三維地圖的繪制
1、通過power bi desktop可快速建立數據模型
2、通過power bi desktop可在網頁端進行數據展現
3、通過power bi desktop可實現數據實時更新并發表。
03 Tableau數據可視化應用實戰

24課時

本課程基于Tableau 10.3最新版本研發,詳細介紹了Tableau的數據連接與編輯、圖形編輯與展示功能,包括數據連接與管理、基礎與高級圖形分析、地圖分析、高級數據操作、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。同時,課程以豐富的實際案例貫穿始終,對各類方法、技術進行了詳細說明,方便讀者快速掌握數據分析方法,實現對數據的高級展現。 1、Tableau 概述
2、Tableau新手上路
3、Tableau連接數據并準備數據
4、Tableau設計視圖
5、利用Tableau工具分析數據
6、Tableau瀏覽與關注web內容
7、Tableau Serve與Tableau Online
8、Tableau連接My Sql進行數據分析
9、Tableau地圖繪制與圖像
10、Tableau高級圖表類型
11、Tableau函數、公式與高級數據分析
Tableau綜合案例分析1:某電商網站行為分析
Tableau綜合案例分析2:某在線教育網站指標評估
Tableau綜合案例分析3:網絡廣告營銷分析
Tableau綜合案例分析4:某零售行業進銷存分析
1、了解Tableau的安裝與基本使用方法
2、使用Tableau進行數據可視化展示
3、掌握Tableau函數、公式與高級數據分析
1、能夠使用Tableau進行數據的高級可視化展示
2、能夠利用Tableau對網站數據進行高級數據分析
04 My Sql數據庫自動化操作及應用

40課時

通過本門課程的學習,可以讓學員熟悉MYSQL環境搭建及基本的錯誤處理和配置,掌握MYSQL數據庫和表的創建、修改方法.了解數據庫和表的基本結構,熟練使用DML語句對表進行CURD操作,熟悉事務的基本概念,掌握使用事務進行業務提交和回滾。能夠利用SQL語句進行復雜的業務查詢與處理。后繼的數據可視化工具將結合MySQL數據庫進行數據分析操作。 1、初識My Sql(安裝My Sql、使用CMD登錄My Sql、數據庫數據類型、約束、Navicat介紹、Navicat創建數據庫、Navicat填充數據)
2、SQL進階
3、多表查詢及存儲過程
4、商品進銷存項目實戰
1、了解數據庫數據類型
2、學會創建并使用數據庫
3、熟練掌握數據庫的增刪改查
4、掌握數據庫的多表查詢及存儲過程
1、可從企業中的數據庫直接導出數據進行分析
2、可在數據庫中進行數據操作
3、可將數據可視化工具結合MySQL數據庫進行數據分析操作

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段三:數據挖掘篇

此階段為我們整個課程的第三階段,數據挖掘篇。側重于數據的分析和建模。通過對基本的數理統計知識的學習,達到利用高級分析工具及方法對業務分析預測的目的。

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 數據分析—數理統計基礎

8課時

“數據科學與大數據技術”專業設置中,數學和統計學屬于必修的核心學科,可見其重要性。很多同學開始學習大數據和數據分析時候后遇到的最大障礙也是數學,到底從事大數據和數據分析需要掌握哪些數學知識呢?需要掌握到什么程度呢? 本門課程就是專門針對沒有數理統計基礎的學員量身訂數的數據分析課程,通過本門課程的學習,能夠理解大數據中的數理基礎,并深入了解數理統計的概念及在大數據中的應用。內容涵蓋數學分析、高等代數、概率論、數理統計中的關鍵知識點,為后期更深入的學習大數據分析挖掘、機器學習等更高級的課程打下良好基礎。 1、概率
2、樣本與抽樣
3、描述數據(統計量)
4、正太分布
5、統計推斷
6、實驗設計
7、變量之間的關系
8、回歸分析
9、聚類分析
1、掌握統計學的基本理論
2、了解數據分析中的高級分析
1、能夠通過對理論的學習為后續的高級分析打下基礎
2、通過高級分析方法對復雜數據進行高級數據分析
02 SPSS建模分析

8課時

SPSS采用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他數據庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對于熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,然后按“粘貼”按鈕就可以自動生成標準的SPSS程序。極大的方便了中、高級用戶。 1、spss入門介紹
2、好的開始是成功的一半—數據錄入與數據處理
3、化簡為繁—描述性統計分析
4、看圖說話—統計圖表分析
5、真假博弈1——假設檢驗概述與t檢驗
6、真假博弈2——非參數檢驗與卡方檢驗
7、萬物皆有聯系——相關分析與回歸案例
8、影響因素判斷——方差分析
9、與時俱進——時間序列分析
10、涇渭分明——分類算法
11、物以類聚——聚類算法
12、大道至簡——降維方法研究
項目案例:spss 人口普查數據分析實例
1、了解SPSS的建模分析方法 1、能夠利用所學的spss知識解決實際工作中遇到的復雜問題
2、為后續學習的深入學習打下基礎
03 SAS建模分析

16課時

SAS系統全稱為Statistics Analysis System,于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統,但該軟件系統最早的功能限于統計分析,至今,統計分析功能也仍是它的重要組成部分和核心功能。SAS已被全世界120多個國家和地區的近三萬家機構所采用,直接用戶則超過三百萬人,遍及金融、醫藥衛生、生產、運輸、通訊、政府和教育科研等領域。在數據處理和統計分析領域,SAS系統被譽為國際上的標準軟件系統,堪稱統計軟件界的巨無霸。 1、SAS基本介紹 2、SAS的安裝
3、SAS運行環境的界面介紹
4、Insight模塊 5、SAS編程基本語法
6、數據的導入與導出 7、Analyst模塊
8、SAS運算符及函數 9、DATA步信息語句
10、Assist模塊 11、Assist模塊
12、使用SAS制作統計分析報表
13、使用STAT模塊進行統計分析介紹
14、SAS中的宏語言 15、Enterprise Miner 數據挖掘模塊
16、使用ETS模塊對面板數據進行計量分析
項目案例: 商品管理系統分析案例解析
1、了解SAS的基本介紹,安裝及界面
2、了解SAS的編程基本語言
3、使用SAS制作統計分析報表
1、了解什么是SAS
2、了解SAS的工作方法
3、利用SAS進行數據高級建模
04 MATLAB數理統計

16課時

MATLAB意為矩陣工廠(矩陣實驗室)。是由美國mathworks公司發布的主要面對科學計算、可視化以及交互式程序設計的高科技計算環境。它將數值分析、矩陣計算、科學數據可視化以及非線性動態系統的建模和仿真等諸多強大功能集成在一個易于使用的視窗環境中,為科學研究、工程設計以及必須進行有效數值計算的眾多科學領域提供了一種全面的解決方案,代表了當今國際科學計算軟件的先進水平。 1、了解Matlab 2、Matlab語言基礎
3、Matlab的選擇結構 4、Matlab的循環結構
5、自定義函數 6、復數及其作圖
7、高維數組與稀疏矩陣
8、單元數組和結構數組
9、Matlab的數值運算
10、Matlab的符號運算
11、I/O操作 12、圖形對象接口(GUI)
13、結束篇
1、了解Matlab的語言基礎及各種機構
2、學會利用Matlab進行可視化高級建模
1、能夠實現對數據進行高級可視化建模

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段四:Python數據分析篇

此階段為我們整個課程的第四階段,Python數據分析。將主要側重Python語言及數據分析包的學習。通過對Python語言、Python數據處理、分析包及可視化包的學習,訓練學員掌握必備的基本編碼能力,為后續更高級的內容打下堅實且必要基礎。

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 Python 掃盲

1天

本課程介紹機器學習首選語言Python,主要講解了python語言的開發環境的搭建、模塊管理工具的安裝、介紹開發的模式,編寫簡單的代碼和算法。Python的歷史和生態環境介紹,開發環境的搭建,pip的介紹和安裝,模塊的概念介紹,編寫簡單的模塊;模塊的導入、認識Python的內置數據類型、算術運算符、邏輯運算符、定義函數,類、異常的處理和使用、文件操作等。 Python語言開發要點詳解
Python開發環境搭建
Python數據類型和常見算法
Python 函數式編程
Python文件處理
Python類、異常處理
1、從零開始學會搭建Python開發環境
2、掌握Python基礎語法
3、理解基本編程思想與方法
能夠使用Python寫一個簡單的基于控制臺的應用
02 Python 核心編程

2天

這是機器學習的第二門入門課程,機器學習是一門綜合學科,需要數學、統計數基礎及計算機相關編碼技能,本課程在課程一的基礎上進一步加強機器學習首選語言-Python的內容,涉及Python語言核心的集合、元組、泛型、字典及相關數據持久化等知識,為后繼進一步深入機器學習打下堅實基礎。 Python 中的集合,泛型,元組,字典
Python網絡編程、多線程 、正則表達式
MySQL數據庫精講
MongoDB數據庫精講
Python中如何操作MySQL數據庫
Python中如何操作MongoDB
1、對Python的集合,泛型、元組深入理解與掌握
2、掌握Python面向對象編程
3、光速上手MySQL & MongoDB 數據庫
4、掌握Python如何操作MySQL數據庫
5、掌握Python如何操作MongoDB數據庫
1、利用python類庫實現更加高級的數據處理
2、可以把爬蟲獲取到的數據存放到數據庫中
3、熟練使用Python進行數據持久化工作
03 數據收集– Python 爬蟲技術

3天

進行數據分析的前提是要有數據,數據的來源方式有很多種,其中有一種非常常見的數據獲取方式就是利用網絡爬蟲抓了數據,Python是最好的進行網絡爬蟲的實現語言之一,利用其提供的Scapy框架可以很方便快捷高效的實現數據的收集,通過本門課程的學習,可以讓零基礎人群輕松掌握利用Python的urllib2、beautifulsoup及scrapy框架三種方式爬取網絡上信息 Python爬蟲原理與入門
利用requests及BeautifulSoup爬取數據
Beautiful Soup庫的使用
利用及BeautifulSoup爬取數據
利用Scrapy框架爬取數據
爬蟲綜合項目實戰
1、了解Python爬蟲的基本工作原理
2、掌握Python爬蟲的基本類庫:urllib2、beautifulsoup的使用
3、熟練使用Scrapy框架進行數據的抓取
1、使用 Python 庫進行豆辯電影分析
2、能夠利用Scrapy框架實時抓取京東、天貓商城數據
04 Python科學計算庫 - Numpy

2天

本門課程主要介紹現在主流的數據科學工具包Numpy的使用。課程分入門和進階兩個部分通過入門部分的學習,可以應付后續機器學習課程中的絕大多數應用;而對于想要更深入探究算法原理的學員,建議掌握進階部分的內容。 NumPy 簡介、程序包、簡單的Numpy程序
Ndarray的文件操作
操作多維數組ndarray、索引、索引數組、布爾數組
改變ndarray的形狀
ndarray的基本運算
numpy進階
numpy高級:廣播、復制與視圖
1、了解Numpy的安裝與快速使用
2、閱讀Numpy API并熟練使用其核心方法
3、掌握Numpy對一維、二維及多維數據的使用技巧
1、能夠利用Numpy包進行一些金融,電商等 數據的量化分析工作
2、能夠利用Numpy進行數據的科學計算
3、能夠用Numpy實現“人工智能/機器學習”各種經典算法
05 Python科學計算庫 - Scipy

2天

本門課程主要介紹常用的數據科學工具包Scipy。課程分入門和進階兩個部分,numpy提供了數組對象,面向的任何使用者。scipy在numpy的基礎上,面向科學家和工程師,提供了更為精準和廣泛的函數。scipy幾乎實現numpy的所有函數,一般而言,如果scipy和numpy都有這個函數的話,應該用scipy中的版本,因為scipy中的版本往往做了改進,效率更高。通過入門部分的學習,可以應付后續機器學習課程中的絕大多數應用;而對于想要更深入探究算法原理的學員,建議掌握進階部分的內容。 簡單的SCIPY程序
SCIPY程序包
scipy簡介
線性代數基礎知識_向量
線性代數基礎知識_矩陣
特征值和特征向量
解線性方程組
最小二乘法
1、了解Scipy包的安裝與基本使用方法
2、閱讀Scipy API并熟練使用其核心方法
3、掌握Scipy的科學計算方法與技巧
1、能夠利用Scipy包完成人工智能/機器學習應用中的一些專業數學統計運算
2、能夠利用Scipy進行人工智能/機器學習應用中的科學計算
3、能夠用Numpy+Scipy實現“人工智能/機器學習”各種經典算法
06 Python數據分析庫 – Pandas

2天

pandas 是基于NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。通過本門課程的學習,可以應付后續機器學習課程中的絕大多數應用,建議掌握本部分的內容。 Pandas 簡介\PANDAS程序包安裝
簡單的PANDAS程序\Series類說明
Series的bool運算選擇\SERIES的復雜操作
DataFrame的常用構造方式與操作
分組求和(聚合操作)\列與列之間的四則運算
刪除某一列\按位置選定指定的行和列
DataFrame與DataFrame之間的join操作
1、了解Pandas包的安裝與基本使用方法
2、閱讀Pandas API并熟練使用其核心方法
3、掌握Pandas的科學計算方法與技巧
1、能夠利用Pandas包進行人工智能/機器學習應用的數據分析工作
2、能夠利用Pandas包簡化人工智能/機器學習應用中的科學計算
3、能夠利用Pandas實現“人工智能/機器學習”各種經典算法
07 Python數據分析可視化庫 – matplotlib

3天

Matplotlib 可能是 Python 2D-繪圖領域使用最廣泛的套件。它能讓使用者很輕松地將數據圖形化,并且提供多樣化的輸出格式。這里將會探索 matplotlib 的常見用法。。通過本門課程的學習,可以應付后續機器學習課程中的絕大多數應用,建議掌握本部分的內容 Matplotlib簡介
matplotlib程序包安裝
簡單的matplotlib程序
Matplotlib主要繪圖類型(上)
Matplotlib主要繪圖類型(下)
Matplotlib主要繪圖參數
Matplotlib主要繪圖裝飾函數
Matplotlib文字標注與注釋
1、了解matplotlib包的安裝與基本使用方法
2、閱讀matplotlib API并熟練使用其核心方法
3、掌握matplotlib的繪圖技巧,實現可視化展示
1、能夠使用 Python 庫進行豆辯電影分析
2、能夠利用對人工智能/機器學習處理后的數據進行可視化展示

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段五:大數據分析篇(必修篇)

此階段為我們整個課程的第五階段,不需要學員具備Java基礎知識,也不需要學員了解大數據環境,只需要學員有Python及數據庫基礎知識,便可以學習此部分內容。此部分內容,老師將會直接給到學員一個真實的大數據開發環境,直接在這個真實的開發環境里結合實際的四個小案例手把手的教大家去實現一個Python+Spark(PySpark框架)的具體應用,這是目前大據分析師工作的主要內容,干貨滿滿!

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 大數據分析Hadoop及Python實現

1.5天

本部分抽取出做大數據分析之必知必會的虛擬機搭建、Linux常見命令和Hadoop內容,重點講解了Python中如何與Hadoop結合實現離線數據分析,最后通過一個“股票分析案例“對上述內容進行全程演練,讓學員徹底掌握這塊內容 1、大數據框架Hadoop介紹、MapReduce思想
2、使用QuickStart VM快速搭建環境、數據基本存儲命令
3、案例一:Python實現Hadoop MapReduce 詞頻統計
4、案例二:Python實現Hadoop MapReduce 的IBM股票價格數據分析
5、案例二:Matplotlib繪圖展示分析結果
項目涉及到技術有:
Python基礎語法與核心編程
Python中的爬蟲技術
Numpy數據處理
Pandas數據分析
Matplotlib\PyEcharts的數據可視化等技術。
1、了解了一個真實的數據分析項目全流程
2、能夠對之前學習過的Python爬蟲技術結合項目有更深入的理解
3、掌握numpy,pandas 結合 matplotlib\PyEcharts進行可視化數據分析與展示
02 大數據分析框架PySpark基本使用

1天

PySpark是目前企業中主流在使用進行大數據平臺下的一個框架,把現在主流的Python及Spark結合起來使用,即利用到了Python強大的數據分析功能,又利用了Spark強大的實時功能。本課程詳細介紹了PySpark框架的安裝、配置、常見API,使用技巧等,并結合”航班信息分析“案例對上述內容全程演練 1、Spark簡介、環境搭建
2、Spark 核心、Jupyter Notebook使用
3、詞頻統計:WordCount
4、使用PyCharm對航班信息數據分析
項目涉及到技術有:
1、Excel的數據處理與分析技術
2、Power BI的數據處理與分析技術
3、Tableau的數據處理與分析技術
4、可視化展示
1、了解了一個真實的數據分析項目全流程
2、掌握可視化分析工具結合業務的綜合運用
03 PySpark分析某航天中心服務器日志

2天

數據分析里有一個典型的應用就是日志分析,本課程在前一個課程的基礎上更側重于實際應用。通過一個完整的”航空信息日志“在PySpark中的數據分析,使學員短時間內掌握PySpark的一些高級技巧,使用學員對該框架的理解和使用更上一個臺階 1、服務器日志讀取解析
2、日志數據采樣統計概覽
3、基于不同需求分析日志數據
4、分析展示404響應日志數據
1、通過項目實戰充分掌握數據分析的全部工作流程
2、通過項目實戰串聯所學內容
3、在實戰項目過程中發現并解決自己的問題點
可以實際參與到企業真實的數據分析工作,利用自己所學知識內容完成企業分析需求并制作專業數據分析報告。
04 專業展現——PPT

2天

本課程主要講解了Hive如何結合PySpark框架進行數據的分析。本課程不僅停留在理論層面,而是全程案例貫穿,通過一個“影評數據分析系統”完整的演示了Hive SQL 如何與PySpark集成分析的全過程 1、大數據SQL分析框架Hive使用
2、HQL結合Python腳本影評數據分析
3、PySpark與Hive集成分析
4、基于SQL和DSL的PySpark分析
1、通過項目實戰充分掌握數據分析的全部工作流程
2、通過項目實戰串聯所學內容
3、在實戰項目過程中發現并解決自己的問題點
可以實際參與到企業真實的數據分析工作,利用自己所學知識內容完成企業分析需求并制作專業數據分析報告。

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段六:精英項目實戰篇

此階段為我們整個課程的第六階段,精英項目實戰篇。借助四大商業級項目實戰,讓學員對數據分析應用有一個全面的理解與認識,讓學員在工作中有機會沖擊高級數據分析師工作崗位,從而成為這個領域的專家

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 綜合項目實戰01 - Python豆瓣電影分析系統

1.5天

本項目系Python數據分析模塊全部學習完成后最終的一個綜合項目實戰課程,項目通過真實的豆瓣電影數據的分析,從數據的抓取,到數據的清洗、處理、拆分、合并、去重、特征值提取,到最后的數據分析及可視化數據展示,全面演示了一個數據分析業務的運行全過程。 通過一個真實項目演示一個數據分析項目全流程,主要包括:
1、業務需求分析
2、數據收集
3、數據清洗
4、數據處理
5、數據分析
6、數據可視化分析展示
7、數據分析報告
項目涉及到技術有:
Python基礎語法與核心編程
Python中的爬蟲技術
Numpy數據處理
Pandas數據分析
Matplotlib\PyEcharts的數據可視化等技術。
1、了解了一個真實的數據分析項目全流程
2、能夠對之前學習過的Python爬蟲技術結合項目有更深入的理解
3、掌握numpy,pandas 結合 matplotlib\PyEcharts進行可視化數據分析與展示
02 綜合項目實戰02 - 豆瓣電影可視化分析系統

1天

本項目系《綜合項目實戰01 - Python豆瓣電影分析系統》的子妹篇,本項目在上述項目的基礎上,側重于可視化工具的使用。通過真實的豆瓣電影數據的分析,借助Excel,PowberBI,Tableau等可視化工具,完成了數據的的清洗、處理、拆分、合并、去重、特征值提取,到最后的數據分析及可視化數據展示,全面演示了一個數據分析業務的運行全過程。 通過一個真實項目演示一個數據分析項目全流程(借助可視化分析工具),主要包括:
1、業務需求分析
2、數據收集
3、數據清洗
4、數據處理
5、數據分析
6、數據可視化分析展示
7、數據分析報告
項目涉及到技術有:
1、Excel的數據處理與分析技術
2、Power BI的數據處理與分析技術
3、Tableau的數據處理與分析技術
4、可視化展示
1、了解了一個真實的數據分析項目全流程
2、掌握可視化分析工具結合業務的綜合運用
03 Python商業數據科學實戰系統課程-1:CRM客戶洞察與用戶畫像系統(Python篇)

2天

客戶洞察是分析型客戶關系管理的核心,是實現客戶智能的必要手段,其旨在增加CRM系統的商業分析與輔助決策能力。分析型CRM需要整合外部客戶數據、渠道數據和大量交易數據,并從中提取出隱含有用的信息,這便是數據科學的用武之地。本課程來源于企業的真實案例,通過本項目實戰將所學全部知識串聯起來,并且結合企業實際業務需求及情況讓學員清楚了解企業的分析需求及實際分析工作內容,為最終進入企業打下堅實的基礎。 1、初始客戶信息獲取
2、客戶價值預測
3、初始信用評級與行為信用評級
4、客戶細分與客戶畫像
1、通過項目實戰充分掌握數據分析的全部工作流程
2、通過項目實戰串聯所學內容
3、在實戰項目過程中發現并解決自己的問題點
可以實際參與到企業真實的數據分析工作,利用自己所學知識內容完成企業分析需求并制作專業數據分析報告。
04 Python商業數據科學實戰系統課程-2:CRM客戶洞察與用戶畫像系統(Python+大數據篇)

2天

本課程源于一個企業的真實項目。在《Python商業數據科學實戰系統課程-1:CRM客戶洞察與用戶畫像系統(Python篇)》課程的基礎上加入了大數據的內容,系其子妹篇,要求能夠在大數據平臺上完成用戶的分析 預警及精準營銷的功能 1、經準營銷與交叉銷售
2、申請反欺詐與交易欺詐檢測
3、知識圖譜在申請欺詐中的運用
4、客戶滿意度與客戶保留
5、客戶行為偏好分析與產品推薦
1、通過項目實戰充分掌握數據分析的全部工作流程
2、通過項目實戰串聯所學內容
3、在實戰項目過程中發現并解決自己的問題點
可以實際參與到企業真實的數據分析工作,利用自己所學知識內容完成企業分析需求并制作專業數據分析報告。

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段七:大數據分析師(選修沖擊篇)

此階段為我們整個課程的第七階段,屬選修內容,需要學員具備基本的Java語言編程能力,主要介紹了大數據平臺的基本搭建及Spark,Storm結合來完成在大數據環境下的數據分析及實時數據分析的要求。有對大數據開發感興趣,希望了解更多大數據相關內容的同學可以選修

  • 重要程度:
  • 難度級別:
1、通過一個電商實時系統了解天貓雙11系統架構與關健核心技術
2、掌握SparkStream+Kafka+Redis如何結合業務使用
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 Linux 系統運維管理

3天

隨著人工智能、大數據時代的到來,Linux的地位與日俱增!本門課程的講師用通俗易懂的語言,以主流CentOS操作系統為例,系統講解Linux知識點:多語言運行環境配置、常用軟件及應用部署、運維必備服務等實用技能,助你快速上手獨立配置Linux操作系統,為部署大數據應用環境打下扎實的基礎。 1、Linux發展及介紹
2、Vmvare與Centos6.x的安裝部署
3、Linux文件管理及用戶管理
4、Linux權限管理與常用工具命令
5、Linux網絡管理與系統管理
6、Linux軟件管理與正則表達式
7、Shell編程應用
8、Linux定時任務Crontab
1、了解Linux環境的安裝部署
2、熟練使用Linux常用管理命令
3、熟練使用Shell編程開發Shell批處理腳本
4、熟練使用Linux Crontab定時任務
1、能夠獨立熟練操作Linux,完成各種應用工具的安裝部署
2、能夠根據需求獨立完成shell腳本的開發與定時調度
02 大數據存儲分析HADOOP框架入門

2天

大數據時代已經到來,越來越多的行業面臨著大量數據需要存儲以及分析的挑戰。Hadoop,作為一個開源的分布式并行處理平臺,以其高擴展、高效率、高可靠等優點,得到越來越廣泛的應用。本課旨在培養學員理解Hadoop的架構設計以及掌握Hadoop的運用能力。 1、大數據概論
2、HADOOP 框架及偽分布式環境
3、HDFS分布式文件系統
4、MapReduce并行計算框架
5、YARN分布式資源管理
6、MapReduce企業開發案例
7、Hadoop分布式集群部署
8、Hadoop容災方案:高可用
1、了解Hadoop體系架構及設計思想
2、掌握HDFS設計及運行原理,熟練使用HDFS操作命令
3、熟練掌握MapReduce運行原理,熟練使用Java開發MapReduce應用
4、熟練管理Hadoop集群,部署分布式及容災方案
1、能夠獨立部署Hadoop集群,并配置容災方案,解決集群常見問題
2、能夠根據需求使用Java熟練開發MapReduce程序
03 大數據倉庫工具HIVE

2天

Hive是基于Hadoop的一個數據倉庫工具,提供了強大的數據操作能力,包括數據的導入,查詢和豐富的內置函數。同時,Hive也提供了對應的客戶端可以操作數據,通過Java編程可以創建自定義函數來實現具體的業務邏輯。本課程將帶你進入大數據開發分析的新世界,使用SQL語言對大數據進行分析處理。 1、Hive引入、介紹及安裝
2、Hive 的DDL(數據庫創建及表的三種創建方式)
3、Hive 外部表、分區表及加載數據和基本SQL使用
4、Hive高級電商案例分析
5、Hive Server2及beeline與JDBC使用
1、了解Hive的基本架構及實現原理
2、熟練使用SQL語句管理Hive中的數據庫、表、數據
3、熟練使用Hive解決業務需求
4、熟練使用Hive提供接口開發應用
1、能夠獨立完成Hive的安裝部署構建數據倉庫
2、能夠使用SQL根據需求實現數據的統計分析
04 SCALA 語言基礎

3天

Scala語言具備面向對象和函數式兩種編程范式,為程序設計帶來了更大的靈活性和方便性。本門課程將簡明扼要地介紹Scala的語言基礎。完成本課程的學習后,同學們將對函數式編程有初步的認識,也能夠編寫簡單的Scala代碼。 1、SCALA 環境安裝搭建和IDEA初步使用
2、變量、數據類型、流程控制語句
3、函數式編程:函數定義、匿名函數、高階函數、可變參數函數等
4、Scala 集合:可變和不可變、列表List、元祖Tuple及Set和Map及常見高階函數4、Scala OOP、模式匹配、隱式轉換
1、了解Scala語言優勢
2、掌握如何安裝配置Scala環境
3、掌握Scala中變量聲明
4、熟練使用Scala中高階函數和匿名函數
5、理解Scala模式匹配和隱式轉換
6、掌握Scala中集合類及List列表中常見高階函數的使用
本階段完成可以為后續Spark和Kafka學習查看源碼打下基礎,更好的理解Spark框架的精髓,企業中很多是基于Scala語言編寫代碼分析數據的。
05 Spark SQL結構化數據處理

2天

本課程以“天池大賽數據”這一大數據應用案例為主線,使用淘寶真實日志,以目前主流的、最新的Spark穩定版2.2.x為基礎,依次介紹相關的大數據技術:Hadoop、Hive、Spark SQL,涉及數據清洗、統計存儲、處理入庫以及數據可視化(Echarts、Zeppelin),最終會形成一個完整的大數據項目。 1、與Hive集成分析數據
2、Dataset/DataFrame是什么
3、外部數據源接口read和write
4、基于天池大賽的口碑商家流量預測分析
1、了解SparkSQL前世今生
2、掌握SparkSQL的核心思想Dataset/DataFrame設計
3、熟練使用SQL和DSL進行數據分析
4、SparkSQL分析中性能優化
使用SQL或者DSL進行海量結構化數據分析,結合Python語言進行企業化的數據處理和機器學習中數據預處理操作,也能實現海量數據交互式快速分析。
06 項目實戰:基于SparkStreaming+Kafka仿某寶實時訂單銷售額統計

1天

2016年天貓雙十一當天,零點的倒計時話音未落,52秒交易額沖破10億。隨后,又迅速在0時6分28秒,達到100億!每一秒開貓大屏上的交易額都在刷新,這種時實刷新的大屏看著感覺超爽。天貓這個大屏后面的技術應該是使用流計算,阿里使用Java將Storm重寫了,叫Jstrom。
本項目模仿一個電商系統,每時每刻都有訂單成交,每一筆成交的數據以一個事件發送到Kafka中,SparkStream每一分中從Kafka中讀取一次數據,計算一分鐘內每個商品的銷售額,然而寫入Redis,并在Redis中累加每分鐘的數據,Redis中主要存三種結果數量,從開始到當前總銷售額、從開始到當前每個商品銷售額、上一分鐘每個商品的銷售額
1、了解一個實時系統如何構建及功能
2、掌握SparkStream如何和Kafka交互
3、掌握Kafka如何與Redis進行交互
4、熟練使用SparkStream結合Redis進實時數據分析
5、理解實時系統的關健技術

課程時長:約 66天,每天不低于 6小時

授課方式:線下面授 + 翻轉課堂(部分課程結合平臺在線課程)

階段八:人工智能/機器學習(選修沖頂篇)

此階段為我們整個課程的第七階段,屬選修內容。需要學員具備比較強的算法數學能力及一定的Python編程能力,主要介紹了人工智能機器學習的入門知識及必備算法能力,通過具體的項目演示了人工智能/機器學習在實際工作中運用,會將來更進一步的深入人工智能學習打下良好的基礎

  • 重要程度:
  • 難度級別:
序號 課程名稱 課程介紹 學習內容 課時目標 學完后做什么
01 機器學習入門

1天

這是機器學習的入門課程,首先通過一個生活中的例子去理解數據挖掘和機器學習的概念,然后介紹了數據挖掘解決常見問題,常用的機器學習算法,以及經典應用案例。同時還介紹了機器學習的方法論和流程,為后續學習打下基礎。 機器學習掃盲
數據挖掘和機器學習概述
快速理解數據挖掘和機器學習
數據挖掘的六大任務
數據挖掘方法論(CRISP-DM)
預測模型的構建和應用流程
機器學習算法及分類.
數據挖掘與數據倉庫和OLAP
數據挖掘和機器學習應用案例
如何成為一名優秀的數據科學家
1、了解什么是人工智能/機器學習
2、了解人工智能/機器學習應用領域
3、了解人工智能/機器學習的實現基本思路與方法
1、能夠對人工智能與機器學習、深度學習之間的關系有了一個深入的理解
2、能夠知道開發一個人工智能的應用一些基本的套路與實現步驟
3、對十大經典人工智能/數據挖掘算法有一個基本的認知
02 機器學習十大經典算法原理與實現(入門篇)

2天

本門課程介紹了國際權威組織ICDM于2006年12月評選出來的數據挖掘領域的十大算法,此十大算法分別涉及后面我們要講到的監督學習、無監督學習、加強學習等分類,為機器學習之必學篇。這門課程只對ML的常用算法有個常識性的認識,沒有代碼,沒有復雜的理論推導,就是圖解一下,知道這些算法是什么,它們是怎么應用的,后繼課程對各算法有專題講解。 決策樹算法原理與適用場景
隨機森林算法原理與適用場景
邏輯回歸算法原理與適用場景
SVM算法原理與適用場景
樸素貝葉斯算法原理與適用場景
K最近鄰算法原理與適用場景
K均值算法原理與適用場景
Adaboost 算法原理與適用場景
神經網絡算法原理與適用場景
馬爾可夫算法原理與適用場景
1、了解十大經典算法的發展歷史與由來
2、了解十大經典算法的原理與公式
3、了解十大經典算法的具體應用和適應場景
1、了解十大經典算法是什么,為什么 ,以及怎么用
2、了解十大經典算法的經典應用場景及實際解決什么問題
3、能夠知道在什么場景下我們應該用哪個算法來解決實際問題
4、為后繼具體算法在人工智能/機器學習具體業務應用打下基礎
03 機器學習實戰案例-1:基于FP-growth算法實現的新聞網站流量點擊分析系統

1天

在新聞網站上,一個會用戶不斷點擊和瀏覽各種新聞報道,最終該用戶的這些點擊會被記錄下來,成為該用戶點擊的歷史記錄。而所有用戶的點擊歷史記錄,是一個蘊含了巨大價值的數據集。我們可以從各個角度,使用不同的方法來進行有價值的挖掘,并應用到不同的任務中去。
本項目就是從用戶點擊的歷史記錄中,挖掘頻繁項集,以便知道哪些新聞報道是經常關聯在一起的。從而為網站的新聞版面排版,新聞推薦等提供科學的參考。主要涉及到FP-growth、FP-tree等算法的綜合運用
04 機器學習實戰案例-2:、基于聚類(Kmeans)算法實現的客戶價值分析系統 客戶價值分析其實就是一個客戶分群問題。是以客戶為中心,先從客戶需求出發,搞清楚客戶需要什么,他們有怎么樣的一個特征,他們需要什么樣的產品,然后我們再回頭設計出相應的產品,以滿足客戶的需求。
之所以要進行客戶價值分析,就是商家為了避免閉門造車,主觀臆斷客戶需要什么什么什么。隨著數據量不斷增大,傳統的拍腦袋做決定的決策方式,變得越來越過時了。
那具體到我們這個項目呢,我們這個項目的背景是某電信運營商,該運營商需要以客戶為中心,按照客戶的需求,在對客戶特點的了解上,推出不同的資費套餐和營銷手段,以便更好地留住現有客戶,吸引新的客戶。
1、項目背景
2、 FP-growth算法的原理
3、Python代碼實現
04 機器學習實戰案例-2:、基于聚類(Kmeans)算法實現的客戶價值分析系統

1天

客戶價值分析其實就是一個客戶分群問題。是以客戶為中心,先從客戶需求出發,搞清楚客戶需要什么,他們有怎么樣的一個特征,他們需要什么樣的產品,然后我們再回頭設計出相應的產品,以滿足客戶的需求。
之所以要進行客戶價值分析,就是商家為了避免閉門造車,主觀臆斷客戶需要什么什么什么。隨著數據量不斷增大,傳統的拍腦袋做決定的決策方式,變得越來越過時了。
那具體到我們這個項目呢,我們這個項目的背景是某電信運營商,該運營商需要以客戶為中心,按照客戶的需求,在對客戶特點的了解上,推出不同的資費套餐和營銷手段,以便更好地留住現有客戶,吸引新的客戶。
1、項目背景
2、聚類模型算法簡介
3、kmeans算法原理
4、kmeans算法Python代碼實現
5、kmeans算法優化
05 機器學習實戰案例-3:、基于LVD、貝葉斯模型算法實現的電商行業商品評論與情感分析案例實戰

1天

現在大家進行網購,在購物之前呢,肯定會看下相關商品的評論,看下好評和差評,然后再綜合衡量,最后才會決定是否購買相關的商品。甚至有不少的消費者已經不看商品詳情描述頁了,而是直接看評論,然后決定是否下單。商品評論已經是用戶決策最為核心的考量因素了。
那么生產商或者賣家呢,其實他們也會根據評論里講到的一些要點,比如說有哪些優點,可以繼續發揚;又有哪些缺點,今后可以做繼續的改善。
那么我們這次的課程,也是對商品好評和差評的情況,做一個分析。并提取出關鍵詞來,幫助我們快速地了解一件商品的好和不好的地方。課程涉及的經典算法是:LDA及貝葉斯模型
1、LDA主題模型
2、SVD算法
3、LDA模型調優
4、貝葉斯模型
下載全部課程表

上海市普陀區中山北路3553號4樓

Copyright © 2008-2018 上海容大教育培訓有限公司 備案號:滬ICP備12015846號-1

賬號登錄
手機號快捷登錄
還沒有賬號, 現在 注冊
資料下載

Python數據分析師 全棧開發工程師 課程大綱 .pdf

广西快三是骗人的吗