数据可视化,基础概述。

Day1. 概述

Python数据可视化介绍

做为⼀名数据分析师,掌握可视化技能是必不可少的。大部分情况下,上级更关心呈现的结果。当可视化的结果呈现在你眼前时,你才能直观地体会到“数据之美”。图片在内容表达上,要远胜于文字,它不仅能体现数据真实性,还能给人很大的想象空间。

我们经常听到的Tableau 和 PowerBI 是商业可视化工具,在可视化灵活分析上功能强⼤,主要目标用户是较专业的数据分析师。同时在工作场景中使用率高,因此掌握对于晋升和求职都很有帮助,之后DataScience也会推出相关培训。

Python是数据分析的首选语言,如果我们的学习目标是数据挖掘工程师,或者算法工程师,那么最重要的就是要了解,并且熟练掌握Python的数据可视化,在校学生以及科研人员也可使用Python进行可视化。此外当我们在使用Python与数据库交互时,获取数据后直接在Python进行分析和观察会更为方便。

Python里包括了众多可视化库,比如:Matplotlib、Seaborn、Bokeh、Plotly、Pyecharts、Mapbox和Geoplotlib。其中使用频率,最需要掌握的就是Matplotlib和Seaborn。 Matplotlib是Python的可视化基础库,作图风格和MATLAB类似,所以称为Matplotlib。⼀般学习Python数据可视化,都会从 Matplotlib⼊⼿,然后再学习其他的Python可视化库。

Seaborn是⼀个基于Matplotlib的⾼级可视化效果库,针对Matplotlib做了更⾼级的封装,让作图变得更加容易

本次课程的内容包含有Python安装,语言基础,绘图基础,和使用Matplotlib和Seaborn库绘制十个常用的可视化试图,如:折线图,直方图,箱线图等,并掌握试图在不同的情况下的适用场景。

安装与环境搭建

Python主要有两个版本: 2.7.x和 3.X。 有部分旧的项目使用的包是基于2.7版本的,如果是这样只能使用2.7,目前我们只需要使用新的3.X版本。对于基础的同学,推荐使用Anaconda方式安装Python环境。

Anaconda下载

下载地址:https://www.anaconda.com/products/individual

打开页面后,点击下载,根据操作系统选择下载Python3.7版本,分为64为和32位版本,查看操作系统可知下载64或是32,如果计算机设备不是很旧,通常是下载64位。

Anaconda安装

打开下载好的安装包,点击”Next” 下一页 : “I Agree”—

下一页: Install For: Just Me 如果只有一个用户 All User 如果电脑有多个用户选择All User,我这里选择All User,继续点击”Next”

下一页: 选择目标文件夹:如果C盘空间充裕,可选择默认地址; 点击“Next”

下一页: 高级选项: 第一个是加入环境变量,第二个是默认使用Python2.7 ;两个都勾选,点击”Next”

等待安装完成后,点击”FInish“完成安装

启动Jupyter Notebook

Jupyter Notebook是一个开源的Web应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。使用Jupyter Notebook可以让我们在网页中编辑,运行和调试代码,使用起来非常方便。

Aanconda安装好后,找到菜单目录,找到Anaconda Navigtor图标,双击打开,出现以下界面:

image-20200509225153813

选择Jupyter Notebook,点击“Launch”。启动Jupyter Notebook,此时网页浏览器会打开File,文件界面。

img

我们可以在桌面建立一个文件,命名为“数据可视化”,来保存代码文件。

在Jupyter Notebook中,选择路径:Desktop/数据可视化/,在右上角处点击New,新建一个Python3文件:

image-20200509135037813

文件建好后,我们在文本框中编辑代码,点击按钮“运行”可以进行调试并出结果。

img

有关于Jupyter Notebook的更多使用方法,可以在网上搜索相关文档进行学习。

评论