相关文章
五款必备高效Python数据分析库,你知道几个?
2024-11-10 17:07

       在大数据时代,数据思维已开始深刻变革各行各业,从我们的电商消费信息、运动轨迹、社交数据、产品使用习惯,到企业的调研、设计、产品、运营、营销,再到交通、金融、生产制造、公共服务。而由于Python在数据获取、数据处理、数据分析、数据挖掘、数据可视化、机器学习、人工智能等方面有着非常多成熟的库以及活跃的社区,构成数据科学领域最为完整且完善的生态。

五款必备高效Python数据分析库,你知道几个?

       尤其是在NLP(自然语言处理)项目中,用Python来处理数据也就变得更加广泛了。下面将详细地介绍五款必备的高效Python数据分析库。这会对我们编写高级复杂的程序帮助很大。但不用担心,你不需要有任何技术基础就可上手这些库。

       Numerizer是一个将自然语言中文本数字快速转换为整数型(int)和浮点型(float)数字的Python模块或库。它是一个开源的GitHub项目(https://github.com/jaidevd/numerizer)。特别说明,为了方便演示该库的使用。这里推荐使用Anaconda,它是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,非常适合初学者。

打开Anaconda的终端,输入如下语句进行Numerizer库的安装。

pipinstall numerizer

安装完成后,我们可以运行Anaconda内置的spyder,并输入以下语句

fromnumerizer import numerize

numerize('fortytwo')

numerize('forty-two')

numerize('fourhundred and sixty two')

numerize('onefifty')

numerize('twelvehundred')

numerize('twentyone thousand four hundred and seventy three')

numerize('onemillion two hundred and fifty thousand and seven')

numerize('onebillion and one')

numerize('nineand three quarters')

numerize('platformnine and three quarters')

程序运行结果如下图所示,可以很清楚地发现,英文文字数字被准备转换成了相应的数字。

       在现实世界的数据集中发现丢失值是很普遍的。每次处理数据时,缺失值是必须要考虑的问题。但是手工查看每个变量的缺失值是非常麻烦的一件事情。数据分析之前首先要保证数据集的质量。Missingo就是一个可视化丢失值的库。它提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集,使您可以快速直观地总结数据集的完整性。(该库的GitHub地址:https://github.com/ResidentMario/missingno)

这里同样是使用Anaconda,打开Anaconda的终端后,输入如下语句进行Missingo库的安装

pipinstall missingno

下面的样例数据使用NYPD Motor VehicleCollisions Dataset 数据集.运行下面语句即可获得数据

pipinstall quilt

quiltinstall ResidentMario/missingno_data

之后,加载数据到内存,输入以下语句

fromquilt.data.ResidentMario import missingno_data

collisions= missingno_data.nyc_collision_factors()

collisions= collisions.replace("nan", np.nan)

在Missingo库中,有几个主要函数以不同方式的可视化展示数据集数据缺失情况。其中,Matrix是使用最多的函数,能快速直观地看到数据集的完整性情况。输入以下语句:

importmissingno as msno

%matplotlibinline

msno.matrix(collisions.sample(250))

程序运行后,矩阵显示的结果如下。图中右边显示的迷你图总结了数据集的总的完整性分布,并标出了完整性最大和最小的点。

特别说明,这里也可以通过figsize指定输出图像大小,例如下面语句:msno.matrix(collisions.sample(250),figsize=(12,5))

此外,msno.bar函数也是一个非常有用的函数,可以简单地展示无效数据的条形图。

msno.bar(collisions.sample(1000))

程序运行后,显示的数据条形图:

在软件需求、开发、测试过程中,我们可能会遇到需要生成一些测试数据或在分析中使用一些虚拟数据的情况。针对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据。但由于现在的业务系统数据多种多样,千变万化。在手动制造数据的过程中,可能需要花费大量精力和工作量,此项工作既繁复又容易出错,而且,部分数据的手造工作无法保障:比如UUID类数据、MD5、SHA加密类数据等。

Faker是一个Python库,开源的GITHUB项目(https://github.com/joke2k/faker),主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的快速生成。

pipinstall faker

输入下面语句,引用初始化

fromfaker import Faker

f=Faker(locale='zh_CN')

特别说明,关于初始化参数locale:为生成数据的文化选项,默认为英文(en_US)。如果要生成相对应的中文随机信息(比如:名字,地址,邮编,城市,省份等),需使用zh_CN值。

之后,输入下面语句,将随机生成假的中文名字和地址,非常简单易用。

fori in range(1,100):

  print(f.name()+" "+f.address())

运行结果如下:

在情感数据分析方面,收集和分析有关表情符号的数据可以提供非常有用的信息。而表情符号是一种小到可以插入到表达情感或想法的文本中的图像。它仅由使用键盘字符(如字母、数字和标点符号)组成。

Emot库也是一个开源Github项目(https://github.com/NeelShah18/emot),可以帮助我们把表情符号emojis和emoticons转换成单词。它有一个很全面的表情符号与相应单词映射的集合。

输入以下语句即可自动安装

pipinstall emot

输入下面语句

importemot

text= "I love python

    以上就是本篇文章【五款必备高效Python数据分析库,你知道几个?】的全部内容了,欢迎阅览 ! 文章地址:http://yejunbin01.xhstdz.com/news/1596.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多   
最新文章
Dynadot支持哪些中文域名后缀
Dynadot是一家知名的国外域名注册商,成立于2002年,其官网支持中文、英文、法语、西班牙语等多种语言切换,主要提供域名注册、
如何轻松应对Nginx配置文件大小限制提高网站性能与稳定性
为什么需要关注Nginx配置文件大小限制 在使用Nginx作为网站服务器的过程中,配置文件的大小限制是一个常见的问题。当配置文件过大时,会导致服务器性能下降,影响网站的稳定性和访问速度。因此,及时优化和调整配置文件大小非常重要。 如何
打造健康生活新选择:养生馆推广文案写作技巧揭秘
引言:健康生活的追求 在现代社会中,健康已经成为人们最看重的财富之一。快节奏的生活和不断加重的工作压力,使得越来越多的人开始关注自己的身心健康。养生馆作为一种创新的健康生活方式应运而生,它不仅为人们提供了放松身心的场所,还
探索兰州魅力:一份全面的兰州旅游攻略揭开牛肉面与黄河的秘密
探索兰州:邂逅西北的魅力之城 兰州,作为甘肃省的省会,坐落于黄河上游,是一座历史悠久而又充满活力的城市。这里不仅拥有丰富的文化遗产,还有壮观的自然景观。兰州以其独特的地理位置、深厚的文化底蕴和美味的地方美食吸引着越来越多的
如何设置服务器配置提高系统性能?
提高系统性能的重要性 在当今数字化时代,服务器的性能直接影响到企业的竞争力和运营效率。一个高效的服务器配置不仅可以提升系统的稳定性和响应速度,还能提高员工的工作效率和客户体验。 选择适合的硬件和软件配置 首先,要根据企业的实
如何成功启动社区团购:从运营模式到实战技巧的全方位解析
引言:社区团购的崛起 在当今的互联网时代,社区团购以其高效、便捷的特点迅速崛起,成为许多消费者购物的新选择。社区团购不仅能满足居民对日常生活用品的需求,还能通过规模化采购为消费者带来实惠。如何成功启动社区团购,成为了许多创
海底捞学生证折扣使用时间详解:让你的就餐更划算
海底捞学生证折扣使用时间详解 海底捞作为国内知名的火锅连锁品牌,一直以高质量的服务和美味的火锅享誉全国。而对于学生党来说,海底捞更是一个不可多得的福利之地。学生持有效学生证可以享受折扣优惠,让你的就餐更划算。 折扣使用时间
企业网站优化的方法详解
企业网站优化的方法详解 在当今数字化时代,企业网站是企业展示形象、吸引客户、提升品牌的重要窗口。但是,如何使企业网站在竞争激烈的网络世界中脱颖而出,吸引更多潜在客户,成为每家企业都需要思考和解决的问题。 网站内容优化 网站内
探索旅游景区的多样性:常见景观设施类型与特色分析
引言 随着人们生活水平的不断提高,旅游已成为现代生活中不可或缺的一部分。在这个充满活力的行业中,旅游景区以其多样化的景观设施和独特的文化特色,吸引了越来越多的游客。本文将深入探讨旅游景区的多样性,分析常见的景观设施类型以及
企业网站建设优化设计:提升品牌形象与用户体验的必经之路
企业网站建设优化设计的重要性 随着互联网的迅猛发展,企业网站已经成为企业展示自身形象、吸引客户、促进销售的重要工具。而一个优秀的企业网站不仅仅是在页面上简单地展示产品和服务,更需要具备优化设计,提升品牌形象和用户体验,从而
相关文章