python被称之为胶水语言,应用非常广泛,很多人可能都不知道Python编程也可以处理大数据,那么用Python编程如何进行处理大数据?处理技巧有哪些是北大青鸟的老师今天要给你解答的疑问。
1.文本处理效率
这里举例ascii定长文件,因为这个也并不是分隔符文件,所以打算采用列表操作实现数据分割。但是问题是处理20w条数据,时间急剧上升到12s。本以为是byte.decode增加了时间。遂去除decode全程bytes处理。但是发现效率还是很差。后用简单方式测试,首次运行,简单方式也要7.5秒100w次。
2.大文件读取效率
面对100w行的大数据,在测试了各种文件读取方法之后,我们得出以下结论:方式快,100w行全遍历2.7秒。基本上满足了大中型文件处理效率的需求。 如果将rb更改为r,则速度要慢6倍。 但是用这种方式处理文件,fLine是字节类型的。 但是python编程本身会断行,并且仍然可以以行为单位处理读取的内容。
3.python处理技巧
(1)对于字典
多使用iteritems()少使用items(),iteritems()返回迭代器:字典的items函数返回的是键值对的元组的列表,而iteritems使用的是键值对的generator,items当使用时会调用整个列表 iteritems当使用时只会调用值。
(2)列表处理
def fun(x):尽量选择集合、字典数据类型,千万不要选择列表,列表的查询速度会超级慢,同样的,在已经使用集合或字典的情况下,不要再转化成列表进行操作
(3)文件属性
如果遇到某个文件,其中有属性相同的,但又不能进行去重操作,没有办法使用集合或字典时,可以增加属性,比如将原数据重新映射出一列计数属性,让每一条属性具有唯一性,从而可以用字典或集合处理
(4)实用模块
Python编程数据统计分析技术,今后会在测试结果分析中用到,程序自动触发技术,可用于测试脚本程序的自动执行,读写文件技术,今后会用到测试数据的参数化和测试报告写作功能中,图表展示技术,在今后的测试框架中相关测试报告会用到,数据处理技术,今后测试脚本的测试数据处理过程可以用到。
以上的内容对于小白同学看的可能还是很不明白,不过没有关系,对于你不明白地方可以咨询北大青鸟校区的客服,我们很乐意为您解答疑问。