发布网友 发布时间:2022-04-23 20:02
共2个回答
热心网友 时间:2022-04-07 13:35
百万级别数据是小数据,python处理起来不成问题,但python处理数据还是有些问题的
Python处理大数据的劣势:
1、python线程有gil,通俗说就是多线程的时候只能在一个核上跑,浪费了多核服务器。在一种常见的场景下是要命的:并发单元之间有巨大的数据共享或者共用(例如大dict),多进程会导致内存吃紧,多线程则解决不了数据共享的问题,单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦
2、python执行效率不高,在处理大数据的时候,效率不高,这是真的,pypy(一个jit的python解释器,可以理解成脚本语言加速执行的东西)能够提高很大的速度,但是pypy不支持很多python经典的包,例如numpy(顺便给pypy做做广告,土豪可以捐赠一下PyPy - Call for donations)
3、绝大部分的大公司,用java处理大数据不管是环境也好,积累也好,都会好很多
Python处理数据的优势(不是处理大数据):
1、异常快捷的开发速度,代码量巨少
2、丰富的数据处理包,不管正则也好,html解析啦,xml解析啦,用起来非常方便
3、内部类型使用成本巨低,不需要额外怎么操作(java,c++用个map都很费劲)
4、公司中,很大量的数据处理工作工作是不需要面对非常大的数据的
5、巨大的数据不是语言所能解决的,需要处理数据的框架(hadoop, mpi。。。。)虽然小众,但是python还是有处理大数据的框架的,或者一些框架也支持python
6、编码问题处理起来太太太方便了
综上所述:
1、python可以处理大数据
2、python处理大数据不一定是最优的选择
3. python和其他语言(公司主推的方式)并行使用是非常不错的选择
4. 因为开发速度,你如果经常处理数据,而且喜欢linux终端,而且经常处理不大的数据(100m一下),最好还是学一下python
如果只是学习Python的话,找工作可能会比较困难,建议还是系统学习一下大数据的相关课程,现在很多专业机构都可开设,你可以点击头像了解一下
热心网友 时间:2022-04-07 14:53
因为方便啊。
在大数据面前,用什么语言开发,执行起来都需要很长时间,都是慢。
那么,执行速度方面已经没有意义了,写起来舒服的好处就凸显出来了。
试想一下,对于一个大数据任务,你用C写的程序要跑两个小时,别人用python写的要跑四个小时,没人会盯首屏幕两个小时,所以一般都会晚上下班时开始跑,第二天早上来看结果。那么,对于一个晚上的时间来说,两个小时和四个小时,是没有差别的,第二天早上你都一样可以看到结果。
在这种情况下,python的方便灵活就比C的艰深晦涩有吸引力了。