数据科学是一个跨学科领域,使用统计,数学和计算机科学的科学技术来更准确,有效地分析数据和解决问题。 因此,毫无疑问,r和python等语言,其广泛的软件包和库支持统计方法和机器学习算法,是数据科学革命的基石。 通常情况下,初学者很难决定先学习哪种语言。
r语言
r是由罗斯·伊卡(ross ihaka)和罗伯特·绅士(robert gentleman)于1995年建立的一种开源的统计计算语言。 它的创建是为了使数据分析,统计模型和图形模型更容易。 r有一个大型存储库,称为cran,用户通常会做出贡献。 r的主要优势之一是它有一个非常活跃的社区,通过邮件列表,stackoverflow论坛和所有软件包的非常广泛的文档为用户提供充分的支持。 r具有稍微古怪的语法,这对于初学者来说可能难以接受,但特别适合于从统计和研究背景的人们开始快速创建模型。
python
python是guido van rossem于1991年建立的高级解释性的通用语言,旨在提高程序员的生产力和代码的可读性。 通常是程序员和计算机科学背景的人们喜欢进行数据分析的首选语言。 它是一种非常灵活的语言,使其非常适合于生产级工作,像r一样,在pypi中包含python包的存储库中的统计数据和机器学习包。 它具有良好的社区支持,虽然它是一种通用语言,但并不都集中在数据科学领域。
使用python的最大优点是可以使用诸如theano,keras,scikit等软件包,这些学习是学术研究目的以及商业意图所使用的重要机器学习和深层学习库。
选择正确的语言
作为专业的问题解决者,数据科学从业者需要有一套多功能的工具作为他们的曲目的一部分。 当学习r和python是理想的时候,考虑到r使数据清理和操作变得非常简单,而python更适合在更大的数据集和规模上构建模型,我们都必须从某处开始。 您的正确选择可以由以下因素决定:以前的编程经验,教育背景,职业期望以及深入学习技术的兴趣。
以前的编程经验
如果您在学习数据科学之前有任何编程经验,我们的建议将是您学习python。其清晰的语法将很容易让您接受;并且它是一种通用语言,您将有更多的灵活性来构建新颖的东西。建议一个完整的新手学习python,因为它是计算机科学中最初始的最流行语言之一,是美国顶尖大学最流行的入门教学语言(“acm文章通讯”,2014年)。 r代码更加快速,并且也不那么冗长,但它具有一个古怪的语法,难以为硬核程序员和初学者学习。对于有兴趣学习python编程的人,我们推荐本课程。
学历
在统计学或数学方面有一个背景,使得r成为您的最佳选择。这是因为r是专门针对统计数据创建的域专用语言,使其对具有统计学位的人员的使用直观。 r由统计学家创建,并与其他统计学家一起创建,因此掌握统计分析可以使过渡到这种语言变得更加容易。
职业理想
作为数据分析师/业务分析师/金融分析师,您的重点将在于从数据中提取大部分信息,而无需从您的内容中创建产品。因此,学习r和数据库语言(如sql)将为您提供更好的服务,因为r非常适合在单个系统/服务器上使用表格数据,并拥有诸如ggplot2之类的很好的库,便于可视化。
但数据科学家有着不同的要求,因为它们有望进行分析,并创建产品,如在网站或软件的数据库上工作的机器学习引擎。这将需要软件开发以及预测建模工作,这可以通过python等通用语言更好地实现。这些原则将适用于所有行业。
深度学习兴趣
深度学习是热门话题,任何有兴趣为人工智能技术发展做出贡献的人都应该学习python。机器学习和深度学习的压倒性人气来自于python作为程序员和c / c ++等低级语言之间的界面,这使得它非常容易进行实验,创建模型和调试而不会影响在计算速度(因为机器使用c / c ++和cuda技术来构建模型)。这使得python成为数学家和统计学家非常易于使用的语言,希望创建神经网络模型,而不必从头开始创建它们,因为python提供的预先存在的框架。
写在最后
您可以看到,您希望进入数据科学和机器学习的深度越多,您选择python就越有意义,尽管r还具有自己的优势。 最终,对这两种语言的全面了解,每种语言的局限性和优势是学习这两种独特语言的最佳方法。 就这样说,我们建议数据科学爱好者选择适合他们的需求和愿望。