pythongbdt（PythonGBDT分类树）

2023学大数据需要学习哪些软件

1、数据库需要熟悉NoSQL数据库(mongodb、redis)，能够完成数据库的配置和优化。

2、Apache Spark：Spark是一个快速、通用的大数据处理框架，可以进行实时数据处理、批处理、机器学习等任务。 Apache Hive：Hive是一个基于Hadoop的数据仓库和查询工具，用于支持大规模分布式数据查询和分析。

3、Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。

4、⑤spring cloud：一系列框架的有序集合，他巧妙地简化了分布式系统基础设施的开发。⑤python：一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

5、Octoparse是一种简单直观的网络爬虫，可以从网站上直接提取数据，不需要编写代码。无论你是初学者、大数据专家、还是企业管理层，都能通过其企业级的服务满足需求。

输入从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

执行测试代码：运行 Fast R-CNN 或 Faster R-CNN 的测试代码，对测试集中的图像进行遍历，记录所有的预测结果和真实标签。

混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。

首先要介绍一下混淆矩阵(confusion matrix)，给定一个模型的预测标签时，它可以被用来快速计算精度和召回率。二分类的混淆矩阵总共包含四个不同的结果：真正例(TP)、假正例(FP)、真反例(TN)，以及假反例(FN)。

混淆矩阵还有另一种写法，即横纵轴都以positive，和negative表示，而不是如上的一个是指标，一个是判断（正确，错误）。这些都不重要，自己看清楚不要臆测就好了。

数学建模的重点是数学，不是计算机或编程语言，重点是要有强大的数学功底，及对欲建模问题的深刻理解和分析，计算机只是一个辅助工具。当你在数学层面对要建模问题分析清楚了，然后用计算机编程语言去把它表达出来即可。

以美国大选为例，首先取得过去十次选举的历史数据，然后根据历史数据得到选民意向的转移矩阵。

数学建模和仿真：Python的SimPy库是一个用于离散事件模拟的仿真库，可以帮助研究者在Python环境下进行数学建模和仿真。机器学习和人工智能：Python的Scikit-learn库是一个简单高效的数据挖掘和数据分析工具。

学习编程语言：数学建模需要使用计算机来实现模型的建立和求解，因此需要学习一些编程语言，例如MATLAB、Python等。可以通过在线教程或参加课程来学习这些语言。

以下是一些自学数学建模的方法：学习数学基础知识，例如线性代数、微积分、概率论等。学习编程语言，例如Python、MATLAB等。阅读相关书籍，例如《数学建模算法与应用》、《数学模型》等。

本文由阿林文章来源于网络如需要删除联系作者：http://www.youhonglin.com/50380.html

本站部分内容来自网络，如有侵权，请联系我们进行处理，转载本站文章请注明出处！