新时代【机器学习】与【Pycharm】:【随机数据生成】与智能【股票市场分析】

目录

第一步:准备工作

1.1 安装必要的库

小李的理解:

1.2 导入库

小李的理解:

第二步:生成和准备数据

2.1 生成随机股票数据

小李的理解:

2.2 数据探索与可视化

小李的理解:

2.3 数据处理

小李的理解:

2.4 选择特征和标签

小李的理解:

第三步:拆分数据集

小李的理解:

第四步:训练决策树模型

小李的理解:

第五步:模型预测与评估

小李的理解:

结果

完整代码

总结


 

专栏:机器学习笔记

总篇:学习路线

第一卷:线性回归模型

第二卷:逻辑回归模型

第一步:准备工作

1.1 安装必要的库

小李的理解:

在开始之前,需要安装一些工具,类似于做饭前要准备好各种食材。这里,需要安装pandasscikit-learnmatplotlib,它们分别用于数据处理、机器学习和数据可视化。

在Pycharm中打开终端,并运行以下命令:

pip install pandas scikit-learn matplotlib

这些库的作用如下:

  • pandas:用于数据处理和分析,就像厨房里的切菜板和刀。
  • scikit-learn:用于机器学习模型的构建和评估,相当于厨房里的锅和炉灶。
  • matplotlib:用于数据可视化,类似于摆盘和装饰菜肴。

1.2 导入库

小李的理解:

在新的Python文件中,导入这些库。就像准备好工具后,把它们放在桌子上随时可以使用。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

第二步:生成和准备数据

2.1 生成随机股票数据

小李的理解:

现在要生成一些模拟的股票数据。想象在创建一个虚拟的股票市场,这些数据包括日期、开盘价、最高价、最低价、收盘价和成交量。就像在做一顿虚拟的大餐,需要各种食材和调料。

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期(工作日)
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

2.2 数据探索与可视化

小李的理解:

为了更好地理解我们的数据,可以绘制收盘价的时间序列图。这就像是把做好的菜摆盘后拍张照片,看看颜色和外观怎么样。

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史')
plt.xlabel('日期')
plt.ylabel('收盘价 (美元)')
plt.legend()
plt.show()

 

这段代码将显示模拟股票收盘价随时间变化的图表。

2.3 数据处理

小李的理解:

为了进行预测,需要创建一些特征和标签。用今天的数据来预测明天的情况。具体来说,会看看今天的收盘价,并判断明天的收盘价是否会上涨。就像是根据今天的天气预测明天是否会下雨。

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

在这段代码中:

  1. 创建了一个新的列次日收盘价,表示下一天的收盘价。
  2. 创建了标签列价格上涨,如果第二天的收盘价高于当天,则标签为1,否则为0。
  3. 删除了包含空值的行。

2.4 选择特征和标签

小李的理解:

选择一些关键数据作为特征,用它们来预测明天的情况。这些特征包括收盘价、开盘价、最高价、最低价和成交量。就像是选择了一些重要的天气指标(如温度、湿度、风速等)来预测明天的天气。

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

在这段代码中,选择了特征列和标签列,用于后续的模型训练和评估。

第三步:拆分数据集

小李的理解:

为了评估模型,需要把数据分成两部分:一部分用来训练模型,另一部分用来测试模型的准确性。就像是用一些数据来训练一个预测模型,然后用其他数据来验证它的预测能力。

from sklearn.model_selection import train_test_split

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

 

在这段代码中,将数据集的80%用作训练集,20%用作测试集。还设置了random_state参数,以确保每次运行代码时拆分方式相同。

第四步:训练决策树模型

小李的理解:

可以用训练数据来训练我们的模型了。决策树是一种机器学习算法,就像是一个聪明的机器人,它可以学习数据中的模式,并根据这些模式做出预测。

from sklearn.tree import DecisionTreeClassifier

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

在这段代码中,首先创建了一个DecisionTreeClassifier对象,然后使用训练数据X_trainy_train来训练模型。

第五步:模型预测与评估

小李的理解:

训练完成后,可以用测试数据来评估模型的表现。让模型对测试数据做出预测,并计算预测的准确性。就像是测试一个天气预报模型,看看它预测的准确性有多高。

from sklearn.metrics import accuracy_score

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

 

在这段代码中,我们使用clf.predict方法来预测测试数据的标签,然后使用accuracy_score函数来计算模型的准确性。

结果

 日期         开盘价         最高价         最低价         收盘价   成交量
0  2023-01-02  137.454012  138.937023  135.901969  121.582103  4440
1  2023-01-03  195.071431  195.684524  190.777431  162.289048  4766
2  2023-01-04  173.199394  184.221984  166.999404  108.534746  6644
3  2023-01-05  159.865848  164.891327  145.224374  105.168172  3914
4  2023-01-06  115.601864  121.481036  105.910136  153.135463  5968

 

日期         开盘价         最高价  ...   成交量       次日收盘价  价格上涨
0  2023-01-02  137.454012  138.937023  ...  4440  162.289048     1
1  2023-01-03  195.071431  195.684524  ...  4766  108.534746     0
2  2023-01-04  173.199394  184.221984  ...  6644  105.168172     0
3  2023-01-05  159.865848  164.891327  ...  3914  153.135463     1
4  2023-01-06  115.601864  121.481036  ...  5968  154.063512     1

 

[5 rows x 8 columns]
准确率: 0.50

完整代码

为了方便你查看和运行,以下是完整的代码:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期(工作日)
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

# 读取CSV文件中的数据
stock_data = pd.read_csv('data.csv')
print(stock_data.head())

# 设置字体属性,确保能显示中文
font = FontProperties(fname='C:/Windows/Fonts/simhei.ttf')  # 这里使用黑体,可以根据需要更改

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['日期'], stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史', fontproperties=font)
plt.xlabel('日期', fontproperties=font)
plt.ylabel('收盘价 (美元)', fontproperties=font)
plt.legend(prop=font)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

总结

生成随机股票数据,保存为 CSV 文件,并使用决策树进行预测和评估。

  1. 安装必要的库

    使用 pip install pandas numpy scikit-learn matplotlib 安装库。
  2. 生成并保存随机数据

    生成 99 个交易日(工作日)的随机股票数据,包括日期、开盘价、最高价、最低价、收盘价和成交量。使用 pandas 将数据保存到 data.csv 文件中。
  3. 读取并准备数据

    • 从 CSV 文件中读取数据。
    • 创建新的特征(次日收盘价)和标签(价格上涨)。
  4. 数据可视化

    • 使用 matplotlib 绘制收盘价的时间序列图。
    • 设置字体属性以确保图表中能正确显示中文。
  5. 拆分数据集

    将数据集拆分为训练集和测试集。
  6. 训练决策树模型

    使用 DecisionTreeClassifier 训练模型。
  7. 模型预测与评估

    使用测试集对模型进行评估,计算模型的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/783355.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

谷粒商城学习笔记-18-快速开发-配置测试微服务基本CRUD功能

文章目录 一,product模块整合mybatis-plus1,引入依赖2,product启动类指定mapper所在包3,在配置文件配置数据库连接信息4,在配置文件中配置mapper.xml映射文件信息 二,单元测试1,编写测试代码&am…

MySQL学习记录 —— 십칠 CentOS7.9环境下的MySQL8.4 安装和配置

文章目录 1、安装和配置2、MySQL 包位置3、主要程序介绍 本篇开始在之前mysql博客的基础上继续延伸,适合有一定基础的mysql使用者阅读 环境 :CentOS 7.9 root 用户,MySQL 8.4 1、安装和配置 看一下当前系统版本 cat /etc/redhat-release应当…

项目收获总结--MyBatis的知识收获

一、概述 最近几天公司项目开发上线完成,做个收获总结吧~ 今天记录MyBatis的收获和提升。 二、获取自动生成的(主)键值 insert 方法总是返回一个 int 值 ,这个值代表的是插入的行数。若表的主键id采用自增长策略,自动生成的键值在 insert…

ubuntu软件源的两种格式和环境变量

1. ubuntu的/etc是什么目录? 在Ubuntu操作系统中,/etc/是一个特殊的目录,它包含系统的配置文件。这些配置文件用于设置各种系统和应用程序的参数和选项。 一般来说,用户可以在这个目录下找到各种重要的配置文件,如网络…

Leetcode—93. 复原 IP 地址【中等】

2024每日刷题&#xff08;140&#xff09; Leetcode—93. 复原 IP 地址 实现代码 class Solution { public:vector<string> restoreIpAddresses(string s) {vector<string> ans;vector<string> path;function<void(int)>dfs [&](int start) {if…

robotframework+python接口自动化的点滴记录

在robotframeworkpython框架上写了两三天的接口自动化&#xff0c;做了一些笔记。 1.在断言的时候经常由于数据类型导致较验不通过&#xff0c;值得注意的是&#xff0c;在定义常量或者变量的时候&#xff0c;使用${}代表int类型&#xff0c;例如${2}就代表数字2&#xff0c;另…

E - Tree and Hamilton Path 2

算出所有路径之和2减去树的直径 #include <bits/stdc.h> using namespace std; typedef long long ll; const int N2e610; ll n,ans; ll e[N],h[N],idx,w[N],ne[N],dis[N]; void add(ll a,ll b,ll c){ e[idx]b,ne[idx]h[a],w[idx]c,h[a]idx; } ll c; void dfs(ll u,…

23款奔驰S400升级原厂后排电动座椅调节有哪些功能

奔驰 S400 商务版升级后排电动座椅后&#xff0c;通常会具备以下功能&#xff1a; • 电动调节功能&#xff1a;可以通过按钮或控制面板来调节座椅的前后、上下、倾斜等位置&#xff0c;以获得最佳的舒适度。 • 座椅加热功能&#xff1a;在寒冷的天气中&#xff0c;座椅加热…

云渲染平台那个好?2024云渲染测评

1.渲染100&#xff08;强烈推荐&#xff09; 以高性价比著称&#xff0c;是预算有限的小伙伴首选。 15分钟0.2,60分钟内0.8;注册填邀请码【5858】可领30元礼包和免费渲染券) 提供了多种机器配置选择(可以自行匹配环境)最高256G大内存机器&#xff0c;满足不同用户需求。支持…

自然语言处理领域介绍及其发展历史

自然语言处理领域介绍及其发展历史 1 NLP2 主要任务3 主要的方法1 基于规则的方法&#xff08;1950-1980&#xff09;2 基于统计的方法&#xff08;传统的机器学习的方法&#xff09;3 Connectionist approach&#xff08;Neural networks&#xff09; 1 NLP 自动的理解人类语…

uniapp父页面调用子页面 组件方法记录

文章目录 导文如何点击父页面&#xff0c;触发子页面函数先写一个子页面的基础内容父元素 如何点击父页面&#xff0c;修改子页面的值先写一个子页面的基础内容父元素 导文 如何点击父页面&#xff0c;触发子页面函数&#xff1f; 如何点击父页面&#xff0c;修改子页面的值&am…

jvisualvm工具使用--添加远程监视

jvisualvm简介 jvisualvm该工具位于jdk的bin目录下&#xff0c;是jdk自带的可用于监控线程、内存情况、查看方法的CPU时间和内存中的对 象、已被GC的对象、反向查看分配的堆栈等&#xff0c;即&#xff1a;Java虚拟机监控、故障排查及性能分析工具。 远程监控方法 以windows端…

最小二乘法实践

食堂饭菜价格表如下图所示&#xff0c;采用最小二乘法估算荤菜、素菜、米饭的价格构成&#xff0c;增加一条记录&#xff0c;两荤22元。 提取训练数据&#xff1a; x z 12 y z 14 2x z 22 x y z 18 x 2y z 23 2x y z 26 3x y z 36 代码如下&#xff1a; i…

事件mousePressEvent、paintEvent、closeEvent、keyPressEvent】

事件 mousePressEvent、paintEvent、closeEvent、keyPressEvent 鼠标样式的设置 按WSAD通过keyPressEvent事件移动按钮 通过事件mousePressEvent获取鼠标位置的相对位置&#xff0c;绝对位置 cusor 鼠标样式设置成十字星 .h #ifndef DEFAULTHANDLEREXAMPLE_H #define DEFAUL…

01:单片机开发前的准备工作

单片机开发前的准备工作 1、 开发环境的安装2、创建工程和文件3、编译代码4、下载到单片机 1、 开发环境的安装 第一步&#xff1a;安装KEIL开发软件&#xff0c;按照如下步骤按照软件 第二步&#xff1a;注册KEIL软件 2、创建工程和文件 第一步&#xff1a;先在F盘创建一个文…

取得了PMP证书后有哪些优势?不清楚的快来看!

拿到PMP证书后&#xff0c;个人可以享受到一系列的福利&#xff0c;这些福利主要包括但不限于以下几个方面&#xff1a; 职业发展优势 PMP证书是项目管理领域的全球权威认证&#xff0c;能证明持证者具备系统的项目管理知识和经验。在求职和职业发展过程中&#xff0c;PMP证书…

【基础算法总结】分治—归并

分治—归并 1.排序数组2.交易逆序对的总数3.计算右侧小于当前元素的个数4.翻转对 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x1f496; 你的支持是对我最大的鼓励&#xff0c;我们一起努力吧!&#x1f603;&#x1f603; 1.排序数组 …

阶段三:项目开发---民航功能模块实现:任务18:指挥航空公司架次与延误率占比

任务描述 内 容&#xff1a;在前面的“使用Spark清洗统计业务数据并保存到数据库”任务中&#xff0c;已经通过Spark Streaming 清洗程序&#xff0c;将Kafka中Topic为“task_Aftn”的报文数据&#xff0c;经过数据清洗后&#xff0c;保存到了MySQL数据库中&#xff1b;本节任…

LLM 入门与实践(四) Yi 部署与分析

本文截取自20万字的《PyTorch实用教程》&#xff08;第二版&#xff09;&#xff0c;敬请关注&#xff1a;《Pytorch实用教程》&#xff08;第二版&#xff09;无论是零基础入门&#xff0c;还是CV、NLP、LLM项目应用&#xff0c;或是进阶工程化部署落地&#xff0c;在这里都有…

【C++】stack和queue的模拟实现 双端队列deque的介绍

&#x1f525;个人主页&#xff1a; Forcible Bug Maker &#x1f525;专栏&#xff1a; STL || C 目录 &#x1f308;前言&#x1f525;stack的模拟实现&#x1f525;queue的模拟实现&#x1f525;deque&#xff08;双端队列&#xff09;deque的缺陷 &#x1f308;为什么选择…