【项目实践】：KNN实现手写数字识别（附Python详细代码及注释）-變量-匯編語言學習筆記

【项目实践】：KNN实现手写数字识别（附Python详细代码及注释）

2023-09-09 阅读 16 评论 0

摘要：↑ 点击上方【计算机视觉联盟】关注我们本节使用KNN算法实现手写数字识别。KNN算法基本原理前边文章已经详细叙述，盟友们可以参考哦！数据集介绍在线识别手写签名、有两个文件：（1）trainingDigits文件，包含了大约2000个例子，

↑ 点击上方【计算机视觉联盟】关注我们

本节使用KNN算法实现手写数字识别。KNN算法基本原理前边文章已经详细叙述，盟友们可以参考哦！

数据集介绍

在线识别手写签名、有两个文件：

（1）trainingDigits文件，包含了大约2000个例子，每个数字大约有200个样本

（2）testDigits文件，包含了大约900个测试数据

数据样式为：

文件夹格式

数字0样式

数字2样式

我们使用trainingDigits文件中的数据作为训练分类器，使用testDigits文件中的数据测试分类器的效果。

KNN算法那实现手写数字识别代码如下：

 1#!/usr/bin/env python2# -*- coding:utf-8 -*-3import numpy as np4# os 模块中导入函数listdir，该函数可以列出给定目录的文件名5from os import listdir6import operator789def img2vector(filename):
10    """实现将图片转换为向量形式"""
11    return_vector = np.zeros((1, 1024))
12    fr = open(filename)
13    for i in range(32):
14        line = fr.readline()
15        for j in range(32):
16            return_vector[0, 32*i + j] = int(line[j])
17    return return_vector
18
19
20# inX 用于分类的输入向量
21# dataSet表示训练样本集
22# 标签向量为labels，标签向量的元素数目和矩阵dataSet的行数相同
23# 参数k表示选择最近邻居的数目
24def classify0(inx, data_set, labels, k):
25    """实现k近邻"""
26    diff_mat = inx - data_set   # 各个属性特征做差
27    sq_diff_mat = diff_mat**2  # 各个差值求平方
28    sq_distances = sq_diff_mat.sum(axis=1)  # 按行求和
29    distances = sq_distances**0.5   # 开方
30    sorted_dist_indicies = distances.argsort()  # 按照从小到大排序，并输出相应的索引值
31    class_count = {}  # 创建一个字典，存储k个距离中的不同标签的数量
32
33    for i in range(k):
34        vote_label = labels[sorted_dist_indicies[i]]  # 求出第i个标签
35        # 访问字典中值为vote_label标签的数值再加1，
36        # class_count.get(vote_label, 0)中的0表示当为查询到vote_label时的默认值
37        class_count[vote_label] = class_count.get(vote_label, 0) + 1
38    # 将获取的k个近邻的标签类进行排序
39    sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
40    # 标签类最多的就是未知数据的类
41    return sorted_class_count[0][0]
42
43
44def hand_writing_class_test():
45    """手写数字KNN分类"""
46    hand_writing_labels = []  # 手写数字类别标签
47    training_file_list = listdir('digits/trainingDigits')  # 获得文件中目录列表，训练数据集
48    m = len(training_file_list)   # 求得文件中目录文件个数（训练数据集）
49    training_mat = np.zeros((m, 1024))  # 创建训练数据矩阵，特征属性矩阵
50
51    for i in range(m):
52        file_name_str = training_file_list[i]  # 获取单个文件名
53        file_str = file_name_str.split(' ')[0]  # 将文件名中的空字符去掉，这里的[0]是将文件名取出来
54        class_num_str = int(file_str.split('_')[0])  # 取出数字类别
55        hand_writing_labels.append(class_num_str)  # 将数字类别添加到类别标签矩阵中
56        # 将图像格式转换为向量形式
57        training_mat[i, :] = img2vector('digits/trainingDigits/%s' % file_name_str)  
58
59    test_file_list = listdir('digits/testDigits')  # 获得文件中目录列表，测试数据集
60    error_count = 0  # 错误分类个数
61    m_test = len(test_file_list)  # 测试数据集个数
62
63    for i in range(m_test):
64        file_name_str = test_file_list[i]  # 获取单个文件名（测试数据集）
65        file_str = file_name_str.split('.')[0]  # 将文件名中的空字符去掉，这里的[0]是将文件名取出来（测试数据集）
66        class_num_str = int(file_str.split('_')[0])   # 取出数字类别（测试数据集）
67        # 将图像格式转换为向量形式（测试数据集）
68        vector_under_test = img2vector('digits/testDigits/%s' % file_name_str)  
69        # KNN分类，以测试数据集为未知数据，训练数据为训练数据
70        classifier_result = classify0(vector_under_test, training_mat, hand_writing_labels, 3)
71        # 输出分类结果和真实类别
72        print('the classifier came back with: %d, the real answer is: %d' % (classifier_result, class_num_str))
73        # 计算错误分类个数
74        if classifier_result != class_num_str:
75            error_count += 1
76
77    # 输出错误分类个数和错误率
78    print("\n the total number of errors is: %d" % error_count)
79    print("\n the total error rate is: %f" % (error_count/float(m_test)))
80
81
82# 调用手写识别
83hand_writing_class_test()

运行结果：