python文本替換,python怎么讀中文-python讀取中文txt文本的方法

 2023-11-18 阅读 26 评论 0

摘要:對于python2.7 python文本替換。字符串在Python2.7內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼成unicode,再從unicode編碼成另一種編碼。 先用一些編輯器(如editplus

對于python2.7

python文本替換。字符串在Python2.7內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼成unicode,再從unicode編碼成另一種編碼。

先用一些編輯器(如editplus )看一下你的txt文件保存的是utf-8,還是gb2312或其他的。當你讀行時可以這樣

python lstrip,line = (file1.readline()).decode('utf-8').encode('gb2312')或

line = (file1.readline()).decode('gb2312').encode('utf-8')

注意:txt使用utf8編碼的時候會默認在文件開頭插入三個不可見字符。這個是windows用來判斷txt編碼是否為utf8的。所以如果你直接使用decode('utf-8')的話是得不到正確結果的。

必須先判斷前三個字符是否是windows插入的那三個。這個python已經定義了一個常量了,可以直接和這個常量比較,如果一樣就刪除前三個字符然后再decode。

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

延伸:

因為decode的函數原型是decode([encoding], [errors='strict']),可以用第二個參數控制錯誤處理的策略,默認的參數就是strict,代表遇到非法字符時拋出異常;

如果設置為ignore,則會忽略非法字符;

如果設置為replace,則會用?取代非法字符;

如果設置為xmlcharrefreplace,則使用XML的字符引用。

對于Python3

python3下比較簡單,打開的時候指定encoding參數即可:open("txt.txt", encoding="gbk").read()。

以上這篇python讀取中文txt文本的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/2/177037.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息