go语言字符与字符串相关
阅读原文时间:2023年08月13日阅读:1

ASCII

ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁 字母的一套单字节编码系统

字符

本质上来说,计算机中一切都是字节的,字符串也是多个字节组合而成,就是多个字节形成的有序序 列。但是对于多字节编码的中文来说,用一个字节描述不了,需要多个字节表示一个字符,Go提供了 rune类型。

  • byte:兼容ASCII码的字符,是byte类型,即uint8别名,占用1个字节
  • rune:汉字等字符,unicode编码,是rune类型,即int32别名,占用4个字节
  • 一个字符字面量使用单引号引起来

字符串与字节序列转换

string(一个整数),强制类型转换一个整数,相当于把整数当unicode码,去查一个字符,最后返回 字符串

string(整数序列),强制类型转换一个整数序列,也是转成字符串

字符串特性

字面常量,只读,不可变 线性数据结构,可以索引 值类型 utf-8编码

长度

使用内建函数len,返回字符串占用的字节数。时间复杂度为O(1),字符串是字面常量,定义时已经知道 长度,保存在元数据中。

索引

不支持负索引,索引范围[0, len(s)-1]。 即使是有中文,索引指的是按照字节的偏移量。

时间复杂度O(1),使用索引计算该字符相对开头的偏移量即可。 对于顺序表来说,使用索引效率查找效率是最高的。

s[i] 获取索引i处的UTF-8编码的一个字节。

遍历

使用索引遍历,相当于字节遍历。

字符串相关包

字符串是字面常量,不可修改,很多操作都是返回新的字符串, strings提供了大多数字符串操作函数。

拼接

Join:使用间隔符拼接字符串切片

Builder:多次拼接,推荐

fmt.Sprintf:方便快捷,推荐

简单拼接字符串常用+、fmt.Sprintf。如果手里正好有字符串的序列,可以考虑Join。

如果反复多次拼 接,strings.Builder是推荐的方式。bytes.Buffer用法同strings.Builder。

查询

时间复杂度是O(n),效率不高

Index:从左至右搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。若子串为空,返回0。

LastIndex:从右至左搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。

IndexByte、IndexRune与Index类似;LastIndexByte与LastIndex类似。

IndexAny:从左至右搜索,找到给定的字符集字符串中任意一个字符就返回索引位置。未找到返 回-1。

Contains*方法本质上就是Index*方法,只不过返回bool值,方便使用bool值时使用。

LastIndexAny与IndexAny搜索方向相反。

Count:从左至右搜索子串,返回子串出现的次数。

大小写

ToLower:转换为小写

ToUpper:转换为大写

前后缀

HasPrefix:是否以子串开头

HasSuffix:是否以子串结尾

移除

TrimSpace:去除字符串两端的空白字符。 TrimPrefix、TrimSuffix:如果开头或结尾匹配,则去除。否则,返回原字符串的副本。

TrimLeft:字符串开头的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字符 为止。

TrimRight:字符串结尾的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字 符为止。

Trim:字符串两头的字符如果在字符集中,则全部移除,直到左或右都碰到第一个不在字符集中的 字符为止。

类型转换

数值类型转换

低精度向高精度转换可以,高精度向低精度转换会损失精度

无符号向有符号转换,最高位是符号位

byte和int可以互相转换

float和int可以相互转换,float到int会丢失精度

bool和int不能相互转换

不同长度的int和float之间可以互相转换

fmt.Println(int(3.14)) // 错误,不允许无类型float常量转到int
var a = 3.14 // 定义有类型变量转换就没有问题
fmt.Printf("%T: %[1]v => %T %[2]d\n", a, int(a)) // float64: 3.14 => int 3

b := 'a'
e := 1
c := b + e // rune和int类型不能加,必须转换。比如c := int(b) + e或c := b + rune(e)
fmt.Println(c)

字符串转换