在Linux Shell下将汉字转换为Url编码
在linux 的shell环境下有一个od命令可以将文件按不同的进制的ascii码输出,该功能可以完成在linux shell下将汉字转换为url编码的任务。
url编码是十六进制的形如%E6%9C%8D%E5%8A%A1%E5的字符串,test是包含“数据库网络,”这几个字符的文件,以下命令输出:
#od -t x /test
0000000 ddbefdca f8cde2bf 0a2ce7c2
0000014
该字符串对应的url编码为 %CA%FD%BE%DD%BF%E2%CD%F8%C2%E7%2C。
可以看出编码的对应关系以下是转换的脚本:
#!/bin/sh
#make url code
od -t x /test |awk '{
w=split($0,linedata," ");
for (j=2;j<w+1;j++)
{
for (i=7;i>0;i=i-2)
{
if (substr(linedata[j],i,2) != "00") {printf "%" ;printf toupper(substr(linedata[j],i,2));}
}
}
}' >/testurl
testurl文件的内容就是转换结果。
还原编码:
echo '%CA%FD%BE%DD%BF%E2%CD%F8%C2%E7%2C'|
awk 'BEGIN {
for (i=0;i<=16;i++) hex[sprintf("%X",i)]=i;}
{ for (i=1;i<=length($0);i++)
{ c=substr($0,i,1)
if (c=="+") printf (" ");
else if (c=="%") {
printf ("%c",hex[substr($0,++i,1)]*16+hex[substr($0,++i,1)])
}
else printf (c);
}
} '
数据库网络
훐前面的是hexdecimal转义序列,d6d0才是UTF8的中的unicode值,在LC_CTYPE为utf8的终端下可以这么得到
# echo -n “中”|xxd -ps
d6d0