Archive for 2008 年 8 月 3 日

读取纯真IP数据库 showip [zt]

0

关于 纯真IP数据库格式,详细见下面帖子:

纯真IP数据库格式详解 zt

程序说明:能够根据输入的IP,在 纯真IP数据库 中,搜索并且读取对应的 物理地址,还可以导出所有的IP段地址信息

函数部分


[CODE=cplusplus]
#include “stdio.h”
#include “string.h”

#define QQWRY “QQWry.dat”
#define REDIRECT_MODE_1 0×01
#define REDIRECT_MODE_2 0×02
#define MAXBUF 255

/*unsigned long getValue( 获取文件中指定的16进制串的值,并返回
FILE *fp, 指定文件指针
unsigned long start, 指定文件偏移量
int length) 获取的16进制字符个数/长度
*/
unsigned long getValue(FILE *fp, unsigned long start, int length)
{
unsigned long variable=0;
long val[length],i;

fseek(fp,start,SEEK_SET);
for(i=0;i {
/*过滤高位,一次读取一个字符*/
val[i]=fgetc(fp)&0x000000FF;
}
for(i=length-1;i>=0;i–)
{
/*因为读取多个16进制字符,叠加*/
variable=variable*0×100+val[i];
}
return variable;
};

/*int getString( 获取文件中指定的字符串,返回字符串长度
FILE *fp, 指定文件指针
unsigned long start, 指定文件偏移量
char **string) 用来存放将读取字符串的字符串空间的首地址
*/
int getString(FILE *fp, unsigned long start, char **string)
{
unsigned long i=0;
char val;
fseek(fp,start,SEEK_SET);
/*读取字符串,直到遇到0×00为止*/
do
{
val=fgetc(fp);
/*依次放入用来存储的字符串空间中*/
*(*string+i)=val;
i++;
}while(val!=0×00);
/*返回字符串长度*/
return i;
};

/*void getAddress( 读取指定IP的国家位置和地域位置
FILE *fp, 指定文件指针
unsigned long start, 指定IP在索引中的文件偏移量
char **country, 用来存放国家位置的字符串空间的首地址
char **location) 用来存放地域位置的字符串空间的首地址
*/
void getAddress(FILE *fp, unsigned long start, char **country, char **location)
{
unsigned long redirect_address,counrty_address,location_address;
char val;

start+=4;
fseek(fp,start,SEEK_SET);
/*读取首地址的值*/
val=(fgetc(fp)&0x000000FF);

if(val==REDIRECT_MODE_1)
{
/*重定向1类型的*/
redirect_address=getValue(fp,start+1,3);
fseek(fp,redirect_address,SEEK_SET);
/*混合类型,重定向1类型进入后遇到重定向2类型
读取重定向后的内容,并设置地域位置的文件偏移量*/
if((fgetc(fp)&0x000000FF)==REDIRECT_MODE_2)
{
counrty_address=getValue(fp,redirect_address+1,3);
location_address=redirect_address+4;
getString(fp,counrty_address,country);
}
/*读取重定向1后的内容,并设置地域位置的文件偏移量*/
else
{
counrty_address=redirect_address;
location_address=redirect_address+getString(fp,counrty_address,country);
}
}
/*重定向2类型的*/
else if(val==REDIRECT_MODE_2)
{
counrty_address=getValue(fp,start+1,3);
location_address=start+4;
getString(fp,counrty_address,country);
}
else
{
counrty_address=start;
location_address=counrty_address+getString(fp,counrty_address,country);
}

/*读取地域位置*/
fseek(fp,location_address,SEEK_SET);
if((fgetc(fp)&0x000000FF)==REDIRECT_MODE_2||(fgetc(fp)&0x000000FF)==REDIRECT_MODE_1)
{
location_address=getValue(fp,location_address+1,3);
}
getString(fp,location_address,location);

return;
};

/*void getHead( 读取索引部分的范围(在文件头中,最先的2个8位16进制)
FILE *fp, 指定文件指针
unsigned long *start, 文件偏移量,索引的起止位置
unsigned long *end) 文件偏移量,索引的结束位置
*/
void getHead(FILE *fp,unsigned long *start,unsigned long *end)
{
/*索引的起止位置的文件偏移量,存储在文件头中的前8个16进制中
设置偏移量为0,读取4个字符*/
*start=getValue(fp,0L,4);
/*索引的结束位置的文件偏移量,存储在文件头中的第8个到第15个的16进制中
设置偏移量为4个字符,再读取4个字符*/
*end=getValue(fp,4L,4);
};

/*unsigned long searchIP( 搜索指定IP在索引区的位置,采用二分查找法;
返回IP在索引区域的文件偏移量
一条索引记录的结果是,前4个16进制表示起始IP地址
后面3个16进制,表示该起始IP在IP信息段中的位置,文件偏移量
FILE *fp,
unsigned long index_start, 索引起始位置的文件偏移量
unsigned long index_end, 索引结束位置的文件偏移量
unsigned long ip) 关键字,要索引的IP
*/
unsigned long searchIP(FILE *fp, unsigned long index_start,

unsigned long index_end, unsigned long ip)
{
unsigned long index_current,index_top,index_bottom;
unsigned long record;
index_bottom=index_start;
index_top=index_end;
/*此处的7,是因为一条索引记录的长度是7*/
index_current=((index_top-index_bottom)/7/2)*7+index_bottom;
/*二分查找法*/
do{
record=getValue(fp,index_current,4);
if(record>ip)
{
index_top=index_current;
index_current=((index_top-index_bottom)/14)*7+index_bottom;
}
else
{
index_bottom=index_current;
index_current=((index_top-index_bottom)/14)*7+index_bottom;
}
}while(index_bottom /*返回关键字IP在索引区域的文件偏移量*/
return index_current;
};

/*unsigned long putAll( 导出所有IP信息到文件文件中,函数返回导出总条数
FILE *fp,
FILE *out, 导出的文件指针,必须拥有写权限
unsigned long index_start, 索引区域的起始文件偏移量
unsigned long index_end) 索引区域的结束文件偏移量
*/
unsigned long putAll(FILE *fp, FILE *out, unsigned long index_start, unsigned long index_end)
{
unsigned long i,count=0;
unsigned long start_ip,end_ip;
char *country;
char *location;

country=(char*)malloc(255);
location=(char*)malloc(255);

/*此处的7,是因为一条索引记录的长度是7*/
for(i=index_start;i {
/*获取IP段的起始IP和结束IP,

起始IP为索引部分的前4位16进制
结束IP在IP信息部分的前4位16进制中,靠索引部分指定的偏移量找寻*/
start_ip=getValue(fp,i,4);
end_ip=getValue(fp,getValue(fp,i+4,3),4);
/*导出IP信息,格式是
起始IPt结束IPt国家位置t地域位置n*/
fprintf(out,”%d.%d.%d.%d”,(start_ip&0xFF000000)>>0×18,

(start_ip&0x00FF0000)>>0×10,(start_ip&0x0000FF00)>>0×8,start_ip&0x000000FF);
fprintf(out,”t”);
fprintf(out,”%d.%d.%d.%d”,(end_ip&0xFF000000)>>0×18,

(end_ip&0x00FF0000)>>0×10,(end_ip&0x0000FF00)>>0×8,end_ip&0x000000FF);
getAddress(fp,getValue(fp,i+4,3),&country,&location);
fprintf(out,”t%st%sn”,country,location);
count++;
}
/*返回导出总条数*/
return count;
};

/*判断一个字符是否为数字字符,
如果是,返回0
如果不是,返回1*/
int beNumber(char c)
{
if(c>=’0′&&c< ='9')
return 0;
else
return 1;
};

/*函数的参数是一个存储着IP地址的字符串首地址
返回该IP的16进制代码
如果输入的IP地址有错误,函数将返回0*/
unsigned long getIP(char *ip_addr)
{
unsigned long ip=0;
int i,j=0;
/*依次读取字符串中的各个字符*/
for(i=0;i {
/*如果是IP地址间隔的‘.’符号
把当前读取到的IP字段的值,存入ip变量中
(注意,ip为叠加时,乘以16进制的0×100)
并清除临时变量的值*/
if(*(ip_addr+i)==’.')
{
ip=ip*0×100+j;
j=0;
}
/*往临时变量中写入当前读取到的IP字段中的字符值
叠加乘以10,因为输入的IP地址是10进制*/
else
{
/*判断,如果输入的IP地址不规范,不是10进制字符
函数将返回0*/
if(beNumber(*(ip_addr+i))==0)
j=j*10+*(ip_addr+i)-’0′;
else
return 0;
}
}
/*IP字段有4个,但是‘.’只有3个,叠加第四个字段值*/
ip=ip*0×100+j;
return ip;
};

/*显示logo信息*/
void logo(void)
{
printf(“=============================================================================n”);
printf(“— Get the IP info.s from QQWry.dat v0.1 by dorainm dorainm@gmail.com —n”);
printf(“=============================================================================n”);

};

/*显示程序语法*/
void usage(char *app_name)
{
printf(“nUsage : %s [options]n”,app_name);
printf(“options:n”);
printf(” -a

Search and display the Informations by Location Address.(*)n”);
printf(” -i Search and display the Informations by IP Address.n”);
printf(” -o Output all the informations to a text file.n”);
printf(” -local Display the localhost IP’s informations.(*)n”);
printf(” -updata Update the QQWry.dat from the Internet.(*)nn”);
printf(“ps: the optionss marked (*) are incompleted.n”);
};

/*显示结束信息*/
void showend(void)
{
printf(“nnThe command completed successfully.nn”);
};

[/CODE]


main函数部分

[CODE=cplusplus]
/*主函数*/
int main(int argc, char *argv[])
{
FILE *fp; /*打开QQWry.dat的文件指针*/
unsigned long index_start,index_end,current; /*索引部分的起始位置的文件偏移量
索引部分的结束位置的文件偏移量
待搜索IP地址的索引条目的文件偏移量*/
char *country; /*国家位置*/
char *location; /*地域位置*/
country=(char*)malloc(MAXBUF);
location=(char*)malloc(MAXBUF);

logo();
if(argc<3)
{
usage(argv[0]);
showend();
return 1;
}

/*打开QQWry.dat文件*/
if((fp=fopen(QQWRY,”rb”))==NULL)
{
printf(“[-] Error : Can not open the file %s.n”,QQWRY);
showend();
return 2;
}
else
printf(“[+] Open the file [ %s ] successfully.n”,QQWRY);

/*显示QQWry.dat文件信息*/
getHead(fp,&index_start,&index_end);
getAddress(fp,getValue(fp,index_end+4,3),&country,&location);
printf(“[+] Version of QQWry.dat : [ %s %s ]n”,country,location);
printf(“[+] Index Location [ 0x%X - 0x%X ].n”,index_start,index_end);

/*判断第一个参数的值*/
if((strncmp(argv[1],”-i”,2)==0)||(strncmp(argv[1],”-I”,2)==0))
{
/*-i参数,搜索IP*/
unsigned long ip;

ip=getIP(argv[2]);
if(ip==0)
{
printf(“[-] Error : the IP Address inputed.n”);
showend();
return 3;
}

/*搜索IP在索引区域的条目的偏移量*/
current=searchIP(fp,index_start,index_end,ip);
printf(“[+] Address of index for [ %X ] is %Xn”,ip,current);

/*获取该IP对因的国家地址和地域地址*/
getAddress(fp,getValue(fp,current+4,3),&country,&location);
printf(“[+] Get the location for the IP address.n”);
printf(“[+] [ IP Address ] %d.%d.%d.%dn”,(ip&0xFF000000)>>0×18,(ip&0x00FF0000)>>0×10,(ip&0x0000FF00)>>0×8,ip&0x000000FF);
printf(“[+] [ Location ] %s %sn”,country,location);
}
else if((strncmp(argv[1],”-o”,2)==0)||(strncmp(argv[1],”-O”,2)==0))
{
/*-o参数,解压缩数据库,导出IP信息到文本文件*/
FILE *out;
unsigned long num;
if((out=fopen(argv[2],”w”))==NULL)
{
printf(“[-] Error create the output text file [ %s ].n”,”out.txt”);
showend();
}
else
{
printf(“[+] Create the output text file [ %s ] successfully.n”,”out.txt”);
}

/*导出IP条目信息*/
printf(“[+] Outputing the informations …”);
num=putAll(fp,out,index_start,index_end);
printf(“Finished.n”);
fclose(out);
/*显示导出条目的数量*/
printf(“[+] The Total items number is [ %d ].”,num);
}
/*关闭文件指针,释放变量空间,结束程序*/
fclose(fp);
free(country);
free(location);
showend();
return 0;
}
[/CODE]

使用语法:

==============
============================================
--- Get the IP info.s from QQWry.dat v0.1   by dorainm  dorainm@gmail.com ---
==========================================================

Usage : showip [options]
options:
  -a <address>    Search and display the Informations by Location Address.(*)
  -i <IP>         Search and display the Informations by IP Address.
  -o <FILE>       Output all the informations to a text file.
  -local          Display the localhost IP's informations.(*)
  -updata         Update the QQWry.dat from the Internet.(*)

ps:  the optionss marked (*) are incompleted.

The command completed successfully.

搜索IP:

showip -i 222.19.211.254

==========================================================
--- Get the IP info.s from QQWry.dat v0.1   by dorainm  dorainm@gmail.com ---
==========================================================
[+]  Open the file [ QQWry.dat ] successfully.
[+]  Version of QQWry.dat : [ 纯真网络 2006年3月5日IP数据 ]
[+]  Index Location [ 0x37A265 - 0x535EB1 ].
[+]  Address of index for [ DE13D3FE ] is 51BB44
[+]  Get the location for the IP address.
[+]  [ IP Address ] 222.19.211.254
[+]  [  Location  ] 云南大学 国家示范性软件学院

The command completed successfully.

导出所有IP信息,语法是 showip -o out.txt

其余功能有待完成

程序在 gcc3.3.1 中编译通过

如果移植到 microsoft windows 下,使用 VC 编译器,

可能需要把main函数中所有的变量申明语句移动到main函数的 logo(); 语句前面

(遥远记得以前,我在win2000下用VC++6.0,好像需要先申请再执行语句
不然编译没法通过…)

注:使用malloc要包含必要的头文件stdlib.h,在gcc4下编译出现warning: incompatible implicit declaration of built-in function ‘malloc’

纯真IP数据库格式详解 zt

0

纯真IP数据库格式详解 zt

= LumaQQ 开发者文档====================

纯真IP数据库格式详解

摘要

网络上的IP数据库以纯真版的最为流行,LumaQQ也采用了纯真版IP数据库做为IP查询功能的基础。不过关于其格式的文档却非常之少,后来终于在网上找到了一份文档,得以了解其内幕,不过那份文档寥寥数语,也是颇为耐心才读明白。在这里我重写一份,以此做为LumaQQ开发者文档的一部分,我想还是必要的。本文详细介绍了纯真IP数据库的格式,并且给出了一些Demo以供参考。
Luma, 清华大学
修改日期: 2005/01/14

Note: 在此感谢纯真IP数据库作者金狐和那唯一一份文档的作者。

修改历史:
2005-01-14 修改了原来一些表达不清和错误的地方

——————————————————————————–

自从有了IP数据库这种东西,QQ外挂的显示IP功能也随之而生,本人见识颇窄,是否还有其他应用不得而知,不过,IP数据库确实是个不错的东西。如今网络上最流行的IP数据库我想应该是纯真版的(说错了也不要扁我),迄今为止其IP记录条数已经接近30000,对于有些IP甚至能精确到楼层,不亦快哉。 2004年4、5月间,正逢LumaQQ破土动工,为了加上这个人人都喜欢,但是好像人人都不知道为什么喜欢的显IP功能,我也采用了纯真版IP数据库,它的优点是记录多,查询速度快,它只用一个文件QQWry.dat就包含了所有记录,方便嵌入到其他程序中,也方便升级。

基本结构
QQWry.dat文件在结构上分为3块:文件头,记录区,索引区。一般我们要查找IP时,先在索引区查找记录偏移,然后再到记录区读出信息。由于记录区的记录是不定长的,所以直接在记录区中搜索是不可能的。由于记录数比较多,如果我们遍历索引区也会是有点慢的,一般来说,我们可以用二分查找法搜索索引区,其速度比遍历索引区快若干数量级。图1是QQWry.dat的文件结构图。


图1. QQWry.dat文件结构
要注意的是,QQWry.dat里面全部采用了little-endian字节序

一. 了解文件头
QQWry.dat的文件头只有8个字节,其结构非常简单,首四个字节是第一条索引的绝对偏移,后四个字节是最后一条索引的绝对偏移。

二. 了解记录区
每条IP记录都由国家和地区名组成,国家地区在这里并不是太确切,因为可能会查出来“清华大学计算机系”之类的,这里清华大学就成了国家名了,所以这个国家地区名和IP数据库制作的时候有关系。所以记录的格式有点像QName,有一个全局部分和局部部分组成,我们这里还是沿用国家名和地区名的说法。

于是我们想象着一条记录的格式应该是: [IP地址][国家名][地区名],当然,这个没有什么问题,但是这只是最简单的情况。很显然,国家名和地区名可能会有很多的重复,如果每条记录都保存一个完整的名称拷贝是非常不理想的,所以我们就需要重定向以节省空间。所以为了得到一个国家名或者地区名,我们就有了两个可能:第一就是直接的字符串表示的国家名,第二就是一个4字节的结构,第一个字节表明了重定向的模式,后面3个字节是国家名或者地区名的实际偏移位置。对于国家名来说,情况还可能更复杂些,因为这样的重定向最多可能有两次。

那么什么是重定向模式?根据上面所说,一条记录的格式是[IP地址][国家记录][地区记录],如果国家记录是重定向的话,那么地区记录是有可能没有的,于是就有了两种情况,我管他叫做模式1和模式2。我们对这些格式的情况举图说明:


图2. IP记录的最简单形式
图2表示了最简单的IP记录格式,我想没有什么可以解释的


图3. 重定向模式1
图3演示了重定向模式1的情况。我们看到在模式1的情况下,地区记录也跟着国家记录走了,在IP地址之后只剩下了国家记录的4字节,后面3个字节构成了一个指针,指向了实际的国家名,然后又跟着地址名。模式1的标识字节是0×01。


图4. 重定向模式2
图4演示了重定向模式2的情况。我们看到了在模式2的情况下(其标识字节是0×02),地区记录没有跟着国家记录走,因此在国家记录之后4个字节之后还是有地区记录。我想你已经明白了模式1和模式2的区别,即:模式1的国家记录后面不会再有地区记录,模式2的国家记录后会有地区记录。下面我们来看一下更复杂的情况。


图5. 混和情况1
图5演示了当国家记录为模式1的时候可能出现的更复杂情况,在这种情况下,重定向指向的位置仍然是个重定向,不过第二次重定向为模式2。大家不用担心,没有模式3了,这个重定向也最多只有两次,并且如果发生了第二次重定向,则其一定为模式2,而且这种情况只会发生在国家记录上,对于地区记录,模式1和模式 2是一样的,地区记录也不会发生2次重定向。不过,这个图还可以更复杂,如图7:


图6. 混和情况2
图6是模式1下最复杂的混和情况,不过我想应该也很好理解,只不过地区记录也来重定向而已,有一点我要提醒你,如果重定向的地址是0,则表示未知的地区名。

所以我们总结如下:一条IP记录由[IP地址][国家记录][地区记录]组成,对于国家记录,可以有三种表示方式:字符串形式,重定向模式1和重定向模式 2。对于地区记录,可以有两种表示方式:字符串形式和重定向,另外有一条规则:重定向模式1的国家记录后不能跟地区记录。按照这个总结,在这些方式中合理组合,就构成了IP记录的所有可能情况。

设计的理由
在我们继续去了解索引区的结构之前,我们先来了解一下为何记录区的结构要如此设计。我想你可能想到了答案:字符串重用。没错,在这种结构下,对于一个国家名和地区名,我只需要保存其一次就可以了。我们举例说明,为了表示方便,我们用小写字母代表IP记录,C表示国家名,A表示地区名:

有两条记录a(C1, A1), b(C2, A2),如果C1 = C2, A1 = A2,那么我们就可以使用图3显示的结构来实现重用
有三条记录a(C1, A1), b(C2, A2), c(C3, A3),如果C1 = C2, A2 = A3,现在我们想存储记录b,那么我们可以用图6的结构来实现重用
有两条记录a(C1, A1), b(C2, A2),如果C1 = C2,现在我们想存储记录b,那么我们可以采用模式2表示C2,用字符串表示A2

你可以举出更多的情况,你也会发现在这种结构下,不同的
字符串只需要存储一次。

了解索引区
在”了解文件头”部分,我们说明了文件头实际上是两个指针,分别指向了第一条索引和最后一条索引的绝对偏移。如图8所示:


图8. 文件头指向索引区图示
实在是很简单,不是吗?从文件头你就可以定位到索引区,然后你就可以开始搜索IP了!每条索引长度为7个字节,前4个字节是起始IP地址,后三个字节就指向了IP记录。这里有些概念需要说明一下,什么是起始IP,那么有没有结束IP? 假设有这么一条记录:166.111.0.0 – 166.111.255.255,那么166.111.0.0就是起始IP,166.111.255.255就是结束IP,结束IP就是IP记录中的那头 4个字节,这下你应该就清楚了吧。于是乎,每条索引配合一条记录,构成了一个IP范围,如果你要查找166.111.138.138所在的位置,你就会发现166.111.138.138落在了166.111.0.0 – 166.111.255.255 这个范围内,那么你就可以顺着这条索引去读取国家和地区名了。那么我们给出一个最详细的图解吧:


图9. 文件详细结构
现在一切都清楚了是不是?也许还有一点你不清楚,QQWry.dat的版本信息存在哪里呢?答案是:最后一条IP记录实际上就是版本信息,最后一条记录显示出来就是这样:255.255.255.0 255.255.255.255 纯真网络 2004年6月25日IP数据。OK,到现在你应该全部清楚了。

原文地址 http://bbs.sei.ynu.edu.cn/viewthread.php?tid=9974

Go to Top