Postgresql去重函数distinct的用法说明

2021-01-16 13:14:26

在项目中我们常会对数据进行去重处理，有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

不过Postgresql还有自带去重函数：distinct

下面是distinct 的实例：

1、创建表：user

CREATE TABLE `user` (
 `name` varchar(30) DEFAULT NULL,
 `age` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `user` VALUES ('张三', 20);
INSERT INTO `user` VALUES ('李四', 22);
INSERT INTO `user` VALUES ('李四', 20);
INSERT INTO `user` VALUES ('张三', 22);
INSERT INTO `user` VALUES ('张三', 20);

查询结果：

SELECT * FROM user
张三 20
李四 22
李四 20
张三 22
张三 20

2、根据 name 查询去重后的数据：

SELECT distinct name FROM user
张三
李四

3、根据name 和 age 查询去重后的数据：

SELECT distinct name,age FROM user
张三 20
李四 22
李四 20
张三 22

4、根据name,age查询重复数据数：

SELECT distinct name,age,count(*) 数据条数 FROM user GROUP BY name,age
张三 20 2
张三 22 1
李四 20 1
李四 22 1

二、查出重复数据后，我们需要删除重复数据

删除重复数据一般几种方式，一般采用临时表或者根据某个字段，例如id等，通过max或者min函数去重。

补充：基于postgresql ctid实现数据的差异同步

项目背景：

最近在做异构数据同步方面（非实时）的工作，从oracle,gbase,postgresql向mysql数据库中同步，对于没有自增字段（自增ID或时间字段）的业务表，做差异同步是一件非常麻烦的事情，主要体现在记录的新增、更新与删除上

备注：源库只提供一个只读权限的用户

ctid在pg中的作用

ctid是用来指向自身或新元组的元组标识符，怎么理解呢？下面能过几个实验来测试一下

satdb=# create table test_ctid(id int,name varchar(100));
satdb=# insert into test_ctid values(1,‘a'),(1,‘a');
satdb=# insert into test_ctid values(2,‘a'),(3,‘a');

查看记录的ctid值

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | a | (0,3)
3 | a | (0,4)
(4 rows)

对id为2的记录进行更新

satdb=# update test_ctid set name=‘b' where id=2;
UPDATE 1

这里可以看到id=2的记录指向了新的元组标识符 (0,5)

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
3 | a | (0,4)
2 | b | (0,5)
(4 rows)
satdb=# select * from test_ctid where ctid='(0,1)';
id | name
----±-----
1 | a
(1 row)

删除 id=3的记录后，对应的ctid(0,4)不存在了

satdb=# delete from test_ctid where id=3;
DELETE 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
(3 rows)

再插入一条记录时，看看会不会使用(0,4)这个标识符

satdb=# insert into test_ctid values(3,‘d');
INSERT 0 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
3 | d | (0,6)

这里新插入的记录不会使用(0,4)，而是直接分配新的标识符(0,6)

总结：

1、ctid的作用与oracle rowid类似，可以唯一标识一条记录

2、记录的更新后，后生产新的ctid

3、记录删除后，新插入的记录不会使用已经删除记录的ctid

4、基于ctid可以实现记录的去重操作

5、基于ctid可以实现差异增量同步(新增、删除、更新)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持IT技术网。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

postgresql 利用xlog进行热备操作
Postgresql中xlog生成和清理逻辑操作
postgresql 12版本搭建及主备部署操作
开源数据库postgreSQL13在麒麟v10sp1源码安装过程详解
postgresql初始化之initdb的使用详解
postgresql 如何查看pg_wal目录下xlog文件总大小
postgresql之使用lsn 获取 wal文件名的实例
PostgreSQL 实现定时job执行(pgAgent)

频道导航

热门栏目

Postgresql去重函数distinct的用法说明

下面是distinct 的实例：

二、查出重复数据后，我们需要删除重复数据

项目背景：

ctid在pg中的作用

总结：

相关阅读

推荐阅读

的确！这五款手机价格不超1000元，用两年不是问题，都是百元神机

iPhone13Pro Max再次降价，128GB版本跌至新低，果粉可以入手了

不建议入手的3款iPhone，续航差、价格贵、配置落伍，谁买谁吃亏

从5988元跌至2989元，麒麟990+徕卡四摄，华为旗舰二手机跌至新低

iPhone 12和iPhone 13哪个好？iPhone 12和iPhone 13对比你选择哪个？

2021年八款堪称年度最佳手机推荐

大电池才是王道！这4款5000mAh超值手机，你尽管用电量不用操心

哪些手机能做到颜值和手感兼具？或许它们可以

哪些手机能做到颜值和手感兼具？或许它们可以

玩英雄联盟手游？这些潮流时尚手机也可以爽玩

热门话题

猜你喜欢

顶流主播童锦程被无数成为“撩妹祖师爷”！

英雄联盟美女主播豚豚颜值很高，网友们很喜欢！

王者荣耀热度一直很高，杰7排位上演夹子音调戏路人！

英雄联盟主播小超梦实力很强，粉丝称他是国服重装上单天花板！

某牙平台主播子圣异军突起，地位快赶超童锦程了！

沫子非常全能，从唱歌跳舞到开导失恋的姐妹全都行！

高人气主播张嘉文最擅长男枪，经常在直播间展示各种各样的操作技术！

张嘉文的的格雷福斯玩的出神入化！

游戏女主播沫子直播经常停听一些经典老歌！

主播北枫奇亚娜秀的一批，上分嘎嘎快！

阅读排行