Redis数据库的利用场景介绍

管理员 2023-06-30 09:00:01 互联网圈 12 ℃ 0 评论 23776字收藏

一、MySql+Memcached架构的问题

实际MySQL是合适进行海量数据存储的，通过Memcached将热门数据加载到cache，加速访问，很多公司都曾使用过这样的架构，但随着业务数据量的不断增加，和访问量的延续增长，我们遇到了很多问题：

1）MySQL需要不断进行拆库拆表，Memcached也需不断随着扩容，扩容和保护工作占据大量开发时间。

2）Memcached与MySQL数据库数据一致性问题。

3）Memcached数据命中率低或down机，大量访问直接穿透到DB，MySQL没法支持。

4）跨机房cache同步问题。

众多NoSQL百花齐放，怎么选择

最近几年，业界不断出现出很多各种各样的NoSQL产品，那末如何才能正确地使用好这些产品，最大化地发挥其长处，是我们需要深入研究和思考的问题，实际归根结柢最重要的是了解这些产品的定位，并且了解到每款产品的tradeoffs，在实际利用中做到取长补短，整体上这些NoSQL主要用于解决以下几种问题：

1）少许数据存储，高速读写访问。此类产品通过数据全部in-momery 的方式来保证高速访问，同时提供数据落地的功能，实际这正是Redis最主要的适用处景。

2）海量数据存储，散布式系统支持，数据一致性保证，方便的集群节点添加/删除。

3）这方面最具代表性的是dynamo和bigtable 2篇论文所论述的思路。前者是一个完全无中心的设计，节点之间通过gossip方式传递集群信息，数据保证终究一致性，后者是一个中心化的方案设计，通过类似一个散布式锁服务来保证强一致性,数据写入先写内存和redo log，然后定期compat归并到磁盘上，将随机写优化为顺序写，提高写入性能。

4）Schema free，auto-sharding等。比如目前常见的一些文档数据库都是支持schema-free的，直接存储json格式数据，并且支持auto-sharding等功能，比如mongodb。

面对这些区别类型的NoSQL产品,我们需要根据我们的业务场景选择最适合的产品。

Redis最合适所有数据in-momory的场景，虽然Redis也提供持久化功能，但实际更多的是一个disk-backed的功能，跟传统意义上的持久化有比较大的差别，那末可能大家就会有疑问，仿佛Redis更像一个加强版的Memcached，那末什么时候使用Memcached,什么时候使用Redis呢?

如果简单地比较Redis与Memcached的区分，大多数都会得到以下观点：

1）Redis不单单支持简单的k/v类型的数据，同时还提供list，set，zset，hash等数据结构的存储。

2）Redis支持数据的备份，即master-slave模式的数据备份。

3）Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。

二、Redis经常使用数据类型

Redis最为经常使用的数据类型及支持的功能主要有以下：

String
Hash
List
Set
Sorted set
pub/sub
Transactions

在具体描写这几种数据类型之前，我们先通过一张图了解下Redis内部内存管理中是如何描写这些区别数据类型的：

首先Redis内部使用一个redisObject对象来表示所有的key和value,redisObject最主要的信息如上图所示：

type代表一个value对象具体是何种数据类型，encoding是区别数据类型在redis内部的存储方式。

比如：type=string代表value存储的是一个普通字符串，那末对应的encoding可以是raw或是int,如果是int则代表实际redis内部是按数值型类存储和表示这个字符串的，固然条件是这个字符串本身可以用数值表示，比如:”123″ “456”这样的字符串。

这里需要特殊说明一下vm字段，只有打开了Redis的虚拟内存功能，此字段才会真实的分配内存，该功能默许是关闭状态的，该功能会在后面具体描写。通过上图我们可以发现Redis使用redisObject来表示所有的key/value数据是比较浪费内存的，固然这些内存管理本钱的付出主要也是为了给Redis区别数据类型提供一个统一的管理接口，实际作者也提供了多种方法帮助我们尽可能节省内存使用，我们随后会具体讨论。

三、Redis数据类型利用和实现方式

下面我们先来逐一的分析下这5种数据类型的使用和内部实现方式:

String

Strings 数据结构是简单的key-value类型，value其实不但是String，也能够是数字.

经常使用命令: set,get,decr,incr,mget 等。

利用场景：String是最经常使用的一种数据类型，普通的key/ value 存储都可以归为此类.便可以完全实现目前 Memcached 的功能，并且效力更高。还可以享受Redis的定时持久化，操作日志及 Replication等功能。

除提供与 Memcached 一样的get、set、incr、decr 等操作外，Redis还提供了下面一些操作：

获得字符串长度

往字符串append内容

设置和获得字符串的某一段内容

设置及获得字符串的某一名（bit）

批量设置一系列字符串的内容

实现方式：String在redis内部存储默许就是一个字符串，被redisObject所援用，当遇到incr,decr等操作时会转成数值型进行计算，此时redisObject的encoding字段为int。

Hash

经常使用命令：hget,hset,hgetall 等。

利用场景：在Memcached中，我们常常将一些结构化的信息打包成HashMap，在客户端序列化后存储为一个字符串的值，比如用户的昵称、年龄、性别、积分等，这时候候在需要修改其中某一项时，通常需要将所有值取出反序列化后，修改某一项的值，再序列化存储回去。这样不但增大了开消，也不适用于一些可能并发操作的场合（比如两个并发的操作都需要修改积分）。而Redis的Hash结构可使你像在数据库中Update一个属性一样只修改某一项属性值。

我们简单举个实例来描写下Hash的利用场景，比如我们要存储一个用户信息对象数据，包括以下信息：
用户ID为查找的key，存储的value用户对象包括姓名，年龄，生日等信息，如果用普通的key/value结构来存储，主要有以下2种存储方式：

第一种方式将用户ID作为查找key,把其他信息封装成一个对象以序列化的方式存储，这类方式的缺点是，增加了序列化/反序列化的开消，并且在需要修改其中一项信息时，需要把全部对象取回，并且修改操作需要对并发进行保护，引入CAS等复杂问题。

第二种方法是这个用户信息对象有多少成员就存成多少个key-value对儿，用用户ID+对应属性的名称作为唯一标识来获得对应属性的值，虽然省去了序列化开消和并提问题，但是用户ID为重复存储，如果存在大量这样的数据，内存浪费或者非常可观的。

那末Redis提供的Hash很好的解决了这个问题，Redis的Hash实际是内部存储的Value为一个HashMap，并提供了直接存取这个Map成员的接口，以下图：

也就是说，Key依然是用户ID, value是一个Map，这个Map的key是成员的属性名，value是属性值，这样对数据的修改和存取都可以直接通过其内部Map的Key(Redis里称内部Map的key为field), 也就是通过 key(用户ID) + field(属性标签) 就能够操作对应属性数据了，既不需要重复存储数据，也不会带来序列化和并发修改控制的问题。很好的解决了问题。

这里同时需要注意，Redis提供了接口(hgetall)可以直接取到全部的属性数据,但是如果内部Map的成员很多，那末触及到遍历全部内部Map的操作，由于Redis单线程模型的原因，这个遍历操作可能会比较耗时，而另其它客户真个要求完全不响应，这点需要格外注意。

实现方式：

上面已说到Redis Hash对应Value内部实际就是一个HashMap，实际这里会有2种区别实现，这个Hash的成员比较少时Redis为了节省内存会采取类似一维数组的方式来紧凑存储，而不会采取真实的HashMap结构，对应的value redisObject的encoding为zipmap,当做员数量增大时会自动转成真实的HashMap，此时encoding为ht。

List

经常使用命令：lpush,rpush,lpop,rpop,lrange等。

利用场景：Redis list的利用场景非常多，也是Redis最重要的数据结构之一，比如twitter的关注列表，粉丝列表等都可以用Redis的list结构来实现。

Lists 就是链表，相信略有数据结构知识的人都应当能理解其结构。使用Lists结构，我们可以轻松地实现最新消息排行等功能。Lists的另外一个利用就是消息队列，可以利用Lists的PUSH操作，将任务存在Lists中，然后工作线程再用POP操作将任务取出进行履行。Redis还提供了操作Lists中某一段的api，你可以直接查询，删除Lists中某一段的元素。

实现方式：Redis list的实现为一个双向链表，便可以支持反向查找和遍历，更方便操作，不过带来了部份额外的内存开消，Redis内部的很多实现，包括发送缓冲队列等也都是用的这个数据结构。

Set

经常使用命令：sadd,spop,smembers,sunion 等。

利用场景：Redis set对外提供的功能与list类似是一个列表的功能，特殊的地方在于set是可以自动排重的，当你需要存储一个列表数据，又不希望出现重复数据时，set是一个很好的选择，并且set提供了判断某个成员会不会在一个set集合内的重要接口，这个也是list所不能提供的。

Sets 集合的概念就是一堆不重复值的组合。利用Redis提供的Sets数据结构，可以存储一些集合性的数据，比如在微博利用中，可以将一个用户所有的关注人存在一个集合中，将其所有粉丝存在一个集合。Redis还为集合提供了求交集、并集、差集等操作，可以非常方便的实现如共同关注、共同喜好、二度好友等功能，对上面的所有集合操作，你还可使用区别的命令选择将结果返回给客户端或者存集到一个新的集合中。

实现方式：set 的内部实现是一个 value永久为null的HashMap，实际就是通过计算hash的方式来快速排重的，这也是set能提供判断一个成员会不会在集合内的缘由。

Sorted Set

经常使用命令：zadd,zrange,zrem,zcard等

使用处景：Redis sorted set的使用处景与set类似，区分是set不是自动有序的，而sorted set可以通过用户额外提供一个优先级(score)的参数来为成员排序，并且是插入有序的，即自动排序。当你需要一个有序的并且不重复的集合列表，那末可以选择sorted set数据结构，比如twitter 的public timeline可以以发表时间作为score来存储，这样获得时就是自动按时间排好序的。

另外还可以用Sorted Sets来做带权重的队列，比如普通消息的score为1，重要消息的score为2，然后工作线程可以选择按score的倒序来获得工作任务。让重要的任务优先履行。

实现方式：Redis sorted set的内部使用HashMap和跳跃表(SkipList)来保证数据的存储和有序，HashMap里放的是成员到score的映照，而跳跃表里寄存的是所有的成员，排序根据是HashMap里存的score,使用跳跃表的结构可以取得比较高的查找效力，并且在实现上比较简单。

Pub/Sub

Pub/Sub 从字面上理解就是发布（Publish）与定阅（Subscribe），在Redis中，你可以设定对某一个key值进行消息发布及消息定阅，当一个key值上进行了消息发布后，所有定阅它的客户端都会收到相应的消息。这一功能最明显的用法就是用作实时消息系统，比如普通的即时聊天，群聊等功能。

Transactions

谁说NoSQL都不支持事务，虽然Redis的Transactions提供的其实不是严格的ACID的事务（比如一串用EXEC提交履行的命令，在履行中服务器宕机，那末会有一部份命令履行了，剩下的没履行），但是这个Transactions或者提供了基本的命令打包履行的功能（在服务器不出问题的情况下，可以保证一连串的命令是顺序在一起履行的，中间有会有其它客户端命令插进来履行）。

Redis还提供了一个Watch功能，你可以对一个key进行Watch，然后再履行Transactions，在这进程中，如果这个Watched的值进行了修改，那末这个Transactions会发现并谢绝履行。

四、Redis实际利用场景

Redis在很多方面与其他数据库解决方案区别：它使用内存提供主存储支持，而仅使用硬盘做持久性的存储；它的数据模型非常独特，用的是单线程。另外一个大区分在于，你可以在开发环境中使用Redis的功能，但却不需要转到Redis。

转向Redis固然也是可取的，许多开发者从一开始就把Redis作为首选数据库；但假想如果你的开发环境已搭建好，利用已在上面运行了，那末更换数据库框架明显不那末容易。另外在一些需要大容量数据集的利用，Redis也其实不合适，由于它的数据集不会超过系统可用的内存。所以如果你有大数据利用，而且主要是读取访问模式，那末Redis其实不是正确的选择。

但是我喜欢Redis的一点就是你可以把它融入到你的系统中来，这就可以够解决很多问题，比如那些你现有的数据库处理起来感到缓慢的任务。这些你就能够通过Redis来进行优化，或为利用创建些新的功能。在本文中，我就想探讨一些怎样将Redis加入到现有的环境中，并利用它的原语命令等功能来解决传统环境中碰到的一些常见问题。在这些例子中，Redis都不是作为首选数据库。

1、显示最新的项目列表

下面这个语句经常使用来显示最新项目，随着数据多了，查询毫无疑问会愈来愈慢。

SELECT * FROM foo WHERE … ORDER BY time DESC LIMIT 10

在Web利用中，“列出最新的回复”之类的查询非常普遍，这通常会带来可扩大性问题。这使人懊丧，由于项目是按这个顺序被创建的，但要输出这个顺序却不能不进行排序操作。

类似的问题就能够用Redis来解决。比如说，我们的一个Web利用想要列出用户贴出的最新20条评论。在最新的评论边上我们有一个“显示全部”的链接，点击后就能够取得更多的评论。

我们假定数据库中的每条评论都有一个唯一的递增的ID字段。

我们可使用分页来制作主页和评论页，使用Redis的模板，每次新评论发表时，我们会将它的ID添加到一个Redis列表：

LPUSH latest.comments

我们将列表裁剪为指定长度，因此Redis只需要保存最新的5000条评论：

LTRIM latest.comments 0 5000

每次我们需要获得最新评论的项目范围时，我们调用一个函数来完成（使用伪代码）：

FUNCTION get_latest_comments(start, num_items):
    id_list = redis.lrange(“latest.comments”,start,start+num_items – 1)
    IF id_list.length < num_items
        id_list = SQL_DB(“SELECT … ORDER BY time LIMIT …”)
    END
    RETURN id_list
END

这里我们做的很简单。在Redis中我们的最新ID使用了常驻缓存，这是一直更新的。但是我们做了限制不能超过5000个ID，因此我们的获得ID函数会一直询问Redis。只有在start/count参数超越了这个范围的时候，才需要去访问数据库。

我们的系统不会像传统方式那样“刷新”缓存，Redis实例中的信息永久是一致的。SQL数据库（或是硬盘上的其他类型数据库）只是在用户需要获得“很远”的数据时才会被触发，而主页或第一个评论页是不会麻烦到硬盘上的数据库了。

2、删除与过滤

我们可使用LREM来删除评论。如果删除操作非常少，另外一个选择是直接跳过评论条目的入口，报告说该评论已不存在。

有些时候你想要给区别的列表附加上区别的过滤器。如果过滤器的数量遭到限制，你可以简单的为每一个区别的过滤器使用区别的Redis列表。毕竟每一个列表只有5000条项目，但Redis却能够使用非常少的内存来处理几百万条项目。

3、排行榜相关

另外一个很普遍的需求是各种数据库的数据并不是存储在内存中，因此在按得分排序和实时更新这些几近每秒钟都需要更新的功能上数据库的性能不够理想。

典型的比如那些在线游戏的排行榜，比如一个Facebook的游戏，根据得分你通常想要：

– 列出前100名高分选手

– 列出某用户当前的全球排名

这些操作对Redis来讲小菜一碟，即便你有几百万个用户，每分钟都会有几百万个新的得分。

模式是这样的，每次取得新得分时，我们用这样的代码：

ZADD leaderboard <score> <username>

你可能用userID来取代username，这取决于你是怎样设计的。

得到前100名高分用户很简单：

ZREVRANGE leaderboard 0 99

用户的全球排名也类似，只需要：

ZRANK leaderboard

4、依照用户投票和时间排序

排行榜的一种常见变体模式就像Reddit或Hacker News用的那样，新闻依照类似下面的公式根据得分来排序：

score = points / time^alpha

因此用户的投票会相应的把新闻挖出来，但时间会依照一定的指数将新闻埋下去。下面是我们的模式，固然算法由你决定。

模式是这样的，开始时先视察那些多是最新的项目，例如首页上的1000条新闻都是候选者，因此我们先忽视掉其他的，这实现起来很简单。

每次新的新闻贴上来后，我们将ID添加到列表中，使用LPUSH + LTRIM，确保只取出最新的1000条项目。

有一项后台任务获得这个列表，并且延续的计算这1000条新闻中每条新闻的终究得分。计算结果由ZADD命令依照新的顺序填充生成列表，老新闻则被清除。这里的关键思路是排序工作是由后台任务来完成的。

5、处理过期项目

另外一种经常使用的项目排序是依照时间排序。我们使用unix时间作为得分便可。

模式以下：

– 每次有新项目添加到我们的非Redis数据库时，我们把它加入到排序集合中。这时候我们用的是时间属性，current_time和time_to_live。

– 另外一项后台任务使用ZRANGE…SCORES查询排序集合，取出最新的10个项目。如果发现unix时间已过期，则在数据库中删除条目。

6、计数

Redis是一个很好的计数器，这要感谢INCRBY和其他类似命令。

我相信你曾许屡次想要给数据库加上新的计数器，用来获得统计或显示新信息，但是最后却由于写入敏感而不能不放弃它们。

好了，现在使用Redis就不需要再担心了。有了原子递增（atomic increment），你可以放心的加上各种计数，用GETSET重置，或是让它们过期。

例如这样操作：

INCR user:
EXPIRE user: 60

你可以计算出最近用户在页面间停顿不超过60秒的页面浏览量，当计数到达比如20时，就能够显示出某些条幅提示，或是其它你想显示的东西。

7、特定时间内的特定项目

另外一项对其他数据库很难，但Redis做起来却轻而易举的事就是统计在某段特点时间里有多少特定用户访问了某个特定资源。比如我想要知道某些特定的注册用户或IP地址，他们到底有多少访问了某篇文章。

每次我取得一次新的页面浏览时我只需要这样做：

SADD page:day1:<page_id> <user_id>

固然你可能想用unix时间替换day1，比如time()-(time()%3600*24)等等。

想知道特定用户的数量吗？只需要使用SCARD page:day1:<page_id>。

需要测试某个特定用户会不会访问了这个页面？SISMEMBER page:day1:<page_id>。

8、实时分析正在产生的情况，用于数据统计与避免垃圾邮件等

我们只做了几个例子，但如果你研究Redis的命令集，并且组合一下，就可以取得大量的实时分析方法，有效而且非常省力。使用Redis原语命令，更容易实行垃圾邮件过滤系统或其他实时跟踪系统。

9、Pub/Sub

Redis的Pub/Sub非常非常简单，运行稳定并且快速。支持模式匹配，能够实时定阅与取消频道。

10、队列

你应当已注意到像list push和list pop这样的Redis命令能够很方便的履行队列操作了，但能做的可不止这些：比如Redis还有list pop的变体命令，能够在列表为空时阻塞队列。

现代的互联网利用大量地使用了消息队列（Messaging）。消息队列不但被用于系统内部组件之间的通讯，同时也被用于系统跟其它服务之间的交互。消息队列的使用可以增加系统的可扩大性、灵活性和用户体验。非基于消息队列的系统，其运行速度取决于系统中最慢的组件的速度（注：短板效应）。而基于消息队列可以将系统中各组件消除耦合，这样系统就不再受最慢组件的束缚，各组件可以异步运行从而得以更快的速度完成各自的工作。

另外，当服务器处在高并发操作的时候，比如频繁地写入日志文件。可以利用消息队列实现异步处理。从而实现高性能的并发操作。

11、缓存

Redis的缓存部份值得写一篇新文章，我这里只是简单的说一下。Redis能够替换memcached，让你的缓存从只能存储数据变得能够更新数据，因此你不再需要每次都重新生成数据了。

文章来源：丸子建站

文章标题：Redis数据库的利用场景介绍

https://www.wanzijz.com/view/60967.html

Redis数据库的利用场景介绍

相关文章

随机看看

热门文章

热门标签