散列(哈希)查找的定义,常见的散列函数设计以及处理哈希冲突方法

2023-09-21 20:34:18

1.散列表

1.散列表的定义

散列表(Hash Table),又称哈希表
是一种数据结构,特点是:数据元素的关键字与其存储地址直接相关

特点:

  • 若不同的关键字通过散列函数映射到同一个值,则称它们为“同义词”。
  • 通过散列函数确定的位置已经存放了其他元素,则称这种情况为“冲突”。
2.处理冲突的方法1:拉链法(链地址法)

拉链法(又称链接法、链地址法)处理“冲突”:把所有“同义词”存储在一个链表中

例如:
在这里插入图片描述
优化:在插入新元素时,保持关键字有序,可微微提高查找效率。

2.散列查找

  • 最理想情况:散列查找时间复杂度可到达O(1)。
  • 装填因子α=表中记录数/散列表长度。
  • 装填因子会直接影响散列表的查找效率。

3.常见散列函数的设计

散列函数的设计要结合实际的关键字分布特点来考虑,不要教条化。

对给定的关键字集合,应尽可能均匀地散列到各个地址,使冲突更少。

1.除留余数法

H ( k e y ) = ( k e y ) m o d ( p ) H(key) =( key)mod(p) H(key)=(key)mod(p)
散列表表长为m,取一个不大于m但最接近或等于m的质数p.

  • 质数又称素数。指除了1和此整数自身外,不能被其他自然数整除的数.
  • 用质数取模。分布更均匀,冲突更少。
2.直接定址法

H ( k e y ) = k e y 或 H ( k e y ) = a ∗ k e y + b H(key) = key或H(key) = a*key + b H(key)=keyH(key)=akey+b

  • 其中,a和b是常数。这种方法计算最简单,且不会产生冲突。
  • 适合关键字的分布基本连续的情况
  • 若关键字分布不连续,空位较多,则会造成存储空间的浪费。
3.数字分析法

选取数码分布较为均匀的若干位作为散列地址.

  • 设关键字是r进制数〈如十进制数),而r个数码在各位上出现的频率不一定相同,可能在某些位上分布均匀一些,每种数码出现的机会均等;
  • 而在某些位上分布不均匀,只有某几种数码经常出现,此时可选取数码分布较为均匀的若干位作为散列地址。
  • 这种方法适合于已知的关键字集合,若更换了关键字,则需要重新构造新的散列函数。
4.平方取中法

取关键字的平方值的中间几位作为散列地址.

  • 具体取多少位要视实际情况而定。
  • 这种方法得到的散列地址与关键字的每位都有关系,因此使得散列地址分布比较均匀,
  • 适用于关键字的每位取值都不够均匀或均小于散列地址所需的位数。

散列查找是典型的“用空间换时间”的算法,只要散列函数设计的合理,则散列表越长,冲突的概率越低。

4.处理冲突的方法2:开放地址法

所谓开放定址法,是指可存放新表项的空闲地址既向它的同义词表项开放,又向它的非同义词表项开放。其数学递推公式为∶
H i = ( H ( k e y ) + d i ) m o d ( m ) Hi= (H(key) + di) mod (m) Hi=(H(key)+di)mod(m)
i = 0 , 1 , 2... , k ( k ≤ m − 1 ) i = 0,1,2...,k (k≤m - 1) i=0,1,2...,k(km1),m表示散列表表长;di为增量序列;
i可理解为“第i次发生冲突”

关于增量序列 d i di di的设计有:

1.线性探测法

d i = 0 , 1 , 2 , 3 , . . . , m − 1 ; di=0,1,2,3,..., m-1; di=0,1,2,3,...,m1;
即发生冲突时,每次往后探测相邻的下一个单元是否为空 .

1.查找操作
空位置的判断也要算作一次比较。
越早遇到空位置,就可以越早确定查找失败。

2.删除操作
注意:采用“开放定址法"时,删除结点不能简单地将被删结点的空间置为空,否则将截断在它之后填入散列表的同义词结点的查找路径,可以做一个“删除标记”,进行逻辑删除。

3.查找效率分析
弊端:当第一次冲突位置离目标较远时,看起来很满,实际上很空,花费较长的时间。

初次探测的地址 Ho只有可能在 [ 0 , 12 ] [0,12] [0,12]

线性探测法很容易造成同义词、非同义词的“聚集(堆积)”现象,严重影响查找效率。
产生原因——冲突后再探测一定是放在某个连续的位置。

2.平方探测法

d i = 0 2 , 1 2 , − 1 2 , 2 2 , − 2 2 , . . . . k 2 , − k 2 di= 0^2,1^2,-1^2,2^2,-2^2, .... k^2,-k^2 di=02,12,12,22,22,....k2,k2时,称为平方探测法,
又称二次探测法其中 k ≤ m / 2 k≤m/2 km/2

  • 平方探测法:比起线性探测法更不易产生“聚集(堆积)”问题。
  • 非重点小坑:散列表长度m必须是一个可以表示成4j+3的素数,才能探测到所有位置。(数论)
3.伪随机序列法

di是一个伪随机序列,如di= 0,5,24,11,…

5.处理冲突的方法3:再散列法

再散列法(再哈希法)︰除了原始的散列函数H(key)之外,
多准备几个散列函数,当散列函数冲突时,
用下一个散列函数计算一个新地址,直到不冲突为止:
H = R H i ( K e y ) i = 1 , 2 , 3.... , k H= RHi(Key) i=1,2,3....,k H=RHi(Key)i=1,2,3....,k

更多推荐

Thymeleaf介绍及其在Spring Boot中的使用

📖Thymeleaf简介📚Thymeleaf的定义Thymeleaf是一款现代化的服务器端Java模板引擎,适用于Web和独立应用场景。它具备处理HTML、XML、JavaScript、CSS以及纯文本的能力。Thymeleaf的核心目标是为开发者提供一种优雅且自然的模板设计方式,从而使得开发者能够更加便捷地构建、

httpclient3.1跳过ssl验证

原来的老项目调用一个Http的服务,最近http的服务调整成了https,因此需要调整一下,网上大部分都是4.5以上版本,3.1版本处理方法比较少,因此记录一下一、实现两个类1.MyX509TrustManagerimportjava.security.cert.CertificateException;importj

SSL加速是什么,有什么优势?

SSL加速技术是一种专门用于加速HTTPS通信的技术,它可以在服务器和客户端之间提供高效的加密和解密处理,以提升网络通信的安全性和性能。以下是SSL加速技术的一些主要优势:提高网站的访问速度:SSL加速技术可以对SSL握手过程进行优化,加快SSL连接速度,从而减少响应时间和延迟,提高网站的访问速度。降低服务器负载:SS

Nacos注册中心

Nacos安装https://nacos.io/zh-cn/源码安装第一步:利用Gitee获取nacos在github上的代码到自己的gitee仓库中https://github.com/alibaba/nacos.git第二步:下载源码到本地。第三步:使用maven编译代码。#先切换到master分支gitcheck

git及dbc的学习

1)git的使用方法CommandlineinstructionsYoucanalsouploadexistingfilesfromyourcomputerusingtheinstructionsbelow.Gitglobalsetupgitconfig--globaluser.name"username"gitcon

redis分布式锁

用于用户重复注册,点击过快,有可能会注册相同的手机号问题。给用户手机号枷锁一分钟时间,判断相同的手机号。判断下面这块代码执行时间是否超过一分钟时间,不论超没超过都会释放锁,下个同样的手机号再次注册,都得等到代码执行完毕后(或者是一分钟后)才能进行注册,防止有两个相同的手机号,两个线程,查询数据库都没存在,而注册了两次,

竞赛选题 基于机器视觉的银行卡识别系统 - opencv python

1前言🔥优质竞赛项目系列,今天要分享的是基于深度学习的银行卡识别算法设计该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!🧿更多资料,项目分享:https://gitee.com/dancheng-senior/postgraduate2算法设计流程银行卡卡号识别技术原理是先对银行卡图像定位,保障获取图像绝对位置

SpringSecurity---内存认证和数据库认证

目录一、内存认证二、认证逻辑三、数据库认证(也就是用户名和密码在数据库中寻找)(1)mapper层(2)启动类添加扫描注解(3)编写UserDetailsService实现类一、内存认证@ConfigurationpublicclassSecurityConfig{//定义认证逻辑@BeanpublicUserDeta

springboot整合mybatis

整合SpringBoot与MyBatis框架的步骤如下:步骤1:创建SpringBoot项目-在IDE中创建一个新的SpringBoot项目。步骤2:添加相关依赖-在项目的pom.xml文件中添加以下依赖:<dependencies><dependency><groupId>org.springframework.bo

基于PHP的短视频SEO矩阵系统源码开发

随着短视频市场的爆发式增长,越来越多的企业开始寻求在短视频领域建立自己的品牌形象,增加用户粘性和获取更多流量。为此,一套高效的短视频SEO矩阵系统源码显得尤为重要。本文将介绍基于PHP语言的短视频SEO矩阵系统源码开发,帮助读者更好地了解该系统的实现原理和开发过程。一、系统概述短视频SEO矩阵系统是一套基于PHP语言开

千万级用户的大型网站,如何进行服务器压力预估?

前言:一般情况下,单台Tomcat服务器每秒支撑500请求,单台MySQL数据库每秒支撑5000左右的请求,单台Redis缓存支撑每秒几万请求。1、千万级用户量的压力预估假设大型网站预估用户数是1000万,那么根据28法则,每天会来访问这个网站的用户占到20%,也就是200万用户每天会过来访问。通常假设平均每个用户每次

热文推荐