拜托!別再問我hashmap是否線程安全

更新時間:2022-08-24 來源:黑馬程序員瀏覽量:

　　一、糟糕的面試

　　面試官：小王，你說說HashMap的是線程安全的嗎?

　　小王：HashMap不安全，在多線程下，會出現線程安全問題。他兄弟HashTable

　　線程是安全的，但是出于性能考慮，我們往往會選擇ConcurrentHashMap。

　　面試官：HashMap線程不安全的原因是什么?

　　小王：這個...暫時忘記了

　　面試官：為什么HashTable線程安全，為什么性能低?

　　小王：這個...

　　面試官：ConcurrentHashMap是怎么實現線程安全的?性能為什么較高?

　　小王：...

　　面試官：回答的很不錯，回去等通知吧。

　　二、hashMap

　　2.1 暴露問題

　　大家都知道，HashMap在多線程下會存在線程安全問題，如下：

```java
public class Demo2 {
    public static void main(String[] args) {
        //shift+ctrl+alt+u
        HashMap<String, String> map = new HashMap<>();

        Thread t1 =   new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 0; i <= 10; i++) {
                    map.put(i+"",i+"");
                }
            }
        });
        Thread t2 =   new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 11; i <= 20; i++) {
                    map.put(i+"",i+"");
                }
            }
        });
        t1.start();
        t2.start();
        //確保兩個子線程執行完畢之后，主線程再來打印hashmap
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        //遍歷hashMap
        for (int i = 1; i <= 20; i++) {
            System.out.println(map.get(i + ""));
        }
    }
}
```

　　控制臺：

　　```

　　null

　　```

　　以上例子證明了,HashMap確實存在線程安全問題。

　　2.2 源碼追蹤

　　翻閱源碼(1.8)如下：

```java
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //此處線程不安全
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    //此處線程不安全。
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}
```

　　(1)代碼一

```java
if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
```

　　是否Hash沖突,沒沖突就直接賦值給數組當前索引。

　　線程A判斷通過，進入方法，切換B線程，判斷通過，進入方法，切換A線程，賦值成功，切換B線程賦值成功，B線程的值覆蓋了A線程的值，發生了數據覆蓋，用戶感受到是數據丟失。

　　(2) 代碼二

```java
if (++size > threshold)
        resize();
```

　　當元素個數size大于擴容閾值，則擴容，這里會有兩個問題。

　　- 成員的size變量沒有保證原子性，因此多線程下size自增是存在原子性問題。即添加了兩個元素，但是size只增加了1。

　　- 兩個線程如果都通過上面閾值的判斷，就會發生擴容兩次的情況，這也是一種安全問題。

　　三、HashTable

　　3.1 線程安全演示

　　我們可以使用HashTable來解決上面的安全問題。

　　看下面的代碼：

```java
public class Demo2 {
    public static void main(String[] args) {
        Hashtable<String, String> map = new Hashtable<>();
        Thread t1 =   new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 0; i <= 10; i++) {
                    map.put(i+"",i+"");//{i,i}
                }
            }
        });
        //20,20  21,21 ... 39,39
        Thread t2 =   new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 11; i <= 20; i++) {
                    map.put(i+"",i+"");//{i,i}
                }
            }
        });
        t1.start();
        t2.start();
        //確保兩個子線程執行完畢之后，主線程再來打印hashmap
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

        for (int i = 0; i <= 20; i++) {
            System.out.println(map.get(i + ""));
        }
    }
}
```

　　控制臺：

　　```java

　　```

　　以上代碼，說明了Hashtable的確是線程安全的。

　　3.2 翻看源碼

　　Hashtable源碼：

```java
public synchronized V put(K key, V value) {
    // Make sure the value is not null
    if (value == null) {
        throw new NullPointerException();
    }

    // Makes sure the key is not already in the hashtable.
    Entry<?,?> tab[] = table;
    int hash = key.hashCode();
    int index = (hash & 0x7FFFFFFF) % tab.length;
    @SuppressWarnings("unchecked")
    Entry<K,V> entry = (Entry<K,V>)tab[index];
    for(; entry != null ; entry = entry.next) {
        if ((entry.hash == hash) && entry.key.equals(key)) {
            V old = entry.value;
            entry.value = value;
            return old;
        }
    }

    addEntry(hash, key, value, index);
    return null;
}

    public synchronized V get(Object key) {
        Entry<?,?> tab[] = table;
        int hash = key.hashCode();
        int index = (hash & 0x7FFFFFFF) % tab.length;
        for (Entry<?,?> e = tab[index] ; e != null ; e = e.next) {
            if ((e.hash == hash) && e.key.equals(key)) {
                return (V)e.value;
            }
        }
        return null;
    }

    public synchronized int size() {
        return count;
    }
```

　　通過閱讀源碼可以發現，Hashtable每個操作數據的方法，都是使用了重量級鎖synchronized。線程A在操作數據的時候，線程B只能阻塞。保證了整個Hash表只能線程串行化執行，從而解決了多線程產生的安全問題。

　　因為Hashtable是對整個哈希表進行加鎖，加鎖粒度過大，發生線程阻塞的概率非常大，雖然synchronized有自己的鎖優化機制，但是也很快就會升級成重量級鎖。而當synchronized成為了重量級鎖，就會請求底層系統鎖，跳出jvm級別，頻繁涉及用戶態和內核態的切換，性能開銷比較大。

　　所以在今天已經不推薦使用HashTable了。

　　四、ConcurrentHashMap

　　4.1 線程安全演示

　　以上兩個章節我們發現，在Map集合中HashMap是最常用的集合對象。但是多線程操作HashMap會有線程安全問題，解決方式就是使用HashTable，但是HashTable會全表加鎖性能犧牲很大。

　　JDK1.5以后所提供了ConcurrentHashMap，使用它既能解決線程安全問題，性能又比HashTable高很多，所以這是目前主流的折中方案。

　　代碼如下：

```java
public class Demo3 {
    public static void main(String[] args) {
        ConcurrentHashMap<String, String> map = new ConcurrentHashMap<>();
        Thread t1 = new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 0; i <= 10; i++) {
                    map.put(i + "", i + "");//{i,i}
                }
            }
        });
        //20,20  21,21 ... 39,39
        Thread t2 = new Thread(new Runnable() {
            @Override
            public void run() {
                for (int i = 11; i <= 20; i++) {
                    map.put(i + "", i + "");//{i,i}
                }
            }
        });
        t1.start();
        t2.start();
        //確保兩個子線程執行完畢之后，主線程再來打印hashmap
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

        for (int i = 0; i <= 20; i++) {
            System.out.println(map.get(i + ""));
        }
    }
}
```

　　控制臺：

　　```java

　　```

　　線程安全得到保證。

　　總結 :

　　 1 ，HashMap是線程不安全的。多線程環境下會有數據安全問題

　　 2 ，Hashtable是線程安全的，但是會將整張表鎖起來，效率低下

　　 3，ConcurrentHashMap也是線程安全的，效率較高。在JDK7和JDK8中，底層原理不一樣。

　　4.2 jdk7原理解析

　　1.ConcurrentHashMap集合底層是一個默認長度為16，加載因子為0.75的大數組 Segment數組。大數組通常是創建之后長度就固定的，而擴容是指小數組擴容。

　　2.默認情況下還會創建一個長度為2的小數組，把地址賦值給0索引處，其他索引此時的元素仍為null。

　　`(Segment` 繼承 `ReentrantLock` 鎖,用于存放數組 `HashEntry[]`。)

　　如下圖

　　3.調用put方法時，此時會根據key的哈希值來計算出在大數組中存儲的索引位置。

　　如果這個索引此時為null，則按照0素引的模板小數組來創建小數組。創建完畢后會**二次哈希**計算出key在小數組中存儲的位置，然后把鍵值對對象存儲小數組的該索引位。

　　如下圖，先根據key的哈希算出來在大數組的4索引，創建小數組掛在4索引。接著繼續使用key的hash算出存在小數組的0素引。

　　4.調用put方法時，此時會根據key的哈希值來計算出在大數組中存儲的索引位置。

　　如果該位置不為null，就會根據記錄的地址值找到小數組。二次哈希計算出小數組的索引位置。

　　如果需要擴容就把小數組擴容2倍。

　　如果不需要擴容，則會判斷小數組該索引是否有元素

　　如果沒有元素，就直接存

　　如果有元素，就調用equals方法比較key是否相同

　　比較發現沒有重復，就會在小數組上掛鏈表。

　　如下圖

　　線程一來訪問索引4，此時就會對索引4的Segment進行加鎖。其他線程訪問索引4就會阻塞，訪問其他索引就可以訪問，這種技術叫分段鎖，將數據拆成一段一段的進行加鎖。

　　在當前例子中，我們沒有指定大數組的長度，因此長度默認是 16。在理想情況下，最多可以支持16個線程同時操作不同的segment對象，達到了并發的目的。但是如果多個線程同時操作同一個segment，就會阻塞，串行化執行。

　　關鍵字：分段鎖、二次哈希、Segment數組不能擴容、HashEntry數組可以擴容

　　總結：

　　ConcurrentHashMap1.7使用Segment+HashEntry數組實現的。本質上是一個 Segment 數組，Segment 繼承 ReentrantLock ，同時具備了加鎖和釋放鎖的功能。每個Segment都線程安全，全局也就安全了。把Hashtable的鎖全表，變成了鎖一段段的數據，粒度細提高性能。

　　補充：ConcurrentHashMap1.8則完全不同，放棄了Segment。數據結構使用synchronized+CAS+紅黑樹。鎖的粒度也從段鎖縮小為結點鎖，粒度更細，同時數組支持擴容，并發能力更高。使用synchronized其實也是因為1.6jdk對synchronized的優化有關。

　　4.3 jdk8 原理解析

　　在1.8中，ConcurrentHashMap可以說發生翻天覆地的變化，底層數據結構不再采用segment數組，也不再采用分段鎖。而是采用數組+鏈表+紅黑樹來實現，鎖也從分段鎖提升成了節點鎖，粒度更細。使用CAS+synchronized來保證線程安全。

　　底層結構：數組+鏈表+紅黑樹

　　CAS + synchronized同步代碼塊保證線程安全

　　初始化數組源碼如下：

```java
//假設多線程來擴容，concurrentHashMap為了線程安全，只能讓一個線程成功初始化數組，其他線程均失敗。
private final Node<K,V>[] initTable() {
        Node<K,V>[] tab; int sc;
        //所有線程進入循環，去搶著初始化數組
        while ((tab = table) == null || tab.length == 0) {
            if ((sc = sizeCtl) < 0)
                Thread.yield(); //讓線程讓出cpu，以至于把cpu更多的可能讓給初始化操作的線程
            //CAS操作，保證一個線程進入下面的邏輯，其他線程最終只能執行 Thread.yield();
            else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
                try {
                    if ((tab = table) == null || tab.length == 0) {
                        int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
                        @SuppressWarnings("unchecked")
                        //這個就是初始化數組，默認長度n為16
                        Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                        table = tab = nt;
                        sc = n - (n >>> 2);
                    }
                } finally {
                    sizeCtl = sc;
                }
                break;
            }
        }
        return tab;
    }
```

　　通過源碼發現，這里使用了自旋+CAS+線程讓出cpu。

　　其中自旋+Cas：初始化操作必須且只會由一個線程執行一次，不會初始化多個數組。

　　線程讓出cpu：提高性能，讓初始化操作更快執行

　　put操作源碼如下：

```java
   final V putVal(K key, V value, boolean onlyIfAbsent) {
        if (key == null || value == null) throw new NullPointerException();
        int hash = spread(key.hashCode());
        int binCount = 0;
        for (Node<K,V>[] tab = table;;) {
            Node<K,V> f; int n, i, fh;
            //如果數組是null,說明第一次put，那就初始化數組
            if (tab == null || (n = tab.length) == 0)
                tab = initTable();
            //根據key找到索引，如果此索引為null，則使用CAS將node直接賦給當前索引
            else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
                if (casTabAt(tab, i, null,
                             new Node<K,V>(hash, key, value, null)))
                    break;                   // no lock when adding to empty bin
            }
            //如果當前索引位置的元素的hash==MOVED說明此時正在發生數組擴容的數據遷移操作，
            //當前線程幫助完成數據遷移
            else if ((fh = f.hash) == MOVED)
                tab = helpTransfer(tab, f);
            //當前索引既不是null，也沒有在數據遷移。此時索引位置存儲的要么鏈表要么紅黑樹
            else {
                V oldVal = null;
                //對頭結點進行加結點鎖，保證同索引下的結點線程串行化執行
                synchronized (f) {
                    if (tabAt(tab, i) == f) {
                        if (fh >= 0) {
                            binCount = 1;
                            for (Node<K,V> e = f;; ++binCount) {
                                K ek;
                                if (e.hash == hash &&
                                    ((ek = e.key) == key ||
                                     (ek != null && key.equals(ek)))) {
                                    oldVal = e.val;
                                    if (!onlyIfAbsent)
                                        e.val = value;
                                    break;
                                }
                                Node<K,V> pred = e;
                                if ((e = e.next) == null) {
                                    pred.next = new Node<K,V>(hash, key,
                                                              value, null);
                                    break;
                                }
                            }
                        }
                        else if (f instanceof TreeBin) {
                            Node<K,V> p;
                            binCount = 2;
                            if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                           value)) != null) {
                                oldVal = p.val;
                                if (!onlyIfAbsent)
                                    p.val = value;
                            }
                        }
                    }
                }
                if (binCount != 0) {
                    if (binCount >= TREEIFY_THRESHOLD)
                        treeifyBin(tab, i);
                    if (oldVal != null)
                        return oldVal;
                    break;
                }
            }
        }
        addCount(1L, binCount);
        return null;
    }
```

　　通過源碼發現:

　　 put操作如果沒有發生hash沖突，則CAS直接賦值到索引

　　如果發生了hash沖突，判斷此時是否正在擴容數據遷移，是就加入幫忙數據遷移

　　如果此時是鏈表或者紅黑樹，就加節點鎖，保證當前索引操作的線程串行化執行。

　　擴容源碼如下：

```java
    private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
        int n = tab.length, stride;
        //計算步長，算法的目的是，cpu核數越多，步長越小。
        //步長最少為16，最多為數組的長度
        if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
            stride = MIN_TRANSFER_STRIDE; // subdivide range
        if (nextTab == null) {            // initiating
            try {
                @SuppressWarnings("unchecked")
                Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
                nextTab = nt;
            } catch (Throwable ex) {      // try to cope with OOME
                sizeCtl = Integer.MAX_VALUE;
                return;
            }
            nextTable = nextTab;
            transferIndex = n;
        }
        int nextn = nextTab.length;
        ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
        boolean advance = true;
        boolean finishing = false; // to ensure sweep before committing nextTab
        for (int i = 0, bound = 0;;) {
            Node<K,V> f; int fh;
            while (advance) {
                int nextIndex, nextBound;
                if (--i >= bound || finishing)
                    advance = false;
                else if ((nextIndex = transferIndex) <= 0) {
                    i = -1;
                    advance = false;
                }
                else if (U.compareAndSwapInt
                         (this, TRANSFERINDEX, nextIndex,
                          nextBound = (nextIndex > stride ?
                                       nextIndex - stride : 0))) {
                    bound = nextBound;
                    i = nextIndex - 1;
                    advance = false;
                }
            }
            if (i < 0 || i >= n || i + n >= nextn) {
                int sc;
                if (finishing) {
                    nextTable = null;
                    table = nextTab;
                    sizeCtl = (n << 1) - (n >>> 1);
                    return;
                }
                if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
                    if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
                        return;
                    finishing = advance = true;
                    i = n; // recheck before commit
                }
            }
            else if ((f = tabAt(tab, i)) == null)
                advance = casTabAt(tab, i, null, fwd);
            else if ((fh = f.hash) == MOVED)
                advance = true; // already processed
            else {
                synchronized (f) {
                    if (tabAt(tab, i) == f) {
                        Node<K,V> ln, hn;
                        if (fh >= 0) {
                            int runBit = fh & n;
                            Node<K,V> lastRun = f;
                            for (Node<K,V> p = f.next; p != null; p = p.next) {
                                int b = p.hash & n;
                                if (b != runBit) {
                                    runBit = b;
                                    lastRun = p;
                                }
                            }
                            if (runBit == 0) {
                                ln = lastRun;
                                hn = null;
                            }
                            else {
                                hn = lastRun;
                                ln = null;
                            }
                            for (Node<K,V> p = f; p != lastRun; p = p.next) {
                                int ph = p.hash; K pk = p.key; V pv = p.val;
                                if ((ph & n) == 0)
                                    ln = new Node<K,V>(ph, pk, pv, ln);
                                else
                                    hn = new Node<K,V>(ph, pk, pv, hn);
                            }
                            setTabAt(nextTab, i, ln);
                            setTabAt(nextTab, i + n, hn);
                            setTabAt(tab, i, fwd);
                            advance = true;
                        }
                        else if (f instanceof TreeBin) {
                            TreeBin<K,V> t = (TreeBin<K,V>)f;
                            TreeNode<K,V> lo = null, loTail = null;
                            TreeNode<K,V> hi = null, hiTail = null;
                            int lc = 0, hc = 0;
                            for (Node<K,V> e = t.first; e != null; e = e.next) {
                                int h = e.hash;
                                TreeNode<K,V> p = new TreeNode<K,V>
                                    (h, e.key, e.val, null, null);
                                if ((h & n) == 0) {
                                    if ((p.prev = loTail) == null)
                                        lo = p;
                                    else
                                        loTail.next = p;
                                    loTail = p;
                                    ++lc;
                                }
                                else {
                                    if ((p.prev = hiTail) == null)
                                        hi = p;
                                    else
                                        hiTail.next = p;
                                    hiTail = p;
                                    ++hc;
                                }
                            }
                            ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
                                (hc != 0) ? new TreeBin<K,V>(lo) : t;
                            hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
                                (lc != 0) ? new TreeBin<K,V>(hi) : t;
                            setTabAt(nextTab, i, ln);
                            setTabAt(nextTab, i + n, hn);
                            setTabAt(tab, i, fwd);
                            advance = true;
                        }
                    }
                }
            }
        }
    }
```

　　通過源碼發現：

　　ConcurrentHashMap采用的是多線程擴容，來提高擴容的效率。總體思想是，cpu核數越多線程越多，每個線程分得數據遷移任務量越小。

　　步長：單個線程負責遷移的桶數量。

　　下面做一個模擬擴容的流程：

　　假設現在數組長度有512，cpu核數2，步長32。

　　線程一：負責遷移索引(512-步長-1，512-1)，即數組[479] - 數組[511]

　　線程二：負責遷移索引數組[446] 數組[478]

　　如果線程一和線程二都執行完畢，兩個線程就會通過CAS去搶下一個任務

　　如果線程二搶到了，數組[413] 數組[445]

　　線程一失敗了，自旋繼續CAS搶，搶到了

　　線程一數組[381] 數組[412]

　　4.4 對比區別

　　(1)1.7用的是segment+hashentry數組實現的分段鎖。只要線程沒同時訪問同一個分段數組，就可以并行訪問默認長度16，segment數組不可以擴容(大數組)，hashentry數組可以擴容。

　　(2)1.8用的是CAS+synchronized+voletile 實現的，底層是數組+鏈表+紅黑樹。對比1.7 鎖的粒度更細，鎖到了節點級別。

　　(3)1.8為什么synchronized替換segment?ReentrantLock：park unpark 用戶態 - 內核態性能開銷比較大。synchronized：1.6之后優化了，偏向鎖輕量級鎖。此時加鎖粒度非常小，比1.7小。轉成重量級鎖概率極小。

　　五、總結

　　通過上面的學習得知，hashmap在多線程情況下初始化數組和擴容的時候均會出現線程安全問題。我們可以通過HashTable來解決，HashTable是對整個hash表加鎖，相當于線程串行化操作hash表，在解決問題的同時也會導致性能極低。最終我們可以使用ConcurrentHashMap將鎖的粒度控制到最小，將性能影響控制到最低，同時擴容的時候ConcurrentHashMap還支持多線程擴容。可以說ConcurrentHashMap是多線程操作hashmap場景的不二之選，比如SpringCache框架中就使用了ConcurrentHashMap來作為本地緩存。

上一篇：Java培訓：gitlab-使用入門 下一篇：面試官：你了解HashMap嗎?【Java培訓】

全國中心

熱門課程

拜托!別再問我hashmap是否線程安全

最新資訊

相關閱讀

熱門課程推薦