關於 linux java指令，我們在網路上蒐集到這些相關的討論、資訊與評價

「linux java指令」的推薦目錄：

關於linux java指令在 Kewang 的資訊進化論 Facebook 的精選貼文
關於linux java指令在紀老師程式教學網 Facebook 的精選貼文

linux java指令在 Kewang 的資訊進化論 Facebook 的精選貼文

2018-01-10 13:44:00 有 8 人按讚

TL;DR

如果發現 hbase shell 在 scan 或 count 的筆數與你預期筆數不一致的話，就 split region 看看吧。

--- 以下是前言，還真長 XD ---

最近都在忙著新版本上線，所以小編也好一陣子沒發文了。不過這幾天有個有趣的案例，想跟大家分享一下。

有在看小編文章的大概會知道我們產品的資料庫是以 HBase 建置而成的，而 HBase 最重要的組成就是 rowkey 了。若 rowkey 設計錯誤輕微可以使用 column 來救，嚴重的甚至要砍掉整筆 row，重新設計 rowkey 才能解決。

兩年前在設計某 table 的 rowkey 時，不小心忘了對 rowkey 做 salt (HBase 基礎之一，避免 scan 時產生 hotspotting)，如果又沒切 region 的話 (HBase 基礎之一，避免 scan 時產生 hotspotting)，這些資料在建立時都會跑到同一個 region，在 scan 的時候效能會超差。

像這種例子就算使用 column 來救也完全沒辦法，所以小編就打算把整筆 row 砍掉重新把 salt 加上去。

--- 以下是追蹤過程 ---

原 rowkey 開頭及加上 salt 之後的新 rowkey 開頭如下：

* 原：A000001、新：DNhA000001
* 原：A000002、新：dMfA000002
* 原：A000003、新：p9OA000003
* 以此類推

原 rowkey 相同 pattern (A000XXX) 的 row 有 2000 萬筆 (在 hbase shell 內使用 count 來計算 table 的資料量)，所以這次 rebuild 總共會刪除原 rowkey 共 2000 萬筆，新增新 rowkey 共 2000 萬筆。

在使用 HBase 的 Java API 執行增刪 rebuild 後，在 hbase shell 使用 count 計算 table 的資料量時卻只有 900 萬筆。一開始小編還以為是 compaction 跟 flush 的問題，所以強制對 table 做了下面幾個動作，以確保資料有在 HFile 裡面正確地寫入及刪除：

* 確認資料都會刪除：compact、major_ compact
* 確認資料都會寫入：flush

但執行完後再跑一次 count 也是一樣只有 900 萬筆，所以就開始找問題點了。

後來又使用 HBase 的 exists API，確認有找到 2000 萬筆的資料。一開始小編以為是 MapReduce 的問題，因為 HBase 計算 row count 是使用 MapReduce 來執行的，但找了一堆資料都沒人說有類似問題。後來想說在 hbase shell 內使用 scan {COLUMNS => "cf:XX"} 將所有的資料都拿出來，發現也是只有 900 萬筆，所以初步排除是 MapReduce 的問題。

後來比對了新增的 rowkey 及目前 scan 出來的 rowkey，發現 scan 出來的 rowkey 只有到 GbVA000017 而已，後面的 H-Z、a-z 開頭的全部都沒出現。所以小編使用 hbase shell 的 get 指令，確認在 Java API 新增的 rowkey (A-Z、a-z 開頭的) 是否存在於 table 內，發現用 get 可以拿的到資料。討論後用 scan 加 start rowkey 試試，結果如下：

* STARTROW => "GbVA000017"：只找到一筆
* STARTROW => "H"：可以找到 H 之後的所有資料

看了這結果，真的覺得非常奇怪啊！！！

後來大神 Cowman Chiang 說要不要試著用 split 讓 HBase 重切 region 看看，等於是 rebuild region 的意思，因為 split 會使用字母順序切分成不同的 region，讓 row 重新分散。split 完之後再做一次 count 果然就找到 2000 萬筆資料了啊。

感恩 Cowman Chiang 讚嘆 Cowman Chiang！！！

--- 以下是結論 ---

目前看起來就是 region 發生異常，還不知道是什麼原因會造成這次事件的發生。但如果發現 scan 或 count 的筆數與你預期的內容不一致的話，就 split region 看看吧。

--- 本次追蹤使用工具 ---

* Linux: grep, cat, cut, sort, sed, comm, wc, less, head
* Java: exists, scan, get, put, BufferedReader
* hbase shell: snapshot, split, compact, major_compact, flush, restore_snapshot, scan, get, disable, enable, clone_snapshot, list_snapshots

--- 20180112 後記 ---

後來把 snapshot 還原之後，重新做了一次 rebuild 再做 count，結果還是一樣只有 900 萬筆，然後用 hbase hbck -repair 試著看看是否能把 region 修復 (有 4 個 inconsistencies)，修復完後一樣是 900 萬筆。

也有同事說到會不會是資料塞太快的關係，造成 region 無法 split 完整才會發生這個問題。對於這個說法，小編也還在研究看看，有什麼進度會再分享給大家知道。

#hbase #hadoop #mapreduce #hotspotting

Kewang 的資訊進化論

About author

這個粉絲頁會不定期分享小編從每日 RSS 清單所閱讀的心得或是自己的開發心得。

linux java指令在紀老師程式教學網 Facebook 的精選貼文

By 紀老師程式教學網

2015-06-30 08:45:02 有 181 人按讚

想在 30 分鐘內學會 Git 嗎？看這裡就對了！

Git 是一種「原始碼版本控制」軟體，它可以儲存原始碼每個版本之間的差異，然後您可以要求「時光回溯」到任何指定的版本。這可以防止一天到晚改規格的客戶或老闆，在您辛苦更動原始碼後，來一句要命的：「還是之前的那一版比較好」。我個人認為，它是程式設計中，最重要的 7 大軟體之一（文字編輯器、編譯器、版本控制器、自動化建構系統、單元測試軟體、環境佈建系統、與除錯器）。

這類「版本控制軟體」，依照流行先後，著名的有 CVS、Subversion、與 Git。目前最流行的版本控制軟體是「Git」，流行原因多多少少是因為 Linux 核心（Linux Kernel）原始碼，就是用這套軟體保持各個版本差異的。不少公司也要求程式設計師寫好原始碼後，一律都得回存 Git 系統才算完工，不能只是存在私人的硬碟就了事。所以 Git 就變成業界必備的軟體之一。

補習班常常有同學問我，有沒有那種很簡單的 Git 說明書，不用講太深，但要在 30 ~ 60 分鐘內就掌握常用功能的教材？之前一直找不到，不過今天幫大家找到了！還有中文版喔！叫做「Git 簡明指南」。鏈結如下：

https://rogerdudler.github.io/git-guide/index.zh.html

其實它的原文名稱有點好玩：「Git - The Simple Guide, No Deep Shit!」。這類標題通常能騷動我個性中愛作怪的小惡魔，讓我會心一笑後點進去看看。看完後，果然「一點點深的便便」都沒有... XD 還有中文版（簡中）！心想這麼讚的東西不介紹怎麼行！就花時間寫了這一篇。

希望今天的分享對各位的日常工作有幫助！我也很鼓勵大家能找到適合自己的「七大系統」，把它弄熟。畢竟「工欲善其事，必先利其器」嘛！我個人習慣使用的七大系統，也列在底下讓大家參考：

1. 文字編輯器：vim。不好學，但游標移動速度與文字操控能力超快！
2. 編譯器：gcc。因為我寫 C 語言比較多，所以用 gcc。
3. 版本控制器：git。其實我之前是熟 subversion。不過 git 也很好用喔！
4. 自動化建構系統：make。可以把編譯、安裝...等囉哩八唆的指令濃縮成一個簡稱（如：build, install...等）。打完按下 enter 後就可以去泡咖啡了！還能偵測哪些原始碼已經編譯過，不需重新編譯已縮短作業時間。
5. 單元測試軟體：CUnit。嚴格來說，這算一套「函式庫」，可以針對你寫好的原始碼做測試。由於我寫 C 較多，所以用 CUnit。如果您寫的程式碼是 Java 或其它，可能得找相對應的測試軟體。
6. 環境佈建軟體：VirtualBox。用它的原因是 Win, Mac, Linux 全平台都支援。我會把程式設計環境灌好後的 VirtualBox 映像檔保存好，每次要乾淨環境就 new 一個新的虛擬機起來。最近迷上 Vagrant，想知道 Vagrant 是什麼的可以看這篇： http://goo.gl/29mBs9
7. 除錯器：gdb。雖然是文字介面，但連線到運算能力很差的開發板上想除錯，也只有 gdb 跑得動。用久了也習慣了。

其實最近還想加上第八項「(8) 軟體部署系統：Docker」，不過還在研究，也還沒熟悉。等熟悉了再跟大家報告。 :-)

如果覺得文章不錯，還煩請各位不吝按讚打賞或分享一下喔！ m(^ ^)m

Tags: linux java指令

紀老師程式教學網

About author

由紀老師每天瀏覽 500+ 國內外「程式設計」文章後，挑出真正有用的文章，分享在此！堅持不貼「問安文」與「生活照」的園地（笑）。

關於 linux java指令 ，我們在網路上蒐集到這些相關的討論、資訊與評價

「linux java指令」的推薦目錄：

linux java指令 在 Kewang 的資訊進化論 Facebook 的精選貼文

About author

linux java指令 在 紀老師程式教學網 Facebook 的精選貼文

About author

你可能也想看看

搜尋相關連結

關於 linux java指令，我們在網路上蒐集到這些相關的討論、資訊與評價

linux java指令在 Kewang 的資訊進化論 Facebook 的精選貼文

linux java指令在紀老師程式教學網 Facebook 的精選貼文