欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站技術(shù) > 詳情

短網(wǎng)址(short URL)系統的原理及其實(shí)現

2017-11-22 16:20:59   來(lái)源:segmentfault   瀏覽:  次
提供一個(gè)短址服務(wù)你有沒(méi)有發(fā)現,我們的任務(wù)中出現長(cháng) URL 就會(huì )比較麻煩?如果有一個(gè)短址生成器就好了。雖然市面上有很多,但是我們可以重復發(fā)明一個(gè)輪子,利用這個(gè)機會(huì )嘗試一下簡(jiǎn)單的 Web 全棧開(kāi)發(fā)。任務(wù)做一個(gè)短鏈接生成器

提供一個(gè)短址服務(wù)

你有沒(méi)有發(fā)現,我們的任務(wù)中出現長(cháng) URL 就會(huì )比較麻煩?如果有一個(gè)短址生成器就好了。雖然市面上有很多,但是我們可以重復發(fā)明一個(gè)輪子,利用這個(gè)機會(huì )嘗試一下簡(jiǎn)單的 Web 全棧開(kāi)發(fā)。

任務(wù)

做一個(gè)短鏈接生成器,可以將一個(gè)長(cháng)鏈接縮短成一個(gè)短鏈接。

要發(fā)車(chē)了 :bus:

發(fā)車(chē)前,和大家說(shuō)一下

如果不想重復的造輪子,想開(kāi)箱即用,可以使用基于 PHP 的開(kāi)源軟件 YOURLS 。 YOURLS 還可以和 WordPress 整合到一起,功能強大,可擴展性高。

本文記錄了開(kāi)發(fā)短網(wǎng)址系統的整個(gè)過(guò)程,包括初期的算法調研、模塊設計、數據庫設計、功能擴展等。

什么是短鏈接 :link:

就是把普通網(wǎng)址,轉換成比較短的網(wǎng)址。比如: http://t.cn/RlB2PdD 這種,在微博這些限制字數的應用里。好處不言而喻。短、字符少、美觀(guān)、便于發(fā)布、傳播。

百度短網(wǎng)址 http://dwz.cn/

谷歌短網(wǎng)址服務(wù) https://goo.gl/ (需科學(xué)上網(wǎng))號稱(chēng)是最快的 :rocket:

原理解析

當我們在瀏覽器里輸入 http://t.cn/RlB2PdD 時(shí)

DNS首先解析獲得 http://t.cn 的 IP 地址

當 DNS 獲得 IP 地址以后(比如:74.125.225.72),會(huì )向這個(gè)地址發(fā)送 HTTP GET 請求,查詢(xún)短碼 RlB2PdD

http://t.cn 服務(wù)器會(huì )通過(guò)短碼 RlB2PdD 獲取對應的長(cháng) URL

請求通過(guò) HTTP 301 轉到對應的長(cháng) URL https://m.helijia.com 。

這里有個(gè)小的知識點(diǎn),為什么要用 301 跳轉而不是 302 吶?

301 是永久重定向,302 是臨時(shí)重定向。短地址一經(jīng)生成就不會(huì )變化,所以用 301 是符合 http 語(yǔ)義的。同時(shí)對服務(wù)器壓力也會(huì )有一定減少。

但是如果使用了 301 ,我們就無(wú)法統計到短地址被點(diǎn)擊的次數了。而這個(gè)點(diǎn)擊次數是一個(gè)非常有意思的大數據分析數據源。能夠分析出的東西非常非常多。所以選擇302雖然會(huì )增加服務(wù)器壓力,但是我想是一個(gè)更好的選擇。

來(lái)自知乎 iammutex 的 答案

算法實(shí)現

網(wǎng)上比較流行的算法有兩種 自增序列算法、 摘要算法

算法一

自增序列算法也叫永不重復算法

設置 id 自增,一個(gè) 10進(jìn)制 id 對應一個(gè) 62進(jìn)制的數值,1對1,也就不會(huì )出現重復的情況。這個(gè)利用的就是低進(jìn)制轉化為高進(jìn)制時(shí),字符數會(huì )減少的特性。

短址的長(cháng)度一般設為 6 位,而每一位是由 [a - z, A - Z, 0 - 9] 總共 62 個(gè)字母組成的,所以 6 位的話(huà),總共會(huì )有 62^6 ~= 568億種組合,基本上夠用了。

哈哈,這里附上一個(gè)進(jìn)制轉換工具 http://tool.lu/hexconvert/ 上圖的數據就是用這個(gè)工具生成的。

具體的算法實(shí)現,自行谷歌。

算法二

將長(cháng)網(wǎng)址 md5 生成 32 位簽名串,分為 4 段, 每段 8 個(gè)字節

對這四段循環(huán)處理, 取 8 個(gè)字節, 將他看成 16 進(jìn)制串與 0x3fffffff(30位1) 與操作, 即超過(guò) 30 位的忽略處理

這 30 位分成 6 段, 每 5 位的數字作為字母表的索引取得特定字符, 依次進(jìn)行獲得 6 位字符串

總的 md5 串可以獲得 4 個(gè) 6 位串,取里面的任意一個(gè)就可作為這個(gè)長(cháng) url 的短 url 地址

這種算法,雖然會(huì )生成4個(gè),但是仍然存在重復幾率

兩種算法對比

第一種算法的好處就是簡(jiǎn)單好理解,永不重復。但是短碼的長(cháng)度不固定,隨著(zhù) id 變大從一位長(cháng)度開(kāi)始遞增。如果非要讓短碼長(cháng)度固定也可以就是讓 id 從指定的數字開(kāi)始遞增就可以了。百度短網(wǎng)址用的這種算法。上文說(shuō)的開(kāi)源短網(wǎng)址項目 YOURLS 也是采用了這種算法。 源碼學(xué)習

第二種算法,存在碰撞(重復)的可能性,雖然幾率很小。短碼位數是比較固定的。不會(huì )從一位長(cháng)度遞增到多位的。據說(shuō)微博使用的這種算法。

我使用的算法一。有一個(gè)不太好的地方就是出現的短碼是有序的,可能會(huì )不安全。我的處理方式是構造 62進(jìn)制的字母不要按順序排列。因為想實(shí)現自定義短碼的功能,我又對算法一進(jìn)行了優(yōu)化,下文會(huì )介紹。

流程圖

自增序列算法流程圖

st=>start: 開(kāi)始

e=>end: 結束

io1=>inputoutput: 輸入網(wǎng)址

io2=>inputoutput: 返回短網(wǎng)址

op1=>operation: 返回對應的短碼

op2=>operation: 保存輸入的網(wǎng)址到數據庫

op3=>operation: 根據id計算對應的短碼

op4=>operation: 更新短碼到數據庫

cond1=>condition: 查詢(xún)數據庫

是否存在對

應的短碼

st->io1->cond1

cond1(no,bottom)->op2->op3->op4->op1->io2->e

cond1(yes)->op1->io2->e

自增序列算法 + 用戶(hù)自定義短碼 流程圖

st=>start: 開(kāi)始

e=>end: 結束

io1=>inputoutput: 輸入網(wǎng)址

io2=>inputoutput: 返回短網(wǎng)址

io3=>inputoutput: 提示用戶(hù)

該短碼已存在

io4=>inputoutput: 提示用戶(hù)

不能輸入短鏈接

op1=>operation: 返回短碼

op2=>operation: 保存輸入的網(wǎng)址到數據庫

op3=>operation: 根據id計算對應的短碼

op4=>operation: 查詢(xún)數據庫

獲得一條

自定義短碼的url

對應的id記錄

op5=>operation: 更新短碼到數據庫

cond1=>condition: 查詢(xún)數據庫

是否存在該URL

cond2=>condition: 用戶(hù)選擇

自定義短碼

cond3=>condition: 生成的短碼

是否存在

cond4=>condition: 短碼是否存在

cond5=>condition: 短碼是否存在

cond6=>condition: 自定義的短碼

是否存在

cond7=>condition: 用戶(hù)輸入的是短鏈接

st->io1->cond7

cond7(no,bottom)->cond1

cond7(yes)->io4->e

cond1(no,bottom)->cond2

cond1(yes)->op1->io2->e

cond2(no,bottom)->op3->cond4

cond2(yes)->cond5

cond4(no, bottom)->op5->op1->io2->e

cond4(yes)->op4->op3->cond4

cond5(no,bottom)->op5

cond5(yes)->io3->e

百度短網(wǎng)址還允許用戶(hù)自定義短碼,算法二 摘要算法,不和 id 綁定,好像挺好實(shí)現這個(gè)功能的。

但是自增序列算法是和 id 綁定的,如果允許自定義短碼就會(huì )占用之后的短碼,之后的 id 要生成短碼的時(shí)候就發(fā)現短碼已經(jīng)被用了,那么 id 自增一對一不沖突的優(yōu)勢就體現不出來(lái)了。

那么怎么實(shí)現自定義短碼吶?

我是這樣處理的:

數據庫增加一個(gè)類(lèi)型 type 字段,用來(lái)標記短碼是用戶(hù)自定義生成的,還是系統自動(dòng)生成的。

如果有用戶(hù)自定義過(guò)短碼,把它的類(lèi)型標記自定義。每次根據 id 計算短碼的時(shí)候,如果發(fā)現對應的短碼被占用了,就從類(lèi)型為自定義的記錄里選取一條記錄,用它的 id 去計算短碼。

這樣既可以區分哪些長(cháng)連接是用戶(hù)自己定義還是系統自動(dòng)生成的,還可以不浪費被自定義短碼占用的 id

我保留了 1 到 2 位的 短碼,從三位的短碼開(kāi)始生成的。就像域名的保留域名一樣,好的要自己預留 :smirk:

欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽