收集數據對服務(wù)器的各種配置要求很高具體要視實(shí)際情況而定。根據收集的數據量或收集的數據類(lèi)型,適當的服務(wù)器配置彼此相距甚遠。租用獨立服務(wù)器是最便宜有效的。租獨立服務(wù)器更便宜更穩定,配置可以隨時(shí)調整。那么收集數據對服務(wù)器配置有什么要求呢?
1、收集數據占用的帶寬也很高。其實(shí)收集數據相當于把數據從數據源下載到本地的過(guò)程,所以帶寬越大收集速度會(huì )越快相應的效率就會(huì )越高。需要注意收集用的服務(wù)器和一般網(wǎng)站用的服務(wù)器是差別不大的,收集需要占用大量的下行帶寬,和網(wǎng)站服務(wù)器正好相反。
2、配置高帶寬大的服務(wù)器,還有擺在我們面前的就是IP解決方案的問(wèn)題。理論上收集相關(guān)數據一個(gè)IP就夠了。應該考慮到現在大多數網(wǎng)站都限制單個(gè)ip的高頻訪(fǎng)問(wèn)和下載。想要快速高效持續地在一個(gè)網(wǎng)站上收集數據,就必須不斷地切換IP。最好的解決方案是使用多ip服務(wù)器。一般多IP服務(wù)器可以提供幾十個(gè)甚至上百個(gè)不同的獨立公網(wǎng)IP。我們在收集程序中只需要添加一個(gè)代碼來(lái)切換出口IP,完美解決了IP限制的問(wèn)題。
3、收集數據是要很高的服務(wù)器配置,打開(kāi)更多收藏后,會(huì )給內存和CPU帶來(lái)很大壓力。在用低分配服務(wù)器收集的過(guò)程中,經(jīng)常會(huì )出現CPU滿(mǎn)或者內存不足的情況。開(kāi)放的集合越多內存越大cpu線(xiàn)程越多。大量收集的數據需要占用大量硬盤(pán)空間才能保存。所以收集數據對服務(wù)器的硬件配置要求很高,CPU、內存、硬盤(pán)都要慎重考慮。有不懂的請咨詢(xún)了解。
什么是數據采集?
數據采集是大數據的基石,不論是現在的互聯(lián)網(wǎng)公司,物聯(lián)網(wǎng)公司或者傳統的IT公司,每個(gè)業(yè)務(wù)流程環(huán)節都會(huì )產(chǎn)生大量的數據,同時(shí)用戶(hù)操作的日志也會(huì )產(chǎn)生大量的數據,為了將這些結構化和非結構化的數據進(jìn)行采集,我們必須要有一套完整的數據采集方案流程,為后續的數據分析應用提供數據基礎。根據不同業(yè)務(wù)場(chǎng)景,對于數據采集的時(shí)效性要求也是不一樣的,一般分為離線(xiàn)數據采集和實(shí)時(shí)數據采集。
離線(xiàn)數據采集
離線(xiàn)數據采集主要包括從數據庫中采集,如MySQL、Oracle、MongoDB等;從離線(xiàn)文件采集,如外部系統數據。每天凌晨會(huì )抽取前一天的數據(T+1),對于維度數據一般采用每次全量采集,對于業(yè)務(wù)數據,為了提高采集效率,同時(shí)也為了保住業(yè)務(wù)數據庫的穩定性,采用每天增量采集,然后將T+1的數據合并成新的全量數據。對于關(guān)系型數據庫,如MySQL,一般是有主從數據庫的,為了保住穩定和不影響主庫的查詢(xún)性能,我們一般抽取從庫數據。對于文件數據抽取前需要先檢測文件是否存在,源系統提供文件的時(shí)候需要提供對應的校驗文件,校驗文件里一般包含文件的記錄數、字段格式等信息。采集到文件后需要對文件進(jìn)行校驗,文件完整的情況下才能繼續后續數據處理程序。