一套價值十萬的微信公眾號采集解決方案(免費送)_世足賽主辦國

核心提示1 整體概述編寫目的本文主要用于描述微信采集過程中,各流程節點的解決方案。詳細介紹了采集架構、手機號購買注意事項、微信注冊注意事項、微信號養號注意事項、公眾號采集方式,以及采集過程中遇到的問題等。1.2 整體架構微信數據采集主要分為四個階段 1 整體概述編寫目的本文主要用于描述微信采集過程中,各流程節點的解決方案。詳細介紹了采集架構、手機號購買注意事項、微信注冊注意事項、微信號養號注意事項、公眾號采集方式,以及采集過程中遇到的問題等。1.2 整體架構微信數據采集主要分為四個階段:一、采集準備階段:手機、手機號、XPosed插件、手機支架、HUB集線器、智能插座等;二、公眾號處理階段:公眾號收集、公眾號添加、公眾號管理等;三、文章采集階段:文章鏈接URL獲取、解析、正文分布式采集等;四、數據存儲階段:文章URL數據、文章正文數據等。大致框架如下圖1-1所示:2 資源準備微信采集主要需要手機和手機號,但由于需要大批量采集,手機的統一管理尤為重要。所以,同時需要手機支架、HUB集線器及智能插座等輔助設備,同時需要一個6.5~7.8平方米的空間。下面是對各個設備的配置等作以詳細的說明。2.1 手機購買由于使用XPosed插件進行采集,所以對手機本身本身硬件要求較高,為了保證采集正常,手機不出現卡死、假死等現象,需要手機內存最低2G,操作系統版本要求為Android 5.X及以上版本。同時,為了降低充電的次數,減少電池損耗,盡量選擇待機長的機型。綜合以上幾個因素,手機每臺費用在400-600元之間。注意事項:最好購買有“永不鎖屏”設置的手機,因為在鎖屏狀態下無法接收到微信公眾號自動推送的信息。2.2 號碼購買手機號購買注意事項:1. 一定要用4G網絡,最好用電信號的。2. 注冊手機號不能連號,相鄰手機號碼之差的絕對值至少大于2000,可相同號段號碼不同時間注冊降低封號風險。3. 號碼需要不同號段5. 不要在市面上去買什么免實名卡,0 月租卡,大部分是騙子或者無法長期使用。6. 建議買實名電話卡,一個身份證在一家電信業者可辦理5卡。也可以直接購買流量卡。但是如果微信異區域資格賽常或封號,解封沒有手機號就比較麻煩了。2.3 手機支架由于微信采集需要使用大量的手機,且手機需要長時間處于非鎖屏狀態,需要長時間充電、散熱、封號處理等。所以,手機的統一管理就顯得尤為重要。如下圖2-1所示,需要特定的支架,用于安放手機,方便手機的管理、充電、微信號異常處理等。2.4 HUB集線器由于整體采集使用的手機較多,每個手機通過獨立的插座轉接頭的方式進行充電、USB鏈接等比較麻煩,不易于管理。所以,需要使用HUB集線器進行統一管理,如下圖2-2、2-3所示,目前,市場上20個USB口的HUB大概在250-400元;30至32個USB口的HUB在400~550元2.5 智能插座由于采集使用的手機較低端,硬件質量較差,電池使用時間過長或者長期充電,容易導致手機電池鼓包,存在較大的安全隱患。所以,使用智能插座可以在每周的固定時間,統一給手機充電N小時,然后自動斷電,依次循環往復。如下圖2-3所示。其中智能插座的費用大概在:50~150元之間。2.6 人員需求需要一名運維人員專門負責采集監控、手機監控、微信號監控、微信號解封等。3 公眾號采集3.1 監測范圍根據目前了解到的市面上微信采集情況,一個比較完善微信采集平臺,每天需要處理的大概任務量如下所示:① 每天活躍的公眾號數:45-50萬/天② 每天的文章總量:90-110萬篇/天③ 每天的點贊閱讀數:30萬次/天④ 每天的評論總數:30萬條/天⑤ 每天新增公眾號總數:5000個/天每個微信號最多只能關注1000個公眾號。所以,需要450~500個微信號。微信一般的封號概率在20%左右,為了保證采集的穩定性,需要多出100個左右的微信號作為備用。3.2 采集方式3.2.1 目前情況目前微信采集主要有以下三種方式:通過微信PC版采集,在電腦正常登陸微信PC版后,通過模擬鼠標鍵盤操作的方式來進行采集。該方式硬件投入較大。通過微信網頁版采集,直接調用程序掃碼登錄微信網頁版,登錄后,微信關注的微信公眾號,有新的信息推送到微信時,程序會自動獲取推送信息。該方式下微信連接容易中斷,無法保證采集的穩定性。直接通過VirtualXposed監控微信。這種方式是程序直接裝在手機上,自動攔截推送的信息。通過分析攔截的數據包,解析出有用的數據。該方式成本相對較低,且穩定性較好。經過各方面比對,最終選取第三種方式,也就是直接通過VirtualXposed監控微信APP發出和接收的所有請求數據包,對其進行解析,分析出符合要求的文章鏈接。3.2.2 備用方案由于使用VirtualXposed攔截微信推送信息的方式,會對微信客戶端進行篡改,騰訊有可能升級技術,導致VirtualXposed插件無法再使用。或者,騰訊能通過技術準確的檢測手機是否安裝了VirtualXposed插件,從而大量封號,導致采集無法穩定進行。目前了解到的可行的備用方案有以下幾種方式:使用3.2.1中的第二種方式。該種方式需要微信號在2017年10月份以前注冊,否則無法登陸網頁版;使用AnyProxy抓包的方式。該種方式對技術要求較高,目前尚未進行詳細的測試。3.3 采集流程微信采集整體流程如下圖3-1所示:其中主要分為三部分:1) 公眾號的收集與添加;2) 文章URL獲取與解析;3) 正文分布式采集;3.3.1 公眾號收集與添加公眾號收集可以通過以下步驟進行處理:1) 遍歷ES中八友歷史數據,解析文章正文中存在世界盃f組的公眾號信息,并保存數據;2) 根據項目關鍵詞,通過搜狗微信公眾號搜索,進行搜索解析并保存入庫;3) 特殊需求的公眾號由各個項目自行提供;微信公眾號添加詳見4.3節。3.3.2 文章URL獲取與解析微信文章URL處理流程如下圖3-2所示:3.3.3 正文采集文章正文處理流程如下圖3-3所示:3.4 數據存儲微信采集過程中的數據存儲主要分為三塊,賓果賓果玩法一是微信號和公眾號的存儲;二是公眾號文章列表的存儲;三是文章正文信息的存儲。各個模塊的存儲詳見下述介紹。3.4.1 微信號存儲3.4.2 公眾號存儲3.4.3 文章URL存儲在每個微信關注的公眾號推送文章后,通過手機中安裝的VirtualXposed插件,獲取接收到的數據包,然后把數據包+手機號,一同發送到Redis接口,接口對數據包進行解析,把文章URL數據存放到Redis集群中。根據八友微信接口每日的數據量分析,微信全娛樂 城 賺錢量采集時需要處理的比較活躍的公眾號在40~50萬個,每天文章量在80~120萬左右。為了便于管理,計劃在Redis集群中,每天生成一個hash類型的緩存表,表名格式為:WeChat_yyyyMMdd,其中數據格式為key=URL,value=當前添加時間。3.4.4 采集歷史記錄存儲微信文章通過分布式方式進行,每個采集腳本請求Redis接口服務,獲取一定量的文章URL,然后采集正文,推送到kafka中。同時,請求過的URL信息,Redis接口會把信息從WeChat_yyyyMMdd緩存中刪除,并保存到采集歷史緩存中。hash類型的緩存表表名格式為:WeChat_History_yyyyMMdd,如下圖3-2所示。其中key=URL,value=請求時的當前系統時間。3.5 采集監控整個采集流程中需要監控的節點主要為:XPosed插件;Redis接口服務接收和解析、入庫;正文采集。具體處理如下:3.5.1 XPosed監控主要分為兩部分,一是XPosed插件自身的監控,防止長時間運行導致死機等;二是XPosed數據包發送。XPosed插件:自身缺陷機長時間運行,導致的死機等現象,目前尚未找到好的處理方式,只能通過重啟插件或手機;XPosed數據包:數據包異常主要體現在調用Redis集群接口服務時,需要在接口服務異常的情況下,把獲取到的數據推送到數據庫或寫到文件里,當接口服務正常時重新發送。3.5.2 Redis接口服務監控主要監控XPosed數據包解析和保存另兩個步驟,在出現異常時把數據寫到本地文件,待正常時重新進行二次處理。3.5.3 正文采集監控正文采集監控點主要包括:已采集URL記錄、正文源碼下載、正文解析,以及信息推送kafka等四部分。① 已采集URL記錄在歷史信息表中,保留一個月,用于對采集異常的追溯;② 正文源碼下載:記錄請求狀態碼;③ 正文解析:記錄解析狀態;0:成功;1:失敗;④ 信息推送:推送異常數據保存在本地文件,待服務正常時進行二次推送。如果一條信息推送三次均未成功,則表示推送失敗,同時刪除內容。同時,需要監控服務器IP被封的情況;3.5.4 新增公眾號監控目前有些網站有公眾號的搜索功能,前期可以使用項目相關的關鍵詞在這些網站上進行搜索,獲取部分新注冊的公眾號。搜索平臺如下表3-1:搜狗微信公眾號搜索推信網微信公眾號推薦聚微信4 采集運維管理微信公眾號數據的采集運維工作,主要體現在微信號的注冊、養號、解封等工作上,至于微信文章的采集,基于現有的服務器,使用分布式可以較容易的進行處理。在微信號前期注冊和養號期間,計劃分配到數據管理中心各人員,作為一個KPI加分指標。由各人員在家中或者上下班路上,進行微信號注冊、養號等。4.1 微信注冊由于微信號的監管逐步加強,新注冊的微信號被封的概率較大,所以微信號在注冊時需要追尋一定的規則,具體注意事項如下:① 注冊請用官微,不要用那些多開軟件注冊② 使用4G網絡,千萬不要用wifi,不要開GPS。同一個Wifi或GPS多個微信號注冊,相當容易被封號的。③ 每個手機必須提前存3-5個手機號進去,注冊成功的時候,可以直接加上微信好友④ 選擇不同位置注冊,可使用不同出行方式,每次注冊的距離大于1.5km,每次注冊間隔時間大于10分鐘,最好分開時間段注冊,盡量一批號不要是同一天,最好是分散到 3-5 天注冊完成。⑤ 注冊時如果5分鐘之內收不到驗證碼,先暫停該號碼注冊,不要頻繁發送驗證碼⑥ 隨意關注幾個公眾號⑦ 注冊后一定先自己任意使用微信,之后注冊其他號完成后也要使用一下之前注冊的微信⑧ 注冊之后不能將手機關閉⑨ 新微信號注冊,密碼不要一樣。建議采用:相同字符+手機號的形式,也比較容易記。⑩ 個人資料的地區一定不要填寫,因為一點開就開始獲取位置了,這個記錄寧可不讓微信知道。個人資料不要一次性全部填完,每天填一點,分批填寫,可以增加活躍的權重。  設置頭像,注意,頭像圖片必須每張都不一樣,如果一定需要設置同樣的頭像,請通過制圖軟件修改圖片的大小,亮度等,另存成不同的圖片,這樣對于微信系統來說,可以繞過一定的檢測。 名字最好多個號都不一樣 。現在有專門賣微信號,買回來以后就可以使用,不過為了安全起見,還是建議登錄一周,期間發一些朋友圈,或加一些微信,每天隨便聊幾句,這樣可以降低異常概率4.3 公眾號添加由于每個微信號每天最多只能關注40-50個公眾號,同時為了保證微信號的穩定性,需要公眾號的添加分布在不同時間、不同地點。可以所有采集相關人員參與,同時根據實際情況做出相應的獎罰。具體實施步驟如下: 根據手機編號,把每一部手機分配到人; 根據時間節點,合理安排每人每日需要處理的微信號 通過自動腳本,給每個人當天負責的每個微信號上,通過聊天的方式,給每個微信號發送需要關注的40~50個公眾號文章; 相關人員在辦公室、上下班或者家中,添加微信接收到的文章的公眾號為關注;按上述方式,每天可以添加公眾號:2400~3000個【5*40~50*12】。40~50萬個公眾號最快需要123個工作日可以通過獎懲的方式,鼓勵相關人員進行處理,加快進度。具體如下:① 每周每人需正歐洲盃預測常關注1200個,每多關注1000個獎勵200元。② 如果未達到正常關注數量,當月考核降一級。4.4 微信號解封4.4.1 導致封號的情況① 平時微信會封禁的賬戶類型。② 添加好友過于頻繁,尤其是新號,必封!③ 微信信息發布中出現累計超過10次的敏感詞語包含:支付寶、銀行、銀行卡、匯款、打款、打錢、帳號、帳戶、轉帳、網銀、多少錢、怎么賣、價格”會被封號,或提醒賬號有風險④ 微信發送的內容被好友