日韩欧美亚洲国产,国产免费久久精品99re丫y,A,B,毛片免费观看,久久精品国产69国产精品亚洲,日本高清视频一区,欧美精品在线播放,久久国产一区二区

當(dāng)前位置:首頁(yè) >>消費(fèi)信息

網(wǎng)絡(luò)爬蟲(chóng)漫天抓取消費(fèi)者信息

2018年08月24日 11:18????信息來(lái)源:http://www.zj315.org/detail/2018-08-20/143995.html

北京消費(fèi)者付先生最近很郁悶,自從自己更新了簽證信息、團(tuán)購(gòu)了北京出發(fā)的機(jī)票,就不斷接到各種營(yíng)銷(xiāo)短信以及騷擾電話。“如果說(shuō)是偶然,那就是睜眼說(shuō)瞎話;如果說(shuō)是有些機(jī)構(gòu)泄露了我的個(gè)人隱私信息,我確實(shí)沒(méi)有證據(jù)。當(dāng)然,也有一種可能,那就是網(wǎng)絡(luò)爬蟲(chóng)所為,”對(duì)于自己的個(gè)人消費(fèi)信息的泄露,從事網(wǎng)絡(luò)信息安全十余年的付先生想到了三個(gè)泄露途徑:“管理部門(mén)不可能泄露;航空公司有泄露的可能,但有一定的風(fēng)險(xiǎn)和制約;網(wǎng)絡(luò)爬蟲(chóng)卻沒(méi)有這些負(fù)擔(dān),而且從技術(shù)上說(shuō)可以從容實(shí)施。”

那么,網(wǎng)絡(luò)爬蟲(chóng)到底是什么?為什么能從網(wǎng)絡(luò)上肆意抓取消費(fèi)者各種信息呢?

什么是網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng),顧名思義,其實(shí)就是一種“自動(dòng)化瀏覽網(wǎng)絡(luò)”的程序,按照一定的規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁(yè)、各類(lèi)文檔、圖片、音頻、視頻等,通過(guò)索引技術(shù)組織這些信息,根據(jù)需要快速地提供搜索結(jié)果等,是網(wǎng)絡(luò)搜索引擎收集網(wǎng)上信息的主要手段,也被稱(chēng)為網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人。

具體來(lái)說(shuō),互聯(lián)網(wǎng)上的網(wǎng)頁(yè)或網(wǎng)站如同一個(gè)個(gè)信息節(jié)點(diǎn),大量的網(wǎng)頁(yè)或網(wǎng)站通過(guò)超鏈接形成網(wǎng)狀結(jié)構(gòu)。消費(fèi)者在瀏覽網(wǎng)頁(yè)和點(diǎn)擊應(yīng)用時(shí),通過(guò)點(diǎn)擊網(wǎng)頁(yè)上的鏈接,從一個(gè)節(jié)點(diǎn)跳轉(zhuǎn)到下一個(gè)節(jié)點(diǎn),自然會(huì)在網(wǎng)絡(luò)上留下痕跡。網(wǎng)絡(luò)爬蟲(chóng)軟件程序,正是模擬了這一行為,只不過(guò)速度更快,跳轉(zhuǎn)的節(jié)點(diǎn)更全面,所以被形象地稱(chēng)為網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)絡(luò)蜘蛛。“網(wǎng)絡(luò)爬蟲(chóng)無(wú)處不在,最早的搜索引擎,正是基于這一技術(shù)。但是,現(xiàn)在很多所謂的網(wǎng)絡(luò)數(shù)據(jù)公司,通過(guò)爬蟲(chóng)技術(shù),在網(wǎng)絡(luò)上肆無(wú)忌憚地抓取用戶(hù)在門(mén)戶(hù)網(wǎng)站、電信運(yùn)營(yíng)商、電商網(wǎng)站以及QQ、微信等等社交軟件上的行為軌跡,甚至包括銀行征信報(bào)告、家庭水電氣消費(fèi)在內(nèi)的生活信息。”對(duì)于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的發(fā)展與現(xiàn)狀,從事網(wǎng)絡(luò)軟件平臺(tái)開(kāi)發(fā)十余年的山東青島某科技公司技術(shù)負(fù)責(zé)人崔先生并不陌生。

他解釋道:“抓到消費(fèi)者的網(wǎng)絡(luò)應(yīng)用信息并不難,也不奇怪,關(guān)鍵看用來(lái)干什么,正常進(jìn)行宏觀的網(wǎng)絡(luò)行為研究沒(méi)有什么問(wèn)題,但是有些數(shù)據(jù)公司會(huì)進(jìn)行所謂的二次開(kāi)發(fā)或深度開(kāi)發(fā),將其分割成客戶(hù)需要的成百上千個(gè)維度來(lái)進(jìn)行分析,然后變成具體的信息產(chǎn)品進(jìn)行銷(xiāo)售。也就是說(shuō),很多所謂的大數(shù)據(jù)技術(shù),就是讓消費(fèi)者個(gè)人信息更容易被獲取,被形成產(chǎn)品銷(xiāo)售,然后被濫用。”

據(jù)崔先生介紹,部分目的不良的數(shù)據(jù)公司通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取消費(fèi)者數(shù)據(jù)信息的目的無(wú)非有兩個(gè):一是把散布于網(wǎng)絡(luò)上的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為更容易被讀懂的信息,以便購(gòu)買(mǎi)相關(guān)數(shù)據(jù)的客戶(hù)可以更好地使用;二是根據(jù)目標(biāo)客戶(hù)的需求目標(biāo),制定多元化的分析維度,以適應(yīng)客戶(hù)需求的多變性和復(fù)雜性。

僅售3.8元的33頁(yè)精確信息

去年底,網(wǎng)絡(luò)曝出南方都市報(bào)記者通過(guò)隨機(jī)檢索,在一家名為探知數(shù)據(jù)的科技公司僅花了3.8元就買(mǎi)到了事關(guān)個(gè)人隱私、長(zhǎng)達(dá)33頁(yè)的詳細(xì)通訊信息報(bào)告,包括個(gè)人基本身份信息、近半年的通話記錄詳情、賬單消費(fèi)、出行信息和人脈關(guān)系等,并有詳細(xì)的量化評(píng)分,信息精確度非常之高,出行信息準(zhǔn)確定位到經(jīng)緯度、門(mén)牌號(hào)的居住地址等。

除此之外,該公司可提供的服務(wù)產(chǎn)品還包括電商、社保、公積金、央行和學(xué)信網(wǎng),查詢(xún)結(jié)果五花八門(mén),而且價(jià)格低得驚人:花費(fèi)1元錢(qián)即可抓取的淘寶數(shù)據(jù)量最多為25頁(yè)訂單數(shù)據(jù)、京東近3年的消費(fèi)數(shù)據(jù)……

“抓取這些數(shù)據(jù)并不難,一是部分網(wǎng)站安全意識(shí)不夠,或者防范能力不足,二是部分網(wǎng)站睜只眼閉只眼,有意無(wú)意地放任不良數(shù)據(jù)公司去抓取,可以輕松抓取到每一個(gè)消費(fèi)者使用過(guò)哪些地址網(wǎng)購(gòu),使用的頻率,消費(fèi)類(lèi)型和購(gòu)買(mǎi)金額等,甚至可以根據(jù)用戶(hù)需要,列出消費(fèi)類(lèi)型,比如教育類(lèi)占比多少、娛樂(lè)類(lèi)占比多少、生活用品占比多少,形成了一張消費(fèi)價(jià)格區(qū)間和消費(fèi)興趣和行為分布圖,”對(duì)于爬蟲(chóng)技術(shù)的實(shí)現(xiàn)能力,目前仍在為部分?jǐn)?shù)據(jù)公司提供爬蟲(chóng)技術(shù)服務(wù)的北京某信息公司負(fù)責(zé)人郭先生并不隱瞞:“消費(fèi)行為、消費(fèi)歷史記錄、金融支付信息、賬戶(hù)金額等等,都能輕松實(shí)現(xiàn),數(shù)據(jù)來(lái)源包括社交網(wǎng)站、網(wǎng)上銀行、網(wǎng)上營(yíng)業(yè)廳、航空公司、12306等等,都可以設(shè)立多個(gè)維度的數(shù)據(jù)整合模型。任何一個(gè)消費(fèi)者,只要消費(fèi)信息被上傳到網(wǎng)絡(luò)上,或者在網(wǎng)上消費(fèi),從衣食住行到生活社交各個(gè)層面,均可以毫不費(fèi)勁地被爬出來(lái),根據(jù)需要,進(jìn)行多維度分析。”

泄露途徑無(wú)法溯源

2017年6月1日起正式實(shí)施的《中華人民共和國(guó)網(wǎng)絡(luò)信息安全法》第二十二條明文規(guī)定,網(wǎng)絡(luò)產(chǎn)品、服務(wù)具有收集用戶(hù)信息功能的,其提供者應(yīng)當(dāng)向用戶(hù)明示并取得同意。第四十四條規(guī)定,任何個(gè)人和組織不得竊取或者以其他非法方式獲取個(gè)人信息,不得非法出售或者非法向他人提供個(gè)人信息。然而,在實(shí)際網(wǎng)絡(luò)應(yīng)用中,上述法令并未得到認(rèn)真落實(shí)。

以電商網(wǎng)絡(luò)流行的“貨比三家”為例:很多電商平臺(tái)都有自動(dòng)調(diào)價(jià)功能,其實(shí)正是通過(guò)爬蟲(chóng)程序掃描同類(lèi)網(wǎng)站商品的價(jià)格,針對(duì)性地展開(kāi)相應(yīng)的調(diào)整,從而取得價(jià)格優(yōu)勢(shì),為銷(xiāo)量提供保證。“其實(shí)不少實(shí)時(shí)比價(jià)工具,技術(shù)背景就是爬蟲(chóng)技術(shù),利用網(wǎng)絡(luò)爬蟲(chóng)獲取其他電商平臺(tái)的同款商品的價(jià)格、促銷(xiāo)、評(píng)論等商品信息,”對(duì)于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的實(shí)際應(yīng)用,從事電商網(wǎng)絡(luò)平臺(tái)和軟件開(kāi)發(fā)多年的北京某網(wǎng)絡(luò)技術(shù)公司負(fù)責(zé)人吳先生直言不諱地告訴記者:“目前各家網(wǎng)絡(luò)平臺(tái)都有自己的技術(shù)在用,十多年前就有了該自動(dòng)比價(jià)模式,底層技術(shù)就是爬蟲(chóng)。”

據(jù)吳先生介紹,其實(shí),在電子商務(wù)行業(yè),使用爬蟲(chóng)玩“貓捉老鼠”的游戲,是一個(gè)公開(kāi)的秘密。每個(gè)電商平臺(tái)一方面希望阻止競(jìng)爭(zhēng)對(duì)手抓取自己的網(wǎng)站,另一方面又想滲透對(duì)手的網(wǎng)站。盡管各大電商平臺(tái)都擁有各類(lèi)技術(shù)防范,但網(wǎng)絡(luò)爬蟲(chóng)數(shù)量還是令人震驚。除了競(jìng)爭(zhēng)對(duì)手外,更多來(lái)自越來(lái)越多涌現(xiàn)的數(shù)據(jù)公司,目的就是獲取消費(fèi)者信息,形成產(chǎn)品進(jìn)行銷(xiāo)售。

“很多消費(fèi)者可能接觸過(guò)一些類(lèi)似的比價(jià)平臺(tái)、聚合電商或返利平臺(tái)等等,大體原理都是一樣的,消費(fèi)者搜索一個(gè)商品或服務(wù),平臺(tái)就會(huì)自動(dòng)把各大電商的商品放在一起供消費(fèi)者選擇,其實(shí)就是爬蟲(chóng)技術(shù)的應(yīng)用。網(wǎng)絡(luò)爬蟲(chóng)在為消費(fèi)提供貨比三家等便利的同時(shí),不知不覺(jué)就收集了消費(fèi)者瀏覽記錄、消費(fèi)記錄、家庭位置等等信息,形成數(shù)據(jù)報(bào)告用于銷(xiāo)售,方便商家進(jìn)行有針對(duì)性的廣告投放等等,而且,消費(fèi)者根本無(wú)從知曉個(gè)人信息的泄露渠道,無(wú)法追查。”