天天躁日日躁狠狠躁AV麻豆-天天躁人人躁人人躁狂躁-天天澡夜夜澡人人澡-天天影视香色欲综合网-国产成人女人在线视频观看-国产成人女人视频在线观看

匹配csdn用戶數(shù)據(jù)庫(kù)與官方用戶的重合度并將重疊部分的用戶篩選出來(lái)

過(guò)程:
1、獲取csdn的用戶數(shù)據(jù)庫(kù)導(dǎo)入本地
試用editplus打開提示內(nèi)存不足,沒(méi)找到辦法,同事的linux下查看了一下,基本的格式如下:
用戶名 # 密碼 # 郵箱
用戶名 # 密碼 # 郵箱
相應(yīng)數(shù)據(jù)結(jié)構(gòu):
復(fù)制代碼 代碼如下:
CREATE TABLE IF NOT EXISTS `csdn_userdb` (
  `id` int(10) NOT NULL auto_increment,
  `username` varchar(50) character set gbk NOT NULL,
   `password` varchar(50) character set gbk NOT NULL,
  `email` varchar(50) character set gbk NOT NULL,
   PRIMARY KEY (`id`),
  KEY `username` (`username`),
  KEY `email` (`email`)
  ) ENGINE=MyISAM DEFAULT CHARSET=gbk AUTO_INCREMENT=1 ;

一直懷疑fopen打開文件是寫入緩存的,但是實(shí)踐證明速度很快,應(yīng)該是沒(méi)有寫入緩存,以下為導(dǎo)入數(shù)據(jù)的代碼
復(fù)制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle = fopen("C:/Users/zhudong/Desktop/www.csdn.NET.sql", "r");
while (!feof($handle)){
$i++;
$buffer = fgets($handle);
list($u,$p,$e) = explode(" # ",$buffer);
mysql_query("INSERT INTO csdn_userdb(username,password,email) VALUES ('$u','$p','$e')",$link);
if ($i%1000 == 0) echo $i."/n";
}
fclose($handle);
?>

以上代碼效率非常差,故做修改后代碼如下:
復(fù)制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle = fopen("C:/Users/zhudong/Desktop/www.csdn.NET.sql", "r");
$perpage = 50;
while (!feof($handle)){
$i++;
$buffer = fgets($handle);
list($u,$p,$e) = explode(" # ",$buffer);
$insertValue[] = "('$u','$p','$e')";
if ($i% $perpage == 0){ $perpage == 0){
$instrtValueString = implode(',',$insertValue);
mysql_query("INSERT INTO csdn_userdb(username,password,email) VALUES $instrtValueString",$link);
echo $i."/n";
$insertValue = array();
}
}
fclose($handle);

為了搞清楚有那些因素對(duì)導(dǎo)入數(shù)據(jù)的效率產(chǎn)生影響,故根據(jù)不同的設(shè)置進(jìn)行了測(cè)試
CSDN用戶總數(shù)據(jù) 6428600
當(dāng)$perpage=500;導(dǎo)入后數(shù)據(jù):5,902,000;數(shù)據(jù)丟失526600 丟失率:8%;數(shù)據(jù)表引擎:MyISAM;索引:有;總耗時(shí) :15分鐘
當(dāng)$perpage=200,導(dǎo)入后數(shù)據(jù)總數(shù):6,210,200;數(shù)據(jù)丟失:218400;丟失率:3.3%;數(shù)據(jù)表引擎: MYISAM ;索引:有;總耗時(shí):30分鐘
當(dāng)$perpage=200,導(dǎo)入后數(shù)據(jù)總數(shù):6,210,200;數(shù)據(jù)丟失:218400;丟失率:3.3%;數(shù)據(jù)表引擎:INNODB;索引:有;總耗時(shí):65分鐘
當(dāng)$perpage=200,導(dǎo)入后數(shù)據(jù)總數(shù):6,210,200;數(shù)據(jù)丟失:218400;丟失率:3.3%;數(shù)據(jù)表引擎:MYISAM;索引:無(wú);總耗時(shí):14分鐘(數(shù)據(jù)導(dǎo)入完畢后單獨(dú)再建索引)
當(dāng)$perpage=50,導(dǎo)入后數(shù)據(jù)總數(shù):6,371,200;數(shù)據(jù)丟失:57400,丟失率:0.8%;數(shù)據(jù)表引擎:MYISAM;索引:無(wú):總耗時(shí):20分鐘
根據(jù)以上情況總結(jié)如下:
1、先導(dǎo)入數(shù)據(jù)后加索引的效率要比先加索引后導(dǎo)入數(shù)據(jù)的高一倍
2、InnoDB 在單進(jìn)程數(shù)據(jù)插入上的效率要比MYISAM低很多
3、當(dāng)perpage=50的情況下數(shù)據(jù)丟失率在1%以下
復(fù)制代碼 代碼如下:
因?yàn)橥ㄟ^(guò)瀏覽器執(zhí)行會(huì)有超時(shí)的問(wèn)題,而且效率地下,故通過(guò)命令行方式運(yùn)行,此過(guò)程中遇到一點(diǎn)小麻煩耽擱了不少時(shí)間
起初我執(zhí)行如下代碼:
php.exe E:/usr/www/importcsdndb.php
但是一直報(bào)錯(cuò):call to undefined function mysql_connect
折騰發(fā)現(xiàn)沒(méi)有載入php.ini
正確代碼為:
php.exe -c E:/usr/local/apache2/php.ini importcsdndb.php

2、導(dǎo)入需要匹配的用戶數(shù)據(jù)數(shù)據(jù)至本地
命令行進(jìn)入msyql(不會(huì)的自己百度)
然后執(zhí)行:mysql>source C:/Users/zhudong/Desktop/userdb.sql
3、對(duì)比篩選用戶
對(duì)比程序?qū)懞昧耍杏浽诿钚邢逻\(yùn)行:
復(fù)制代碼 代碼如下:
<?php
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle_username = fopen("E:/records_username.txt","a");
//$handle_email = fopen("E:/records_email.txt","a");
$username_num = $email_num = $uid = 0;
while ($uid<2181106) {
$nextuid=$uid+10000;
$query = mysql_query("SELECT * FROM pw_members WHERE uid>'$uid' AND uid<'$nextuid'");
while ($rt = mysql_fetch_array($query,MYSQL_ASSOC)) {
$username = $rt['username'];
$email = $rt['email'];
$query2 = mysql_query("SELECT * FROM scdn_userdb WHERE username='$username' OR email='$email'");
while ($rt2 = mysql_fetch_array($query2,MYSQL_ASSOC)) {
if ($rt['password'] = md5($rt2['password'])) {
if ($rt2['username'] == $username) {
$username_num++;
fwrite($handle_username,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt2['username'].'|'.$rt2['password'].'|'.$rt2['email']."/r/n");
echo 'username_num='.$username_num."/r/n";
continue;
}
/*
if ($rt2['email'] == $email) {
$email_num++;
fwrite($handle_email,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt2['username'].'|'.$rt2['password'].'|'.$rt2['email']."/r/n");
echo 'email_num='.$email_num."/r/n";
}
*/
}
}
mysql_free_result($query2);
}
$uid = $nextuid;
}
?>

您看到的以上的代碼是非常蹩腳的,因?yàn)槠湫侍貏e低 ,幾百萬(wàn)的數(shù)據(jù),要跑10多個(gè)小時(shí),怎么能忘記連表查詢這么基本的東西呢,以下為修正后的方法
復(fù)制代碼 代碼如下:
$link = mysql_connect('localhost', 'root', 'admin', true);
mysql_select_db('csdn',$link);
$handle_username = fopen("E:/records_username.txt","a");
while($uid<2181106) {//此處的數(shù)字為要對(duì)比用戶庫(kù)的最大ID
$nextuid= $uid+10000;
$query = mysql_query("SELECT m.uid,m.username,m.password,m.email,u.password as csdn_password,u.email as csdn_email FROM own_members m LEFT JOIN csdn_userdb u USING(username) WHERE m.uid>'$uid' AND m.uid<='$nextuid' AND u.username!=''");
while ($rt = mysql_fetch_array($query,MYSQL_ASSOC)) {
if ($rt['password'] == md5($rt['csdn_password'])) {
$username_num++;
fwrite($handle_username,'OWN:'.$rt['uid'].'|'.$rt['username'].'|'.$rt['password'].'|'.$rt['email'].' CSDN:'.$rt['username'].'|'.$rt['csdn_password'].'|'.$rt['csdn_email']."/r/n");
echo 'username_num='.$username_num."/r/n";
}
}
$uid = $nextuid;
echo 'uid='.$uid;
}
?>

總對(duì)比時(shí)間25分鐘,相比較之前10多個(gè)小時(shí)的執(zhí)行真是大有提升
總重名用戶:34175
占總會(huì)員比例:1.7%
1.7%的重名用戶還是挺嚴(yán)重的,希望本文對(duì)各位站長(zhǎng)對(duì)比出本站的用戶有所幫助

php技術(shù)匹配csdn用戶數(shù)據(jù)庫(kù)與官方用戶的重合度并將重疊部分的用戶篩選出來(lái),轉(zhuǎn)載需保留來(lái)源!

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 成人免费看片45分钟 | 国产小视频国产精品 | 日韩吃奶摸下AA片免费观看 | 国语自产拍大学生在线观看 | 国产伊人自拍 | 亚洲在线中文无码首页 | 51久久成人国产精品麻豆 | 一级am片欧美 | WWW国产亚洲精品久久 | 成人无码在线视频区 | 穿白丝袜边走边尿白丝袜 | 色婷婷狠狠97成为人免费 | 日日摸夜添夜夜夜添高潮 | 拉菲娱乐主管高工资q39709 | 日韩精品久久日日躁夜夜躁影视 | 国产午夜人成在线视频麻豆 | 俄罗斯bbbbbbbbb大片 | 一个人免费完整在线观看影院 | 国产精品免费小视频 | 四虎影视永久无码精品 | 国产Av影片麻豆精品传媒 | 伦理片a在线线2 | 曰本aaaaa毛片午夜网站 | 国产高清视频在线播放www色 | av天堂网2017avtt | 野草视频在线观看 | 国产二区自拍 | 2021国产精品视频一区 | 亚洲免费人成在线视频观看 | 亚洲AV无码乱码国产精品品麻豆 | 夜夜艹日日干 | 4480yy午夜私人影院 | 970女主播电台歌曲 97 sese | 国产人妻久久久精品麻豆 | 青青涩射射| 亚洲成在人线视频 | 日本不卡免免费观看 | 日美一级毛片 | 色婷婷综合久久久中文字幕 | 我的好妈妈8高清在线观看WWW | 欧美白人极品性喷潮 |