亚洲韩日午夜视频,欧美日韩在线精品一区二区三区,韩国超清无码一区二区三区,亚洲国产成人影院播放,久草新在线,在线看片AV色

您好,歡迎來到思海網絡,我們將竭誠為您提供優質的服務! 誠征網絡推廣 | 網站備案 | 幫助中心 | 軟件下載 | 購買流程 | 付款方式 | 聯系我們 [ 會員登錄/注冊 ]
促銷推廣
客服中心
業務咨詢
有事點擊這里…  531199185
有事點擊這里…  61352289
點擊這里給我發消息  81721488
有事點擊這里…  376585780
有事點擊這里…  872642803
有事點擊這里…  459248018
有事點擊這里…  61352288
有事點擊這里…  380791050
技術支持
有事點擊這里…  714236853
有事點擊這里…  719304487
有事點擊這里…  1208894568
有事點擊這里…  61352289
在線客服
有事點擊這里…  531199185
有事點擊這里…  61352288
有事點擊這里…  983054746
有事點擊這里…  893984210
當前位置:首頁 >> 技術文章 >> 文章瀏覽
技術文章

Linux shell腳本區別內容相同的文件

添加時間:2011-5-24  添加: admin 

以前使用'網絡蜘蛛'抓取了不少文件.但后來發現這些文件中有很多是內容完全相同的,如何只保留一份內容相同的文件而把其它相同的去除掉哪?我使用了linux shell腳本處理這個問題:

for file in *        #遍歷文件
do
    if ! [ -f "$file" ] #如果文件存在的話,因為有的文件可能被剔除了.
    then
            echo $file" not exist"
    else
            for i in *
            do   
                if  [ "$file" != "$i" ]    #如果文件名不同
                then
                    if  cmp -s $file $i
                    then
                        mv $i ../same/
                    fi
                fi
            done
            mv $file ../unique/
    fi
done

我一共處理4000多個文件,運行的挺慢的,用了1天零2夜才處理完,我汗,竟剔出了近2000,我再汗.

為了提高效率,后來考慮只對文件大小相同的文件才進行比較.腳本如下:

for file in *        #遍歷文件
do
    if ! [ -f "$file" ] #如果文件存在的話,因為有的文件可能被剔除了.
    then
            echo $file" not exist"
    else
             leno=`ls -l $file | awk '{print $5}'`    #使用ls和awk提出文件大小
             for i in *
             do
                leni=`ls -l $i | awk '{print $5}'`
                if  [ "$file" != "$i" -a "$leno" = "$leni" ]    #如果文件名不同,并且文件大小相同
                then
                    if  cmp -s $file $i
                    then
                        mv $i ../same/
                    fi
                fi
            done
            mv $file ../unique/
    fi
done

找了一小部分文件測試了一下,速度竟比第一個還慢,可能是頻繁調用ls和awk的問題.
先到此,如果有更好的辦法,再作補充.

關鍵字:腳本、文件、shell

分享到:

頂部 】 【 關閉
版權所有:佛山思海電腦網絡有限公司 ©1998-2024 All Rights Reserved.
聯系電話:(0757)22630313、22633833
中華人民共和國增值電信業務經營許可證: 粵B1.B2-20030321 備案號:粵B2-20030321-1
網站公安備案編號:44060602000007 交互式欄目專項備案編號:200303DD003  
察察 工商 網安 舉報有獎  警警  手機打開網站