<ul id="ouw02"></ul>
  • 首頁 > 綜合 > 正文

    環球快資訊:歷屆奧運會獎牌排行榜排名 數據整理分享

    2023-02-28 15:14:10來源:互聯網  

    摘 要在制作動態排序動畫之前,我們看一下數據的整理情況:

    a、對第1)種大部分數據的情況,先爬取下來,輸出到excel(1);

    b、對第2)種小部分數據的情況,也先爬取下來,輸出到另一個excel(2);


    【資料圖】

    c、對第3)種個別的,還有第31-32屆的數據,算了,別折騰了,手動復制粘貼到excel(3)吧。

    d、最后把這3個excel合并到一個excel,進行數據處理吧。

    二、數據處理經過1896-2021歷屆奧運會獎牌榜動態排序系列的數據處理(第二篇),我們得到了a數據:

    看到這張數據表,還有以下幾點需要調整:

    1、合并3個excel數據;

    2、標題、年份列順序調整到名次前;

    3、'國家'列名修改為'國家/地區';

    4、計算獎牌的合計數量;

    5、根據年份,計算各國的獎牌合計數排名。

    1)合并DataFrame:concat(),合并函數還有merge、join函數,有興趣可以進入以下鏈接進行學習()

    df1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)2)調賬列順序

    columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)3)列名修改

    df.rename(columns={'國家':'國家/地區'},inplace=True)4)計算獎牌合計

    df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']5)按年份,計算各國的獎牌合計數排名

    df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)另外,再對數據進行一些微調

    df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) 最終獲得我們的完整數據

    df.to_excel("./data/Olympic_final.xlsx")完整代碼如下:

    import pandas as pddf1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)df.rename(columns={'國家':'國家/地區'},inplace=True)df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']df.loc[df['年份']==1894,'年份'] = 1900df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) df.to_excel("./data/Olympic_final.xlsx")輸出結果:

    三、動態排序經過一系列的數據處理,終于可以驗證下勞動成果了。完整代碼如下:

    import pandas as pdimport randomimport matplotlib.pyplot as pltimport matplotlib.ticker as tickerimport matplotlib.animation as animationfrom IPython.display import HTMLimport matplotlibplt.rcParams['font.sans-serif']=['SimHei'] #顯示中文標簽plt.rcParams['axes.unicode_minus']=False #這兩行需要手動設置#防止動漫內存太大,報錯matplotlib.rcParams['animation.embed_limit'] = 2**128def randomcolor(): colorlist = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'] color ='' for i in range(6): color += random.choice(colorlist) return '#'+ colordf = pd.read_excel(./data/Olympic_final.xlsx")#對地區列表進行去重,分類;area_list1 = set(df['國家/地區'])# color_list用于存放隨機生成顏色代碼個數# 因為后面區域個數 要與顏色個數保持一致,這里用了len函數;color_list =[]for i in range(len(area_list1)): str_1 = randomcolor() color_list.append(str_1) str_1 = randomcolor() #area_list轉化為列表area_list_1 = [i for i in area_list1]#colors表示 所在城市:顏色 一一對應字典形式;colors =dict(zip(area_list_1,color_list))# 用plt加理圖表,figsize表示圖標長寬,ax表示標簽fig, ax = plt.subplots(figsize=(15, 8))#dras_barchart生成current_year這一年各城市人口基本情況;def draw_barchart(current_year): #dff對year==current_year的行,以”合計“降序排序,取前十名; dff = df[df['年份'].eq(current_year)].sort_values(by='合計',ascending = True).tail(10) # 所有坐標、標簽清除 ax.clear() #顯示顏色、城市名字 ax.barh(dff['國家/地區'],dff['合計'],color = [colors[x] for x in dff['國家/地區']]) dx = dff['合計'].max()/200 #ax.text(x,y,name,font,va,ha) # x,y表示位置; # name表示顯示文本; # va,ba分別表示水平位置,垂直放置位置; for i ,(value,name) in enumerate(zip(dff['合計'], dff['國家/地區'])): ax.text(value-dx,i,name,size=18,weight=600,ha ='right',va = 'bottom',color='#777777') ax.text(value+dx,i ,f'{value:,.0f}',size = 14,ha = 'left',va ='center') #ax.transAxes表示軸坐標系,(1,0.4)表示放置位置 ax.text(1,0.4,current_year,transform = ax.transAxes,color ='#777777',size = 46,ha ='right',weight=800) ax.text(0,1.06,'Olympic Medals',transform = ax.transAxes,size=12,color='#777777') #set_major_formatter表示刻度尺格式; ax.xaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}')) ax.xaxis.set_ticks_position('top') ax.tick_params(axis='x',colors='#777777',labelsize=12) ax.set_yticks([]) #margins表示自動縮放余額; ax.margins(0,0.01) # 設置后面的網格 ax.grid(which='major',axis='x',linestyle='-') #刻度線和網格線是在圖標上方還是下方,True為下方 ax.set_axisbelow(True) ax.text(0,1.15,'歷屆奧運會獎牌排行榜', transform=ax.transAxes,size=24,weight=600,ha='left',va='top') ax.text(1,0,'Officetouch制作',transform = ax.transAxes, size=16,color ='#777777',ha = 'right', bbox = dict(facecolor='white',alpha = 0.8,edgecolor='white')) #取消圖表周圍的方框顯示 plt.box(False)#draw_barchart(2008)#將原來的靜態圖拼接成動畫fig, ax = plt.subplots(figsize=(15, 8))animator = animation.FuncAnimation(fig, draw_barchart, frames=df['年份'].drop_duplicates(),interval = 1000)animator.save("./data/Olympic.gif", writer='pillow')輸出結果:

    結 語學習需要耐心和時間的投入,初學的時候可能需要投入比較多的時間和精力,但只要有這樣一個過程,你就會脫胎換骨,一點一滴的積累成就自己。

    1、數據采集-爬蟲;

    1896-2021歷屆奧運會獎牌動態排序動畫(Python數據分析實戰1)

    2、數據處理-數據清洗;

    1896-2021歷屆奧運會獎牌榜(Python數據處理)

    3、數據動態排序。(本篇文章)

    因為奧運數據連續性較差,如果我們分析一些連續性強的數據,如各國人口數據,動態排序的效果會好很多。

    標簽:

    相關閱讀

    精彩推薦

    相關詞

    推薦閱讀

    亚洲国产AV无码专区亚洲AV | 亚洲a∨国产av综合av下载| 亚洲欧洲国产成人综合在线观看| 亚洲精品中文字幕无乱码麻豆| 亚洲校园春色小说| 亚洲成a人片在线观看中文!!!| 亚洲成A人片在线观看WWW| 亚洲熟妇无码AV在线播放| 亚洲日韩乱码中文无码蜜桃臀网站| 伊人婷婷综合缴情亚洲五月| 国产亚洲精午夜久久久久久| 国产亚洲精品免费视频播放| 亚洲人成网77777亚洲色| 亚洲国产精品特色大片观看完整版| 国产亚洲人成网站观看| 亚洲熟妇丰满多毛XXXX| 亚洲AV综合色区无码一区| 亚洲av丰满熟妇在线播放| 久久久久亚洲av无码专区导航| 亚洲蜜芽在线精品一区| 亚洲区视频在线观看| 久久久久亚洲国产| 国产AV无码专区亚洲AV麻豆丫 | 亚洲VA中文字幕无码毛片 | 国产亚洲精品91| 国产精品亚洲w码日韩中文| 国产亚洲色视频在线| 久久夜色精品国产亚洲AV动态图| 亚洲国产天堂久久综合网站| 亚洲日产2021三区| 国产AV旡码专区亚洲AV苍井空| 亚洲av无码片vr一区二区三区 | 日韩精品一区二区亚洲AV观看| 亚洲日本乱码一区二区在线二产线| 亚洲一卡二卡三卡四卡无卡麻豆| 亚洲一卡2卡3卡4卡5卡6卡| 爱情岛亚洲论坛在线观看| 中文字幕人成人乱码亚洲电影| 亚洲第一福利视频| 亚洲欧洲日韩国产一区二区三区| 亚洲AV无码国产精品永久一区|