使用cmd命令簡化語料提取步驟
這篇專欄對各位看官的用處不大,只用於項目組組內交流。
大家好~,我是被@iGuo從他的另一個項目挖過來的15級大二老萌新,說是挖過來的,並不是因為咱有什麼特殊技能,而是iGuo說我有解決問題的能力(其實我只是嫌棄另一個項目的工作太繁瑣,想偷懶而已,手動滑稽)。
今天要給大家介紹的是我在iGuo的另一個項目所做的工作。
首先先介紹一下項目吧,項目名:管理層語料挖掘項目,這個項目用文本挖掘技術來分析公司管理層語料,從而達到預測公司業績的目的。
簡單來說,就是用爬蟲從信息披露網站上下載上市公司的財務報告,先提取其中的董事會報告部分,然後用文本挖掘技術分析董事會報告,挖掘其中的信息,來獲取公司管理層對公司業績的評估,從而來預測公司將來的業績。
項目的第一階段下載財報已經完成,項目目前處在第二階段——語料提取。
語料提取,就是複製粘貼財報中的董事會報告部分,然後保存到txt文件中。這是個苦力活T_T。
當時我是作為RA(研究助理)加入這個項目的,分配給每個RA的任務是提取500份財報中的董事會報告部分。提取一份財報里的語料的步驟如下gif圖所示,需要大約44秒的時間,500份就是44×500÷60÷60≈6小時。用文字來概括步驟就是:
天啊,500份,讓不讓人活啦。於是我就想著能不能簡化這個語料提取的步驟。提取步驟中最耗費時間的是複製文件名然後命名txt文件和選擇編碼的過程,經過簡化方法後達到的效果如下。一份的所需時間是21秒,500份就是21×500÷60÷60≈3小時。(我的方法中用到了notepad++,因為notepad++能在一個窗口下打開多個txt文件,並且能一次性全部保存,也能夠節約時間。)
比起原本的步驟縮短了一半的時間。項目一共有26000份的報表,大概可以節約156小時,6天半。
節約了好多時間有沒有!偷懶成功!
那麼我是如何簡化提取步驟的呢?大致思路如下:
保存步驟notepad++已經解決了,選擇編碼則可以新建txt文件,保存為需要的編碼,然後採用複製粘貼,就能快速得到500個空白的、編碼符合要求的txt文件了,最關鍵的重命名步驟,我則是使用了dos命令來實現。
win+R 呼出運行窗口,輸入cmd啟動cmd.exen
盤符:= 切換盤符 例如:d:n
cd 目錄 = 切換目錄 例如:d:語料提取項目txtn
dir/b = 顯示當前目錄下所有文件名(包括擴展名) nnon = 按字母順序顯示 n n>list.xls = 排成一列,並且用xls格式保存n例如:d:語料提取項目txtndir/b/on>list.xls 可以實現:將txt目錄下的所有文件的文件名按字母順序排序,並創建list.xls,將文件名在list.xls中排成一列n
ren A B = 用B的文件名替換A的文件名,ren是一個bat命令,只對bat文件所在目錄起作用。n
操作步驟如下:
以上就是我在管理層語料提取項目所做的簡化工作啦。(操作中還有一些細節,不過大家估計也用不到,所以我就不再介紹了)我的方法有效,但是簡陋。隨便一種流行的編程語言都能更好地實現語料提取步驟的簡化。所以,我正在學習python語言,以期能夠在以後用優美的編程語言更高效地解決(偷懶)項目中所遇到的問題。
PS:gif是採用屏幕錄像專家製作的,這個軟體在初中的時候就見過了,沒想到它還活著。這個軟體的錄屏功能十分強大,還能生成exe格式的錄屏視頻,十分方便,也能轉成各種格式,最良心的是個人非商業用途可以長期免費使用。在此安利一波。
更多項目介紹,請關注我們的項目專欄:
Chinas Prices Project - 知乎專欄項目聯繫方式:
- 項目郵箱(@iGuo 的郵箱):zhangguocpp@163.com
- 申請加入項目或者想給項目提供指導和幫助,請聯繫CHO @Suri :liuxiaomancpp@163.com
- 知乎:@iGuo (CEO)@Suri (COO&CHO,Human) @林行健@Dementia (CTO)@張土不 (CFO)@張一 (CRO,Research)
推薦閱讀: