使用cmd命令簡化語料提取步驟

01-27

這篇專欄對各位看官的用處不大，只用於項目組組內交流。

大家好~，我是被@iGuo從他的另一個項目挖過來的15級大二老萌新，說是挖過來的，並不是因為咱有什麼特殊技能，而是iGuo說我有解決問題的能力（其實我只是嫌棄另一個項目的工作太繁瑣，想偷懶而已，手動滑稽）。

今天要給大家介紹的是我在iGuo的另一個項目所做的工作。

首先先介紹一下項目吧，項目名：管理層語料挖掘項目，這個項目用文本挖掘技術來分析公司管理層語料，從而達到預測公司業績的目的。

簡單來說，就是用爬蟲從信息披露網站上下載上市公司的財務報告，先提取其中的董事會報告部分，然後用文本挖掘技術分析董事會報告，挖掘其中的信息，來獲取公司管理層對公司業績的評估，從而來預測公司將來的業績。

項目的第一階段下載財報已經完成，項目目前處在第二階段——語料提取。

語料提取，就是複製粘貼財報中的董事會報告部分，然後保存到txt文件中。這是個苦力活T_T。

當時我是作為RA（研究助理）加入這個項目的，分配給每個RA的任務是提取500份財報中的董事會報告部分。提取一份財報里的語料的步驟如下gif圖所示，需要大約44秒的時間，500份就是44×500÷60÷60≈6小時。用文字來概括步驟就是：

天啊，500份，讓不讓人活啦。於是我就想著能不能簡化這個語料提取的步驟。提取步驟中最耗費時間的是複製文件名然後命名txt文件和選擇編碼的過程，經過簡化方法後達到的效果如下。

一份的所需時間是21秒，500份就是21×500÷60÷60≈3小時。（我的方法中用到了notepad++，因為notepad++能在一個窗口下打開多個txt文件，並且能一次性全部保存，也能夠節約時間。）

比起原本的步驟縮短了一半的時間。項目一共有26000份的報表，大概可以節約156小時，6天半。

節約了好多時間有沒有！偷懶成功！

那麼我是如何簡化提取步驟的呢？大致思路如下：

保存步驟notepad++已經解決了，選擇編碼則可以新建txt文件，保存為需要的編碼，然後採用複製粘貼，就能快速得到500個空白的、編碼符合要求的txt文件了，最關鍵的重命名步驟，我則是使用了dos命令來實現。

win+R 呼出運行窗口，輸入cmd啟動cmd.exen

盤符：= 切換盤符例如：d:n

cd 目錄 = 切換目錄例如：d:語料提取項目txtn

dir/b = 顯示當前目錄下所有文件名(包括擴展名) nnon = 按字母順序顯示 n n>list.xls = 排成一列，並且用xls格式保存n例如：d:語料提取項目txtndir/b/on>list.xls 可以實現：將txt目錄下的所有文件的文件名按字母順序排序，並創建list.xls，將文件名在list.xls中排成一列n

ren A B = 用B的文件名替換A的文件名，ren是一個bat命令，只對bat文件所在目錄起作用。n

操作步驟如下：

以上就是我在管理層語料提取項目所做的簡化工作啦。（操作中還有一些細節，不過大家估計也用不到，所以我就不再介紹了）

我的方法有效，但是簡陋。隨便一種流行的編程語言都能更好地實現語料提取步驟的簡化。所以，我正在學習python語言，以期能夠在以後用優美的編程語言更高效地解決（偷懶）項目中所遇到的問題。

PS：gif是採用屏幕錄像專家製作的，這個軟體在初中的時候就見過了，沒想到它還活著。這個軟體的錄屏功能十分強大，還能生成exe格式的錄屏視頻，十分方便，也能轉成各種格式，最良心的是個人非商業用途可以長期免費使用。在此安利一波。

更多項目介紹，請關注我們的項目專欄：

Chinas Prices Project - 知乎專欄項目聯繫方式：

項目郵箱（@iGuo 的郵箱）：zhangguocpp@163.com
申請加入項目或者想給項目提供指導和幫助，請聯繫CHO @Suri ：liuxiaomancpp@163.com
知乎：@iGuo （CEO）@Suri （COO&CHO，Human） @林行健@Dementia （CTO）@張土不（CFO）@張一（CRO，Research）