AI編校能夠提高效率、擴大產(chǎn)能。

果麥文化:AI編校可替代有標(biāo)準(zhǔn)化答案的工作,預(yù)計兩年內(nèi)做到錯誤率十萬分之一

2023-06-01 10:46:46發(fā)布         

  多知網(wǎng)6月1日消息,最近果麥文化進行了投資者活動,提到編校是行業(yè)痛點,而AI編校能夠提高效率、擴大產(chǎn)能,目前已經(jīng)做出了AI編校Demo。

  果麥文化提到,出版行業(yè)成本由高至低分別為紙張和印刷、作者版稅、編校。編校是出版行業(yè)第三大成本來源,公司每年耗費千萬元用于編校,依舊無法解決編校難的問題。AI編校能夠提高效率、擴大產(chǎn)能。

  果麥文化有自己的研發(fā)部門,過去基于規(guī)則做編校相關(guān)的產(chǎn)品,但效果不理想。2022年,公司利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和通用大模型進行嘗試之后,發(fā)現(xiàn)其能夠解決過去基于規(guī)則不能解決的問題。去年做的小demo效果比較好,有信心基于通用大模型/自然語言處理去解決行業(yè)痛點。

  果麥文化進一步表示,目前國家標(biāo)準(zhǔn)是錯誤率萬分之一,AI編校達(dá)到千分之一就可以達(dá)成一個普通人的編校工作,預(yù)計在未來兩年可以做到十萬分之一,能100%解決問題。

  在果麥文化看來,ChatGPT4立足于海量數(shù)據(jù)的基礎(chǔ)上,對于原始已存在的錯誤,可能無法正確識別。而AI編校不會被超大模型覆蓋掉,出版行業(yè)不是夕陽產(chǎn)業(yè),2024年至2030年,預(yù)測會呈現(xiàn)穩(wěn)步增長趨勢。AI編校能夠提高效率,擴大產(chǎn)能,以往大部分編輯都在做編校工作,而不是創(chuàng)造性的工作。

  果麥文化還透露,已經(jīng)積累了7900萬左右的互聯(lián)網(wǎng)用戶,2020年下半年開始進行直播帶貨賣書,抖音十大讀書賬號果麥占據(jù)半壁江山(易中天、戴建業(yè)、小嘉啊、好書博物館等)。

  2019-2022年果麥To C收入占總收入比重分別約2%、10%、14%和18%,2023年Q1達(dá)到了24%。To C可以直接跟用戶做交易,沒有應(yīng)收賬款,顯著提升的To C收入占比改變了果麥的銷售模式,毛利率從2020年46%逐年上升,2023年Q1毛利率超過50%。從2014年到2019年,毛利率穩(wěn)步上升,已經(jīng)初步完成互聯(lián)網(wǎng)改造。

  關(guān)于AI編校的問答:

  Q1:在校對錯誤中,AI編校能解決好哪些類型?哪些類型解決不夠好以及怎么提升?

  1)校對錯誤一般四種:錯別字,語義錯誤,事實性錯誤,敏感詞錯誤。

  2)對于事實性錯誤和敏感詞錯誤,AI大模型做得比較好。

  3)語義錯誤:大模型基于全網(wǎng)去抓中文語料,往往被普通人的語言水平所影響,這個是未來重點要攻克的方向。

  4)未來AI編校主要集中在語義錯誤上,在這類錯誤識別上去提高精度。

  Q2:校對事實類錯誤和錯別字會同步進行嗎?

  中文具有模糊性的特征,有些錯別字需要結(jié)合具體語境去判斷。結(jié)合全文理解文字、識別錯別字、校對事實錯誤這三件事在難度上一致,而目前基于規(guī)則的模型都做不到,因此需要大模型或神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)。

  Q3:為什么會投資AI編校?

  1)編校是行業(yè)痛點,公司為此付出了很多人力成本。

  2)公司前期嘗試過AI編校,并且果麥也有自己的研發(fā)部門,過去基于規(guī)則做了編校相關(guān)的產(chǎn)品,但效果不理想;2022年,利用通用大模型進行初次嘗試后,有所突破,所以決定投資這個賽道。

  Q4:AI編校能做哪些相關(guān)工作?

  公司內(nèi)部主要是使用“十維數(shù)據(jù)分析系統(tǒng)”在輔助工作,目前AI編校做的主要工作是:替代有標(biāo)準(zhǔn)化答案的工作,譬如,在編輯日常工作過里的文字標(biāo)點符號錯誤、事實錯誤等,都可以通過AI編校模型去替代。