合合信息IPO:文檔解析技術(shù)加速財報精準(zhǔn)“研讀”
2024-09-20 12:45 互聯(lián)網(wǎng)
隨著上市公司2024年中報披露高峰期的到來,海量財務(wù)報告的解讀成為金融行業(yè)從業(yè)者面臨的重大挑戰(zhàn)。為了緩解這一壓力,并提升人工智能大模型在財報分析中的準(zhǔn)確性和效率,合合信息對其大模型“加速器”方案中的PDF文檔解析技術(shù)進行了優(yōu)化升級,旨在將非結(jié)構(gòu)化的PDF內(nèi)容高效轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),助力大模型實現(xiàn)從“泛讀”到“精讀”的飛躍。
PDF作為主流電子文件格式,廣泛應(yīng)用于企業(yè)財報、年報等重要文件的發(fā)布。然而,這些文件往往包含復(fù)雜的表格、圖表、證照等元素,對AI大模型的文檔解析能力提出了嚴峻考驗。傳統(tǒng)大模型在處理此類文件時,常因“理解力”不足和數(shù)據(jù)讀取錯誤,導(dǎo)致關(guān)鍵信息丟失或誤解,進而影響分析結(jié)果的準(zhǔn)確性。
合合信息的PDF文檔解析技術(shù)則通過多文檔元素識別和版面分析能力,能夠精準(zhǔn)識別文檔中的段落、公式、頁眉、頁腳等多種元素,并有效應(yīng)對財報中常見的無線表、合并單元格、不規(guī)則行距等復(fù)雜版面問題。該技術(shù)不僅提升了表格結(jié)構(gòu)還原的準(zhǔn)確性,還能推斷出人類閱讀時的自然順序,避免了機械排序帶來的信息割裂,實現(xiàn)了真正的“所見即所得”。
據(jù)合合信息技術(shù)團隊成員介紹,上市公司年報頁數(shù)大多集中在200至300頁的范圍內(nèi),一個熟練的分析師可能在幾天到一周的時間內(nèi)完成對年報的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時為一天工作時間計算,解析工具可幫助大模型在一日內(nèi)對數(shù)千家企業(yè)的年報數(shù)據(jù)進行精準(zhǔn)分析。隨著無紙化辦公、數(shù)字化趨勢發(fā)展,PDF文檔解析技術(shù)有望被應(yīng)用于更廣泛的場景。
目前,合合信息登陸科創(chuàng)板上市,并啟動IPO申購。憑借其在智能文字識別及商業(yè)大數(shù)據(jù)領(lǐng)域的深厚積累和技術(shù)優(yōu)勢,合合信息正為全球C端用戶和多元行業(yè)B端客戶提供更加數(shù)字化、智能化的產(chǎn)品和服務(wù)。未來,隨著技術(shù)的不斷迭代和應(yīng)用場景的持續(xù)拓展,合合信息有望在更多領(lǐng)域?qū)崿F(xiàn)突破,推動人工智能技術(shù)的普及和應(yīng)用。
廣告