分论坛 > 上海 > 新闻动态
CCF YOCSEF上海成功举办“走进1号店”暨“语义计算在电商中的应用”学术报告会
2016-06-27 阅读量:644 小字

 

6月18日下午, CCF YOCSEF上海在嘉里城1号店 “赢和冠军”会议室成功举办了题为“语义计算在电商中的应用”学术报告会。苏州大学计算机系陈文亮教授、阿里巴巴算法专家吴晨博士、达观数据CEO陈运文先生三位担任演讲嘉宾。此外,东南大学教授漆桂林博士、浙江大学陈华钧教授担任了Panel嘉宾。来自1号店、携程等多家公司的技术人员参加了此次活动。
本次活动的执行主席和主持人是CCF YOCSEF上海委员、1号店搜索部计峰博士,以及YOCSEF上海副主席、华东理工大学王昊奋博士。本次活动的承办及赞助单位是1号店。
报告会首先由1号店搜索与精准化VP宋荣先生致辞。他首先代表1号店搜索与精准化部向各位与会的来宾表示感谢,同时表示这次活动也是1号店第一次与学术组织举办交流活动,也寄希望于本次活动可以成为1号店与学术界和兄弟公司沟通的开端,最后预祝本次活动能够圆满成功。

 
本次报告会的第一位演讲嘉宾是苏州大学计算机科学与技术学院陈文亮教授。他首先讲到面向互联网文本处理的语言分析,提到互联网文本种类多、数量大可以用于用户兴趣分析、舆情分析等,主要可通过分词、词性标注、句法分析、信息抽取等自然语言处理方法实现此过程中面临着现有语言分析工具性能下降的很快、互联网文本人工标注语料代价高速度慢等挑战。针对这些问题他提出人工局部标注和使用大规模无标注语料,建立局部标注语料+完整标注语料的局部标注学习框架框架中把局部标注转换成森林,最大化森林概率结果表明这种局部标注学习可以达到和完全标注相当的性能,节约大约60-70%的人工。接下来他提到针对大规模无标注语料使用存在有监督依存分析、无监督依存分析以及半监督依存分析,但有监督方法较难增加标注语料,而无监督方法虽无代价但性能较低,相比之下基于半监督方法的依存分析,主要为无标注语料+现有标注语料的方法代价较小并且性能较高。经典模型主要有self-trainingco-training特点是使用整颗自动标注依存树在此基础上探索使用子树结构解决整句标注不可靠的问题,准确率可达到84%可以减少人工并很大程度提高性能。第二部分陈教授讲到特定领域的知识获取,可通过人工选定种子、自动学习新词、层次聚类等半自动学习方法。第三部分讲到用户评论分析与表示,互联网在线评论数量大、文本杂乱噪音大针对这些问题他提出层次表示法,具体为建立基于层此次化只是表示体系、属性标签层次化评论文本中挖掘新关系。

 

 
本次报告会的第二位嘉宾是达观数据CEO陈运文先生。他首先梳理了个性化数据挖掘的缘由,提到获取信息的两种主要方式是搜索引擎和推荐系统搜索引擎是主动、明确的用户行为,推荐系统是被、模糊的用户行为面对陌生领域和难以用文字表达需求的场景中个性化需求体更明显。接下来他提到了个性化推荐系统的技术架构和工程实首先协同过滤可用来优化推荐质量,这种方法充分利用了用户的群体智慧,能够挖掘隐含的相关性展现跨越字面内容的推荐结果,推荐精度常高于content-based算法。而SVD等MF分解模型通常有更好的推荐精度,这种方法层充分利用User/Item bias信息,并且属性之间进行各种组合可作为全局bias来运用。在第三部分具体介绍了开发个性化推荐系统的工程经验,其中采用典型的三层架构(Offline-Nearline-Online)的分层模型来协调实时运算和离线挖掘,对训练样本深度挖掘,合理选取训练数据正负样本,并使用多种推荐策略Ensemble融合方法效果会好于单模型方法此外还提到实践中融合显示反馈和隐式反馈,显示反馈随容易获取但数量较稀疏,隐式反馈数据较大但往往被忽略。可采用SVDSVD++来挖掘隐式反馈并修正user/item latent vector提高推荐精度,有效补充了显式数据不足的问题。最后先生谈到企业服务的实践与体会,不同类型的商品,如快消品、周期型商品、耐用品及二次元商品等需有不同的推荐策略,并需要针对一些场景做数据的过滤,如一些负反馈数据,在推荐给用户多次但没有正反馈就需要将数据进行过滤,反之较影响推荐效果。

 
两个报告过后迎来了茶歇自由讨论时间。所有与会的嘉宾和听众都聚集到1号店的前台留下了纪念合影。合影过后,由1号店搜索部的张志浩总监带领大家参观了1号店嘉里城办公室的工作环境回到“赢和冠军”会议室后,志愿者为大家准备了点心水果饮料,在场的听众们围绕嘉宾报告中的内容展开讨论,气氛友好且热烈。
茶歇过后开始了下半场的报告及Panel讨论。
本次报告会的第位嘉宾是阿里巴巴公司的算法专家吴晨博士,他重点介绍了搜索中的query自动生成(QAC)技术,首先提到QAC场景是在用户输入单个词,根据用户意图预测出可能性最高的query这样使用户搜索快捷并降低服务器的负载。接下来他介绍了语义搜索是基于用户意图和搜索的上下进行检索 并不只依赖于query中的词面意思,相关的特征有当前热点、搜索的位置同义词等。第三部分重点展开讲解了query自动补全技术先指出依据出现的query去补全容易少量搜索词输入时错误估计用户的真实意图,对大量长尾不常见的query较难应对。针对这种问题提出上下文敏感的query自动补全方法依赖于用户最近的query、最近浏览的页面及最近的社交网站行为等来预估。并进一步讲到通过query推荐算法来query扩展提高覆盖率和准确其中一种典型算法是基树的推荐算法,这种算法中越深层的节点和种子query的相关。算法评估是先从query日志中随机选取(context,query)对做测试给定上下文query首字符来预测意图query排序位置是否较高另外还介绍了混合补全的方法较热query和上下文较相似混合做补全。第四部分讲到了词向量在query重生成中的应用,构建n-gram相似性特征pairwise特征,及基于卷积隐语义模型(CLSM)的主题相似性特征重生成特征,模型训练结果明显好于未加CLSM特征情况。最后词向量之外介绍了主题模型的现状及和词向量之间的比较。

 
接下来的Panel讨论环节,Panel嘉宾与在场听众一起围绕多个问题进行了热烈的讨论和思辨,其中形成的主要观点包括:1)相比深度学习等最近很火热的技术,知识图谱具有更好的可解释性,对于电商来说其实用性更强;2)在电商移动化和智能化的今天,无论是学术界还是工业界都认为知识图谱将有立足之地。其中,如何进行知识的表示和知识的抽取和融合是其中的难点;3)CCF YOCSEF是一个很好的平台来联系工业界和学术界,同时开放知识图谱联盟也提供了一个机会来解决学术界缺乏真实数据和需求,工业界缺乏人才和先进算法的窘境,提出举办竞赛、促进企业科研机构合作项目等方式来加速知识图谱产学研结合。 

 
Panel结束后,YOCSEF上海主席、复旦大学的彭鑫教授总结发言。他提到这次尝试在企业举办学术报告会是一种新的尝试,这种新的方式有助于架起学术界和企业沟通的桥梁。YOCSEF上海虽然以学术界为主体,但也希望能有更多的企业界委员加入扩大YOCSEF的影响力以及促进企业技术交流添砖加瓦。
 

 

 

热门动态
2018-07-31
CCF YOCSEF 上海分论坛于2018年7月23日晚在上海交通大学徐汇校区...
2018-07-14
人工智能(AI)在理论、技术和应用等方面得到学术界、产业界、教...
2018-07-11
CCF YOCSEF上海分论坛于2018年7月6日晚上在上海市黄浦区洛克外滩...
CCF聚焦